8 agoTempo di lettura: 34 min

Come MoMa di Meta innova il pre-addestramento nei modelli linguistici multimodali

La ricerca intitolata "MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts" è stata realizzata da un team di ricercatori di Meta FAIR, composto da esperti nel campo dell'intelligenza artificiale e del machine learning. Questo studio ha l'obiettivo di migliorare l'efficienza dei processi di preaddestramento di modelli di linguaggio multimodali, adottando una struttura innovativa che utilizza una combinazione di esperti AI consapevoli della modalità. Il lavoro ha dimostrato miglioramenti significativi nell'efficienza del preaddestramento, promuovendo un uso più efficace delle risorse computazionali in contesti di apprendimento multimodale.

Il team di ricerca include:

- Xi Victoria Lin: Ricercatrice presso Meta, specializzata in modelli di linguaggio e intelligenza artificiale.

- Akshat Shrivastava: Coinvolto nello sviluppo di tecnologie di apprendimento profondo e intelligenza artificiale.

- Liang Luo: Si occupa di ricerca e sviluppo nell'intelligenza artificiale, con particolare attenzione alle tecniche di apprendimento automatico.

- Srinivasan Iyer: Esperto di processamento del linguaggio naturale e intelligenza artificiale.

- Mike Lewis: Ricercatore che lavora sull'interazione uomo-macchina e la comprensione del linguaggio naturale tramite IA.

- Gargi Ghosh: Specializzata in analisi dei dati e apprendimento automatico.

- Luke Zettlemoyer: Professore e ricercatore di rilievo nel campo dell'elaborazione del linguaggio naturale (NLP, Natural Language Processing) e dei modelli di linguaggio. Attualmente è professore presso la Paul G. Allen School of Computer Science & Engineering dell'Università di Washington e lavora anche come ricercatore principale presso Meta AI.

- Armen Aghajanyan: Focalizzato su architetture neurali e applicazioni di intelligenza artificiale.

L'approccio proposto dal team di Meta FAIR si distingue per l'adozione di una fusione precoce, dove i dati di diverse modalità vengono integrati sin dalle prime fasi del processo di addestramento. Questa strategia permette non solo di ottimizzare l'uso delle risorse computazionali, ma anche di migliorare le prestazioni del modello su compiti multimodali. Il coinvolgimento di esperti AI consapevoli della modalità garantisce che ogni tipo di dato venga trattato con la specificità necessaria, massimizzando così l'efficacia dell'intero processo di apprendimento.

Come MoMa di Meta innova il pre-addestramento nei modelli linguistici multimodali

Gli avanzamenti nel campo dell'intelligenza artificiale generativa hanno portato allo sviluppo di modelli multimodali capaci di gestire contemporaneamente diversi tipi di dati, come immagini e testi. Questi modelli hanno dimostrato un potenziale significativo, specialmente in applicazioni che richiedono la capacità di comprendere e generare contenuti misti. Utilizzati in una varietà di compiti, dalla risposta a domande basate su immagini alla creazione di contenuti che combinano testo e immagini, questi modelli stanno spingendo i confini delle capacità dell'intelligenza artificiale di comprendere e interagire con il mondo.

Un esempio pratico di questi modelli è un sistema che, dato un'immagine, riesce a descriverla con un testo dettagliato o a rispondere a domande specifiche riguardanti l'immagine stessa. Questi modelli sono addestrati su grandi quantità di dati che includono sia testi che immagini, permettendo loro di comprendere le connessioni tra le diverse modalità di dati. Così, se viene fornita un'immagine di un paesaggio, il modello può generare una descrizione testuale accurata del paesaggio, identificando elementi come montagne, alberi e fiumi. Allo stesso modo, se viene posta una domanda su un particolare elemento visivo nell'immagine, il modello è in grado di fornire una risposta pertinente basata sulle informazioni visive disponibili.

Un'architettura comunemente utilizzata per i modelli multimodali prevede la fusione di encoder o decoder specifici per ciascuna modalità. Tuttavia, questo approccio può limitare la capacità del modello di integrare informazioni tra le diverse modalità e generare contenuti che combinano più modalità. Per superare questa limitazione, è stata introdotta un'architettura basata su un singolo trasformatore con l'obiettivo di prevedere il token successivo per modellare sequenze multimodali composte da immagini e testi. Questo consente un ragionamento e una generazione senza soluzione di continuità attraverso le diverse modalità. Un esempio di questo approccio è Chameleon, sviluppato dal team di Ricerca Fondamentale sull'Intelligenza Artificiale (FAIR) di Meta. Questo modello è stato pre-addestrato su circa 10 trilioni di token multimodali e ha dimostrato capacità avanzate sia nel riconoscimento visivo che nell'elaborazione del linguaggio. Chameleon è stato in grado di superare modelli commerciali di riferimento nella generazione di risposte lunghe e multimodali. Tuttavia, l'ampliamento di tali modelli fondamentali ad alta fusione per gestire capacità maggiori presenta sfide computazionali significative.

Per affrontare queste sfide, è stata esplorata l'applicazione di architetture sparse instradate. Queste architetture si sono dimostrate efficaci nel migliorare i modelli fondamentali specifici per linguaggio e visione, così come nell'apprendimento contrastivo multimodale, un approccio che permette di mettere a confronto diverse modalità di dati, come testo e immagini, per trovare somiglianze e differenze. Tuttavia, l'applicazione di queste architetture ai modelli ad alta fusione multimodali, che integrano strettamente dati di diversa natura, presenta sia opportunità che sfide uniche. Le opportunità includono la possibilità di creare modelli più versatili e potenti, in grado di gestire e comprendere informazioni complesse provenienti da diverse fonti. Le sfide riguardano principalmente la complessità della progettazione e dell'addestramento di tali modelli, che richiede un equilibrio delicato tra diverse componenti e l'ottimizzazione delle risorse computazionali.

L'intuizione alla base di questo approccio è la diversità intrinseca delle modalità: i token di testo e immagine hanno densità di informazione e schemi di ridondanza differenti. Pur integrando questi token in un'architettura ad alta fusione unificata, si propone di ottimizzare ulteriormente questo framework incorporando moduli specifici per ciascuna modalità. Questo concetto, definito come "sparse modality-aware" (MaS), permette ai modelli di catturare meglio le caratteristiche specifiche di ogni modalità, mantenendo comunque una forte integrazione tra le modalità attraverso la condivisione parziale dei parametri e meccanismi di attenzione. L'idea si ispira a lavori precedenti come VLMo (Bao et al., 2022), BEiT-3 (Wang et al., 2022a) e VL-MoE (Shen et al., 2023), che hanno utilizzato approcci di "mixture-of-modality-experts" (MoME) per addestrare encoder capaci di gestire visione e linguaggio, nonché modelli di linguaggio mascherati.

Per sviluppare questo approccio è stata utilizzata l'architettura Chameleon come base per il trasformatore, implementando una sparsa in due dimensioni principali. La sparsa, in questo contesto, si riferisce a una tecnica che riduce la quantità di calcoli necessari concentrandosi solo su parti specifiche dell'informazione. La prima dimensione di sparsa riguarda la larghezza, che viene gestita attraverso il concetto di "mixture-of-experts" (MoE), traducibile come "miscuglio di esperti". Questa tecnica prevede la distribuzione dei token, cioè unità di informazione o parole, attraverso un insieme di blocchi feed-forward chiamati esperti a ciascun livello del modello.

Gli esperti sono suddivisi in gruppi specifici per modalità. Ogni gruppo di esperti elabora solo i token che appartengono alla modalità a loro designata. L'instradamento dei token avviene all'interno di ciascun gruppo e si basa su una semantica adattiva. Questo significa che il sistema decide dinamicamente quale esperto all'interno del gruppo sia più adatto a gestire un particolare token, basandosi sul significato o il contesto del token stesso.

In pratica, l'approccio "mixture-of-experts" consente di rendere l'elaborazione delle informazioni più efficiente. Invece di far passare ogni token attraverso tutti i possibili calcoli, si indirizza ogni token solo attraverso il percorso più pertinente, riducendo così il carico computazionale complessivo e migliorando la capacità del modello di gestire grandi quantità di dati con maggiore precisione e velocità.

La seconda dimensione riguarda la profondità, dove viene introdotto il concetto di "combinazione di profondità" (MoD). Questo consente ai singoli token di saltare selettivamente alcune operazioni di calcolo, come l'attenzione e il feed-forward, in determinati livelli del processo. Sia per la profondità che per altre dimensioni, viene utilizzato un sistema di instradamento che coinvolge la scelta degli esperti. Tale sistema garantisce una distribuzione equilibrata del carico di lavoro e la stabilità della struttura di calcolo. Questi aspetti sono essenziali per assicurare un'elevata velocità durante il processo di addestramento.

Sono stati condotti esperimenti controllati dal numero di operazioni (FLOPs) confrontando l'architettura proposta con una versione densa e con diverse varianti sparse. Con un budget di addestramento di 1 trilione di token, il modello Chameleon-MoMa da 1,4 miliardi di parametri, utilizzando 4 esperti per il testo e 4 esperti per le immagini, ha ottenuto un notevole risparmio del 3,7 volte nelle operazioni rispetto alla versione densa equivalente, mantenendo una riduzione relativamente modesta del 17% nella velocità di throughput. Al contrario, il modello standard con scelta degli esperti MoE con 8 esperti multimodali ha ottenuto un risparmio di 3 volte nelle operazioni con una riduzione del 9% nel throughput. La combinazione con MoD (Chameleon-MoMaD) ha ulteriormente aumentato il risparmio nelle operazioni fino a 4,2 volte, ma la performance inferenziale auto-regressiva del modello MoD è risultata compromessa a causa della sensibilità all'accuratezza dell'instradamento, portando a una performance inferiore rispetto a Chameleon-MoMa.

È stato dimostrato che la performance del modello Chameleon-MoMa può essere migliorata attraverso una tecnica di upcycling senza legami di modalità. Questa tecnica consiste nel migliorare un modello già esistente senza aggiungere nuovi dati o risorse, ma utilizzando in modo più efficiente ciò che è già disponibile. Nel contesto di Chameleon-MoMa, ciò significa che il modello può essere inizializzato con un'architettura sparsa di base. Successivamente, viene ottimizzato l'apprendimento dell'instradamento, ovvero la capacità del modello di scegliere il percorso migliore tra le diverse modalità disponibili.

Dopo aver addestrato il modello di base per 10.000 passi, il risultato ottenuto è una riduzione delle operazioni necessarie per il funzionamento del modello. Questa riduzione è significativa perché permette di mantenere o addirittura migliorare le prestazioni del modello, rendendolo più efficiente senza sacrificare la qualità dei risultati. Ad esempio, se il modello Chameleon-MoMa è utilizzato per analizzare immagini e testi contemporaneamente, l'approccio descritto permette di ridurre il carico computazionale senza perdere in accuratezza nell'analisi.

Apprendimento end-to-end e scalabilità nel modello MoMa multimodale

Il modello si basa sull'architettura "early fusion" introdotta da Chameleon, che rappresenta immagini e testi come una serie di "token" discreti all'interno di un trasformatore unificato. Il cuore di Chameleon è un modello basato su trasformatori che applica meccanismi di autoattenzione (self-attention) su una sequenza combinata di token di immagine e testo. L'autoattenzione è una tecnica che permette al modello di valutare le relazioni tra diverse parti di un input, indipendentemente dalla loro posizione nella sequenza. Questo consente al modello di catturare relazioni complesse sia tra diverse modalità, come testo e immagini, sia all'interno di ciascuna modalità. Il modello è addestrato utilizzando un obiettivo di previsione del token successivo, imparando a generare sia token di testo sia di immagine in modo autoregressivo, ossia predicendo il token successivo basandosi sui precedenti.

In Chameleon, le immagini vengono trasformate in token attraverso un tokenizzatore di immagini appreso che codifica un'immagine di 512 per 512 pixel in 1024 token discreti provenienti da un "codebook". Un tokenizzatore è uno strumento che suddivide un input, come un'immagine o un testo, in unità discrete. Il testo è trasformato in token usando un tokenizzatore BPE (Byte Pair Encoding) con un vocabolario di 65.536 token, che include gli 8192 token del codebook delle immagini. Questo schema di tokenizzazione unificato permette al modello di elaborare sequenze arbitrarie di token di immagini e testo intrecciati.

L'adozione di questo approccio di "early fusion" comporta diversi vantaggi:

1. Rappresentazione unificata: Il modello impara uno spazio di rappresentazione condiviso per immagini e testo, facilitando il ragionamento e la generazione tra modalità diverse. Questo significa che il modello è in grado di comprendere e generare contenuti che combinano testo e immagini in modo coerente. Ad esempio, un modello può essere in grado di generare una descrizione di un'immagine, integrando informazioni visive e testuali in modo armonioso.

2. Flessibilità: L'architettura può gestire sequenze arbitrarie di immagini e testo, abilitando compiti multimodali diversi come la descrizione di immagini (image captioning), il dialogo visivo e la generazione di documenti misti. Ciò significa che il modello è in grado di affrontare una vasta gamma di attività che richiedono l'uso simultaneo di testo e immagini, adattandosi a molteplici applicazioni.

3. Scalabilità: L'approccio basato sui token consente un'elaborazione uniforme dei dati sia testuali che visivi, permettendo una scalabilità efficiente verso modelli di dimensioni maggiori e dataset diversificati. Ciò permette al modello di gestire enormi quantità di dati e di essere addestrato su dataset estesi e complessi, come dimostrato da Chameleon, che è stato addestrato su circa 10 trilioni di token eterogenei.

4. Apprendimento end-to-end: L'intero modello autoregressivo è addestrato end-to-end, consentendo l'ottimizzazione congiunta della rappresentazione e delle prestazioni specifiche del compito. L'addestramento end-to-end implica che il modello viene addestrato come un unico sistema, ottimizzando contemporaneamente tutte le sue parti per migliorare le prestazioni complessive.

Basandosi su questa struttura, MoMa introduce tecniche di parsimonia consapevoli della modalità per migliorare ulteriormente l'efficienza e le prestazioni dei modelli di early fusion. Queste tecniche mirano a risolvere le sfide computazionali associate alla scalabilità dei modelli di early fusion mantenendo le loro capacità di ragionamento cross-modale, ovvero l'abilità del modello di integrare e utilizzare informazioni provenienti da diverse modalità in modo coerente e significativo.

Scalatura della larghezza: Combinazione di esperti consapevoli della modalità

MoMa propone un approccio per scalare la larghezza che integra un metodo parsimonioso, volto a minimizzare l'uso delle risorse, nel modulo feed-forward, estendendo l'architettura standard del "mixture-of-experts" (MoE).

Nel contesto della formulazione degli esperti consapevoli della modalità (MoMa), gli esperti in ogni strato MoE vengono divisi in gruppi distinti, ognuno specializzato nell'elaborazione di token da una specifica modalità. Esistono gruppi per elaborare i token di testo e altri per quelli di immagine. Questa separazione consente a ciascun gruppo di specializzarsi in funzionalità rilevanti per la sua modalità rispettiva. Ad esempio, gli esperti di testo possono concentrarsi su caratteristiche linguistiche, mentre gli esperti di immagini si focalizzano su elementi visivi.

Implementando la parsimonia a blocchi consapevole della modalità, si mira a ottenere diversi benefici:

- Maggiore efficienza: Instradando i token verso esperti specifici della modalità, si riduce il sovraccarico computazionale dell'elaborazione di token con esperti non specializzati per la loro modalità. Ad esempio, se un token rappresenta un'immagine, viene elaborato solo dagli esperti di immagine, riducendo il carico di lavoro complessivo.

- Specializzazione avanzata: I gruppi di esperti specifici della modalità possono sviluppare funzionalità più raffinate rilevanti per le rispettive modalità. Ciò consente al modello di apprendere rappresentazioni più dettagliate e precise per ciascuna modalità.

- Integrazione Cross-Modale mantenuta: Nonostante la separazione in gruppi specifici per modalità, il modello mantiene la capacità di integrare informazioni tra modalità attraverso i meccanismi di autoattenzione condivisi negli strati non-MoE. Questo assicura che, anche se i token vengono elaborati separatamente, le informazioni possono comunque essere combinate per ottenere una comprensione coerente.

L'approccio di instradamento gerarchico utilizza un meccanismo di instradamento basato sui token, che opera in due fasi per ciascun token di input. In primo luogo, i token vengono instradati al gruppo di esperti specifico per la loro tipologia, che può essere testo o immagine. Successivamente, all'interno di ciascun gruppo di esperti specifico della modalità, i token vengono instradati a esperti specifici utilizzando una funzione di instradamento appresa. Una matrice di proiezione viene utilizzata per calcolare i punteggi di affinità token-esperto, determinando quale esperto è più adatto a elaborare un determinato token.

All'interno di ciascun gruppo di modalità, viene utilizzato un meccanismo chiamato "expert-choice" (EC), che in italiano può essere tradotto come "scelta dell'esperto". Questo metodo è un sistema di instradamento in cui ogni "esperto", ossia una parte del modello addestrato per un compito specifico, gestisce una quantità fissa di dati, chiamata "bucket", e si occupa di elaborare i token più importanti, cioè quelli che hanno un valore più alto, all'interno di un insieme di dati chiamato "batch".

Il meccanismo EC garantisce che gli esperti vengano utilizzati in modo equilibrato durante il processo di addestramento del modello. Questo è importante perché, senza un equilibrio, alcuni esperti potrebbero essere sovraccaricati di lavoro mentre altri potrebbero rimanere inattivi. Con l'EC, non è necessario includere un termine di perdita separato per il bilanciamento del carico. Un "termine di perdita" è una componente di un modello di apprendimento automatico utilizzato per valutare quanto il modello si discosti dai risultati desiderati; qui, serve a garantire che il lavoro sia distribuito equamente tra gli esperti.

Tuttavia, c'è un aspetto negativo nel sistema di routing EC, specialmente quando si tratta di modellare il linguaggio in modo autoregressivo. La modellazione autoregressiva è un approccio che genera testo una parola alla volta, utilizzando ciascuna parola generata come base per generare la successiva. Questo metodo richiede che ogni passo sia basato solo sulle informazioni già conosciute e non su quelle future. Nel routing EC, invece, ogni esperto sceglie i token da elaborare in un batch confrontando i loro punteggi, il che può interferire con la sequenzialità e la causalità necessarie per una corretta modellazione autoregressiva. Ciò accade perché gli esperti valutano i token basandosi su punteggi che possono dipendere da informazioni future, compromettendo la logica di causalità necessaria per mantenere un flusso naturale di linguaggio.

Per comprendere meglio, si può pensare alla modellazione del linguaggio autoregressivo come a scrivere una storia, dove ogni frase è scritta basandosi solo su ciò che è già stato scritto. Invece, il sistema EC somiglia più a una situazione in cui diversi scrittori scelgono le frasi da scrivere basandosi su quanto esse appaiono promettenti nel contesto generale, ma senza rispettare necessariamente l'ordine in cui le frasi devono comparire per avere senso. Questo può portare a incoerenze nel testo generato.

Per risolvere il problema e permettere l'addestramento con il metodo "expert-choice" nei modelli di linguaggio autoregressivi, vengono utilizzate due tecniche specifiche.

La prima tecnica consiste nell'impiego della funzione Sigmoid nella funzione di punteggio del router. La funzione Sigmoid è un tipo di funzione matematica che permette di calcolare in modo indipendente i punteggi di affinità tra i token e gli esperti per ogni singolo token. In pratica, consente di determinare quanto un certo token è adatto ad essere elaborato da un determinato esperto, senza influenzare la selezione degli altri token.

La seconda tecnica prevede l'introduzione di router ausiliari. Questi router hanno il compito di prevedere la probabilità che un esperto selezioni un token basandosi unicamente sulla sua rappresentazione interna, detta anche "rappresentazione di stato nascosto". Questi router ausiliari vengono addestrati una volta completato l'addestramento del modello principale e sono utilizzati durante il processo di inferenza. L'inferenza è il momento in cui un modello addestrato viene utilizzato per fare previsioni su nuovi dati. Grazie a questi router ausiliari, si può garantire che il modello rispetti la causalità necessaria per una corretta modellazione autoregressiva.

In pratica, il modulo MoMa per un token di input si basa sulla combinazione degli output degli esperti specifici per quella modalità. Viene applicata una tecnica chiamata connessione residua, che aiuta a mantenere l'informazione originale pur aggiungendo nuova informazione, e viene utilizzata la normalizzazione del trasformatore Swin. La normalizzazione è un processo che aiuta a migliorare la stabilità e la velocità di addestramento dei modelli.

Gli esperimenti dimostrano che MoMa migliora significativamente l'efficienza e le prestazioni rispetto alle architetture dense e alle architetture MoE standard. Questo approccio consente al modello di affrontare in modo efficace i compiti multimodali, combinando l'elaborazione specializzata e l'integrazione delle informazioni.

Mixture-of-Depths nel modello MoMa

L'approccio all'introduzione della scarsità nella dimensione della profondità all'interno di modelli di intelligenza artificiale è un tema di crescente interesse. Studi precedenti hanno esplorato la scarsità in profondità attraverso tecniche come lo "stochastic layer drop", che consiste nell'eliminare casualmente alcuni livelli durante l'addestramento, o mediante "learnable routers", ossia router che possono apprendere quali livelli utilizzare. Il focus si concentra sui "learnable routers" e sull'integrazione della tecnica "mixture-of-depths" (MoD), un metodo che permette al modello di decidere dinamicamente quali strati attivare.

In ogni strato MoD, la tecnica viene applicata prima di qualsiasi routing tramite "mixture-of-experts" (MoE), garantendo che l'intero batch di dati venga processato prima della divisione per modalità. Seguendo l'approccio descritto da Raposo et al. nel 2024, per ciascun strato MoD viene utilizzata una matrice di proiezione per calcolare un punteggio di affinità tra il token e lo strato. Questo punteggio viene poi trasformato attraverso una funzione sigmoidea per ottenere un valore compreso tra zero e uno. La matrice di proiezione è un insieme di pesi che trasforma i dati in ingresso in una rappresentazione che può essere utilizzata per calcolare l'affinità con lo strato.

Similmente al routing basato sulla scelta degli esperti in MoE, viene impostata una capacità fissa di selezione dei token migliori all'interno di un batch. I token selezionati sono quelli con i punteggi più alti, e la capacità di selezione viene definita da un fattore empirico. In pratica, si stabiliscono prima l'intervallo degli strati MoD e il fattore di capacità, quindi si regola il numero totale di strati transformer per garantire che l'architettura risultante abbia una complessità computazionale (misurata in FLOPs per token) comparabile a quella dell'architettura di base.

Durante la fase di inferenza, ovvero quando il modello viene utilizzato per fare previsioni su nuovi dati, non è possibile applicare direttamente il routing basato sulla scelta degli esperti per MoE e la scelta degli strati per MoD, poiché la selezione dei migliori token all'interno di un batch comprometterebbe la causalità. La causalità si riferisce al bisogno di mantenere l'ordine sequenziale dei dati per ottenere risultati accurati. Per affrontare questo problema, viene introdotto un sistema di router ausiliari che predice la probabilità che un token venga selezionato da un esperto o uno strato basandosi esclusivamente sulla sua rappresentazione interna.

Per formalizzare il processo, in ogni strato MoE viene introdotto un router ausiliario che calcola un punteggio di selezione attraverso una funzione non lineare denominata "SiLU" seguita da una sigmoide. Questa funzione di attivazione, "SiLU", è un tipo di funzione che consente al modello di gestire la non linearità dei dati. Le matrici di pesi utilizzate in questo contesto trasformano la rappresentazione del token per determinare la probabilità di selezione.

Un metodo analogo viene applicato agli strati MoD, dove un altro router ausiliario utilizza anch'esso una combinazione di SiLU e sigmoide per calcolare le probabilità di selezione.

Il processo di allenamento si svolge in due fasi. Nella prima fase, il modello principale viene addestrato fino a convergenza, cioè fino a quando non migliora ulteriormente. Successivamente, nella seconda fase, i router ausiliari vengono addestrati separatamente usando una funzione di perdita basata sulla "binary cross-entropy", che misura l'errore tra le previsioni del modello e i dati effettivi. Questa funzione di perdita guida l'ottimizzazione del modello affinché le previsioni siano più vicine ai valori reali. Durante l'inferenza, i router principali vengono utilizzati solo per generare i valori dei pesi, mentre i token vengono instradati selettivamente a un esperto o a un livello basandosi sul superamento di una soglia prefissata dai router ausiliari. Se il punteggio del router ausiliario supera 0.5, il token viene instradato all'esperto o allo strato pertinente. Questo approccio assicura che la selezione dei token avvenga in modo efficiente e mantenendo la causalità.

Per comprendere il meccanismo illustrato, possiamo immaginarlo come un grande supermercato in cui dobbiamo fare la spesa per una famiglia. Ogni corsia del supermercato rappresenta uno strato di un modello di intelligenza artificiale. Poiché il supermercato è vasto, sarebbe inefficiente percorrere ogni corsia per ogni articolo della lista della spesa, dato che non tutte le corsie sono sempre necessarie.

La "scarsità nella dimensione della profondità" nel contesto dei modelli di intelligenza artificiale è simile all'ottimizzazione del percorso attraverso il supermercato. Solo le corsie rilevanti per i prodotti specifici nella lista della spesa vengono visitate, evitando quelle che non contengono nulla di utile. I "learnable routers" funzionano come un GPS interno che, nel tempo, apprende quali corsie percorrere per ottenere gli articoli necessari nel modo più efficiente possibile.

La tecnica del "mixture-of-depths" (MoD) funziona come un sistema intelligente che decide dinamicamente quali corsie percorrere in base agli articoli nella lista. Prima di scegliere un prodotto specifico, il sistema esamina l'intera lista della spesa, assicurandosi che il piano di acquisto sia ottimale.

Quando entri nel supermercato con la tua lista di articoli (equivalente a un batch di dati), il sistema MoD decide quali corsie visitare, proprio come un acquirente esperto che pianifica il percorso migliore per coprire l'intero negozio senza perdite di tempo. La matrice di proiezione funge da indicatore di affinità, valutando quanto un certo prodotto sia adatto alla corsia scelta, e il punteggio ottenuto viene trasformato in un semaforo verde o rosso che indica se la corsia deve essere visitata.

Durante l'inferenza, che nel nostro caso è l'atto di fare effettivamente la spesa per la famiglia, non è pratico fermarsi a considerare ogni corsia con attenzione come durante la pianificazione iniziale. Invece, vengono utilizzati router ausiliari, che sono come assistenti virtuali che conoscono il layout del negozio e possono prevedere quali corsie sono più probabili per contenere i prodotti desiderati, solo in base alla conoscenza degli articoli sulla lista.

Il processo di ottimizzazione si svolge in due fasi: nella prima, viene addestrato il modello principale, paragonabile all'apprendimento della disposizione degli articoli in un supermercato per pianificare la spesa in modo efficiente. Successivamente, i router ausiliari vengono addestrati con dati reali per migliorare la loro capacità di prevedere quali corsie visitare. Alla fine, durante la spesa vera e propria, i router principali stabiliscono le priorità dei prodotti, mentre i router ausiliari determinano rapidamente quali corsie attraversare, assicurando che l'intero processo di acquisto sia il più efficiente possibile, risparmiando tempo e mantenendo l'ordine nella lista della spesa.

In questo modo, la spesa viene completata nel modo più efficiente possibile, soddisfacendo tutte le esigenze della famiglia senza dover esplorare l'intero supermercato, proprio come un modello di intelligenza artificiale che opera con la massima efficienza selezionando solo gli strati rilevanti per un dato compito.

Upcycling nel modello MoMa e ottimizzazione delle architetture MoE

L'addestramento di architetture MoE che includono router apprendibili fin dall'inizio presenta delle sfide particolari. Queste riguardano l'ottimizzazione sia dello spazio delle rappresentazioni sia del meccanismo di instradamento, come discusso da Xue et al. nel 2024. Il punto critico è che i router MoE hanno il compito di suddividere lo spazio delle rappresentazioni per ogni esperto, ma questo spazio delle rappresentazioni risulta sub-ottimale nelle prime fasi di addestramento del modello. Di conseguenza, anche la funzione di instradamento viene addestrata in modo non ottimale.

Per risolvere questo problema nell'addestramento dei router, è stata proposta un'innovativa strategia di riutilizzo, detta "upcycling", ispirata dai lavori di Komatsuzaki et al. nel 2023. Questo approccio inizia con l'addestramento di un'architettura che include un singolo esperto FFN (feedforward network, o rete neurale feedforward) per ogni modalità di input. Dopo un certo numero di passi di addestramento, il modello viene trasformato, o "upcycled", convertendo ciascun FFN specifico per modalità in un modulo MoE a scelta di esperto. Ogni esperto viene inizializzato con l'esperto addestrato nella prima fase. Durante questa trasformazione, il pianificatore del tasso di apprendimento viene reimpostato, mentre lo stato del caricatore dei dati (data loader) viene mantenuto dal primo stadio, garantendo che l'addestramento nella seconda fase abbia accesso a dati aggiornati.

Per promuovere la specializzazione degli esperti, la funzione di instradamento MoE è potenziata con l'aggiunta di rumore di Gumbel. Questo tipo di rumore permette al router di campionare gli esperti in modo differenziabile, come illustrato dagli studi di Liu et al. nel 2022b e Geng et al. nel 2020. La formula che descrive questo meccanismo è nota come Gumbel-Sigmoid, che applica una trasformazione sigmoidale ai dati a cui è stato aggiunto il rumore di Gumbel. Il rumore di Gumbel è un tipo di rumore stocastico che viene utilizzato per effettuare selezioni in modo differenziabile all'interno di reti neurali. Questo avviene sommando due campioni indipendenti di rumore Gumbel ai dati originali prima di applicare la funzione sigmoide.

L'approccio di riutilizzo, combinato con la tecnica Gumbel-Sigmoid, permette di superare le limitazioni dei router appresi e di ottenere migliori prestazioni nell'architettura sparsa che tiene conto delle modalità. In pratica, è stato osservato che una breve fase di addestramento iniziale, di circa 10.000-20.000 passi, migliora significativamente l'efficienza e la stabilità dell'allenamento del modello, in linea con i risultati riportati da Xue et al. nel 2024. Questo metodo fornisce una base più robusta su cui costruire il modello completo, migliorando l'accuratezza e la specializzazione degli esperti coinvolti.

Per capire il meccanismo descritto, possiamo immaginare di trovarci in un supermercato e paragonare il processo di upcycling e l'addestramento delle architetture MoE all'organizzazione di un reparto che vende cibi specializzati. Inizialmente, viene aperto un piccolo stand con un solo tipo di prodotto, come la frutta fresca. Questo stand viene gestito per un certo periodo, permettendo al personale di imparare a gestire la frutta in modo efficiente e ottimale.

Durante questa fase iniziale, il personale impara a sistemare la frutta sugli scaffali, a tenerla fresca e a servire i clienti. Dopo aver acquisito una buona esperienza, il supermercato decide di espandere il reparto aggiungendo nuovi stand per altri tipi di cibo, come verdura, pane e latticini. Ogni nuovo stand viene gestito da una persona che ha fatto pratica nello stand della frutta, applicando le competenze acquisite per ottimizzare anche la gestione dei nuovi prodotti.

Mentre il supermercato si espande, viene introdotto un nuovo sistema di gestione del personale. Questo sistema aiuta a decidere quale dipendente assegnare a quale stand in base alle loro abilità e competenze, ottimizzando così l'organizzazione. Per fare questo, viene aggiunto un elemento di casualità controllata, come se si usasse un algoritmo che aggiunge un po' di variazione nelle assegnazioni, per garantire che ogni dipendente abbia la possibilità di specializzarsi ulteriormente e che tutti gli stand funzionino al meglio.

In sintesi, il processo inizia con un piccolo stand specializzato, poi si espande trasformando ogni stand in un punto di vendita, e ottimizza la gestione attraverso un sistema che migliora continuamente grazie all'esperienza e a un pizzico di casualità. Questo metodo garantisce che il supermercato funzioni in modo efficiente, con ogni stand che offre prodotti di alta qualità e personale altamente specializzato.

Soluzioni di bilanciamento del carico per MoMa con FSDP

Nel contesto dell'ottimizzazione dell'efficienza per l'addestramento distribuito del sistema "mixture of modality-aware experts" (MoMa), viene impiegata una tecnica avanzata chiamata "Fully Sharded Data Parallel" (FSDP). Questa metodologia comporta sfide particolari rispetto ai modelli tradizionali di esperti misti. Di seguito vengono analizzate le principali difficoltà e le strategie adottate per superarle.

Quando si parla di bilanciamento del carico, si affronta il problema del possibile squilibrio che può verificarsi nel sistema a causa della variabilità del rapporto tra token di testo e di immagini attraverso le diverse GPU e le diverse iterazioni. Gli squilibri possono causare effetti a cascata che rallentano il prelievo dei pesi per gli strati successivi e il rilascio dei gradienti dagli strati precedenti. Questo rallentamento vincola la latenza di addestramento al tempo massimo necessario per processare gli esperti di testo e immagine su tutte le GPU in un batch. Per risolvere questo problema, è stato sviluppato un mix di dati bilanciato che allinea il rapporto tra dati di testo e immagine con il rapporto degli esperti su ciascuna GPU, garantendo un bilanciamento del carico in prospettiva. Sebbene siano possibili altri algoritmi di riequilibrio, come la redistribuzione dei token a ogni livello di feedforward, questi potrebbero introdurre un sovraccarico di comunicazione.

Per quanto riguarda l'esecuzione efficiente degli esperti, sono state esplorate diverse strategie. Una di queste limita l'uso di esperti omogenei attraverso le diverse modalità, impedendo il routing dei token di testo agli esperti di immagini e viceversa. Questo metodo consente di processare tutti i token e le modalità contemporaneamente, a condizione che tutti gli esperti abbiano lo stesso numero di token. Un'alternativa è l'uso della "block sparsity", che offre benefici simili al primo approccio senza richiedere un perfetto bilanciamento dei token tra gli esperti. Un'altra considerazione è quella di eseguire gli esperti di diverse modalità in sequenza quando il numero di modalità è limitato. Questo approccio consente una migliore sovrapposizione del calcolo tra gli esperti della modalità precedente e il prelievo dei pesi per quelli della modalità successiva, alleviando la pressione sulla memoria. Inoltre, elimina le ipotesi sul bilanciamento del carico degli esperti. Considerato che negli esperimenti il numero di token per GPU è sufficientemente elevato, l'utilizzo dell'hardware non è un problema rilevante, anche con molteplici moltiplicazioni di matrici in batch. Di conseguenza, l'approccio sequenziale risulta essere una scelta pulita e flessibile nell'ambiente sperimentale attuale.

Oltre a queste strategie, sono state implementate diverse ottimizzazioni per migliorare ulteriormente il throughput. Tra queste ci sono ottimizzazioni generiche come la quantizzazione della comunicazione dei gradienti e la fusione automatica dei kernel GPU, oltre a ottimizzazioni grafiche tramite lo strumento torch.compile. Sono state inoltre sviluppate ottimizzazioni specifiche per MoMa, tra cui il riutilizzo degli indici dei token di modalità tra diversi livelli per minimizzare la sincronizzazione tra CPU e GPU. Tuttavia, questa ultima ottimizzazione non è compatibile con MoD nella sua forma attuale e non è stata utilizzata negli esperimenti finali per garantire un confronto equo tra le variazioni del modello. È possibile modificarla per eliminare la sincronizzazione dei dispositivi con una permutazione, tracciando al contempo i conteggi dei token attivi in ciascun livello di MoD. Inoltre, è stata consolidata la comunicazione delle statistiche per strato, spostando queste operazioni fuori dal percorso critico dell'addestramento.

Modelli Densi, MoE e MoD a confronto nei test di addestramento MoMa

Negli esperimenti condotti, si utilizza lo stesso dataset di pre-addestramento e la stessa elaborazione dei dati del team Chameleon nel 2024. Per valutare le prestazioni di scalabilità, tutti i modelli sono addestrati con oltre 1 trilione di token. Salvo diversa indicazione, si impiega una sequenza lunga 4096 token e una dimensione di parallelismo del modello pari a 1. Il regime di addestramento include un tasso di apprendimento massimo di 0,0001, un periodo di riscaldamento di 4000 passi e una riduzione graduale lineare del tasso di apprendimento fino all'1% del suo valore massimo. Per tutte le architetture MoE (Mixture of Experts), il metodo viene implementato in ogni livello, impostando la capacità di addestramento di ciascun esperto per mantenere le operazioni in virgola mobile (FLOPs) per token comparabili al modello denso di base. Nelle architetture MoD (Mixture of Directions), la metodologia viene implementata in livelli alterni, a partire dal livello 0, utilizzando un fattore di capacità di livello del 25%. Per ottenere una parità di FLOPs con il modello denso di base, viene aumentato il numero totale di livelli mantenendo costante la dimensione nascosta.

Per il confronto tra i modelli, vengono riportate le perdite di addestramento. Poiché il budget di addestramento di 1 trilione di token copre meno di un'epoca del vasto dataset di pre-addestramento, la perdita di addestramento viene utilizzata come indicatore delle prestazioni di validazione. L'uso del routing basato sulla scelta dell'esperto nei moduli MoE e MoD introduce una precisazione: il calcolo della perdita di addestramento compromette la causalità, poiché la selezione dei token prende in considerazione la parte superiore di un batch, inclusi i token futuri.

Specifiche degli architetture utilizzate nell'esperimento:

1. Modelli densi:

- 90M: 8 strati, dimensione nascosta del trasformatore di 512, modulo feed-forward con dimensione nascosta di 2048, 8 teste di attenzione.

- 435M: 24 strati, dimensione nascosta di 1024, modulo feed-forward di 4096, 16 teste di attenzione.

- 1.4B: 24 strati, dimensione nascosta di 2048, modulo feed-forward di 8192, 16 teste di attenzione.

2. Modelli MoE (Mixture of Experts):

- 210M: 8 strati, 1 esperto per strato, capacità dell'esperto 0,125.

- 1.9B: 8 strati, 1 esperto per strato, capacità dell'esperto 0,125.

- 7.1B: 8 strati, 1 esperto per strato, capacità dell'esperto 0,125.

3. Modelli MoD (Mixture of Directions):

- 110M: 14 strati, dimensione nascosta di 512, modulo feed-forward di 8, capacità del livello 0,25.

- 635M: 40 strati, dimensione nascosta di 1024, modulo feed-forward di 16, capacità del livello 0,25.

- 2.3B: 32 strati, dimensione nascosta di 2304, modulo feed-forward di 18, capacità del livello 0,25.

4. Modelli MoDE (Mixture of Directions and Experts):

- 317M: Specifiche non dettagliate nel testo.

- 3B: Specifiche non dettagliate nel testo.

- 12B: Specifiche non dettagliate nel testo.

Ottimizzazione del numero di esperti per dati visivi e testuali

L'analisi delle prestazioni dei modelli rispetto alla capacità di calcolo si concentra sull'efficienza con cui vari modelli scalano in relazione alla quantità di operazioni di calcolo, espresse in FLOPs (Floating Point Operations), necessarie per l'addestramento. I modelli analizzati sono stati confrontati utilizzando dimensioni diverse in termini di parametri, precisamente 90 milioni, 435 milioni e 1,4 miliardi di parametri. Vengono riportati due indicatori principali: la perdita durante l'addestramento e il fattore di accelerazione pre-addestramento, indicato con la lettera greca "eta", che rappresenta la capacità di un modello sparso di eguagliare la perdita pre-addestramento di un modello denso equivalente utilizzando solo una frazione del calcolo totale.

Un concetto chiave emerso è il "disaccoppiamento della modalità". Introdurre gruppi di esperti specifici per ciascuna modalità di input, come testo o immagini, migliora l'efficienza del pre-addestramento su diverse scale. Questo approccio offre vantaggi significativi, in particolare per la modalità immagine. Per esempio, la configurazione denominata "moe_1t1i", che utilizza un esperto per le immagini e uno per il testo, supera significativamente le prestazioni del modello denso di riferimento. La perdita per le immagini nella configurazione "moe_1t1i" si avvicina a quella del modello MoE (Mixture of Experts) standard, che impiega otto esperti misti per entrambe le modalità. Tuttavia, la perdita per il testo rimane sensibilmente più alta, suggerendo che il disaccoppiamento dei parametri ha un impatto maggiore sulla modalità immagine.

Ingrandire il numero di esperti all'interno di ciascun gruppo di modalità migliora ulteriormente le prestazioni del modello. La configurazione "moe_4t4i", che impiega quattro esperti per il testo e quattro per le immagini, supera costantemente il modello "moe_8x" su diverse scale, mostrando un miglioramento significativo nella riduzione della perdita per le immagini. Tuttavia, questa analisi rivela un leggero peggioramento nella modalità testo, indicando che l'elaborazione del testo attraverso un maggior numero di esperti potrebbe essere vantaggiosa.

Questo indica che la separazione dei parametri per modalità e l'ottimizzazione del numero di esperti per ciascuna categoria di dati possono portare a miglioramenti significativi in termini di efficienza e precisione del modello, soprattutto quando si tratta di elaborare dati visivi. Tuttavia, l'equilibrio tra il numero di esperti per le diverse modalità è cruciale per ottimizzare le prestazioni complessive del modello.

Come l'integrazione di MoD e MoE migliora l'addestramento dei modelli

L'adozione combinata di MoE e MoD mostra una convergenza accelerata della perdita durante l'addestramento. L'integrazione di MoD nell'architettura moe_1t1i (trasformata in mod_moe_1t1i) migliora significativamente le prestazioni del modello su diverse dimensioni. Inoltre, mod_moe_1t1i offre prestazioni paragonabili o superiori a moe_4t4i, suggerendo che introdurre la sparsità lungo la dimensione della profondità può migliorare l'efficienza dell'addestramento. Tuttavia, si osservano benefici decrescenti quando MoD e MoE vengono combinati ulteriormente. Aggiungendo MoD all'architettura moe_4t4i si ottiene solo un lieve miglioramento rispetto a mod_moe_1t1i e moe_4t4i. Questo miglioramento è più evidente nella modalità testuale, mentre per le immagini il vantaggio è meno significativo. Questi risultati suggeriscono che le future ricerche potrebbero esplorare la combinazione della scala di larghezza e profondità per potenziare ulteriormente le prestazioni nella modalità testuale. Al contrario, per migliorare le prestazioni nella modalità immagine, sarà necessario esplorare approcci alternativi.

Numero di esperti e prestazioni del modello di apprendimento

La ricerca ha approfondito l'effetto del numero di esperti su un modello di apprendimento, studiando due scenari distinti: una distribuzione equilibrata di esperti tra modalità diverse, e una distribuzione squilibrata. Nella prima parte dell'esperimento, chiamata "distribuzione equilibrata degli esperti", il numero di esperti è stato aumentato per ogni modalità, cioè per il testo e per le immagini. È emerso che la perdita di addestramento, ovvero l'errore del modello durante l'apprendimento, migliora costantemente al crescere del numero di esperti. Tuttavia, i miglioramenti seguono schemi diversi: per il testo, la perdita diminuisce progressivamente con il raddoppio del numero di esperti, mentre per le immagini si osservano benefici decrescenti quando il numero di esperti aumenta da 2 a 4. Questo fenomeno indica che le caratteristiche intrinseche di ciascuna modalità influenzano diversamente il comportamento del modello. Ciò suggerisce che la modalità testo possa trarre maggior vantaggio da un numero più elevato di esperti.

Nella seconda parte dell'esperimento, definita "distribuzione squilibrata degli esperti", si è deciso di assegnare meno esperti alla modalità immagine, vista la riduzione dei benefici oltre i due esperti, e più alla modalità testo. Sono state confrontate tre configurazioni con lo stesso numero totale di esperti (8) ma con diverse allocazioni tra le modalità: 7 esperti per il testo e 1 per le immagini (moe_7t1i), 6 per il testo e 2 per le immagini (moe_6t2i), e 4 per ciascuna modalità (moe_4t4i). In generale, si è notato che l'assegnazione di un numero maggiore di esperti a una modalità ne migliora le prestazioni, ma oltre i 4 esperti per il testo, i miglioramenti tendono a diminuire. Le perdite totali delle tre configurazioni tendono a convergere verso livelli simili, ma, considerando un migliore bilanciamento del carico con la distribuzione equilibrata e il mix di dati di pre-addestramento, è stata scelta la configurazione moe_4t4i come ottimale, nonostante moe_6t2i avesse una perdita media leggermente inferiore. La progettazione di architetture sparse che possano sfruttare efficacemente le caratteristiche intrinseche delle diverse modalità è lasciata a future ricerche.

Il concetto di "upcycling" è stato ulteriormente investigato, considerando un modello denominato MoD con 2.3 miliardi di parametri. In particolare, è stato confrontato l'andamento dell'addestramento del modello mod_moe_4t4i quando addestrato da zero rispetto a quando viene inizializzato da un checkpoint mod_moe_1t1i, che rappresenta uno stato salvato del modello a un certo punto dell'addestramento. Per garantire un confronto equo, il caricatore di dati e i passi di addestramento sono stati regolati per considerare i passi già completati da mod_moe_1t1i, mantenendo equivalenti le operazioni di calcolo (FLOPs). Sono stati esaminati casi di inizializzazione del modello da 10k e 20k passi. Le curve di addestramento per i modelli "upcycled" sono state regolate per tener conto del costo computazionale della fase iniziale. Gli esperimenti hanno utilizzato due punti di partenza: mod_moe_1t1i addestrato per 10k e 20k passi, rispettivamente. I risultati mostrano che l'upcycling migliora ulteriormente l'addestramento del modello, fornendo un guadagno di 1,2 volte con 10k passi nella prima fase e di 1,16 volte con 20k passi. Durante l'addestramento, si nota che il divario di prestazioni tra i modelli upcycled e quelli addestrati da zero si amplia.

Il periodo ottimale per l'upcycling sembra essere quello in cui si ottiene un equilibrio tra l'allenamento insufficiente e quello eccessivo del modello di partenza. In particolare, 10k passi offrono un'accelerazione del 20% rispetto al modello base, mentre 20k passi ne forniscono una del 16%, suggerendo che potrebbe esserci un punto ottimale di upcycling. Se il modello iniziale è sottoposto a un allenamento eccessivo, si possono ostacolare le capacità di specializzazione futura. Pertanto, si consiglia di iniziare l'upcycling da 10k passi, anche se l'ottimo potrebbe cambiare quando l'addestramento si estende oltre un trilione di token, lasciando ulteriori esplorazioni di upcycling approfondito del modello a ricerche future.

Confronto delle architetture MoMa MoE e MoD in termini di throughput e prestazioni

L'analisi delle prestazioni dei modelli sparse è complessa a causa della loro dinamicità e dei problemi di bilanciamento dei dati che ne derivano. Per valutare l'impatto delle proposte sull'efficienza dell'addestramento, è stato condotto un esperimento controllato che ha confrontato il throughput di addestramento di diverse architetture, tra cui MoMa, MoE e MoD. Queste architetture sono state confrontate con un modello denso standard di riferimento con 435 milioni di parametri, e l'esperimento è stato eseguito su 256 GPU A100 con una lunghezza di sequenza di 4096 e un batch size di 6 per GPU. I risultati ottenuti sono stati riassunti in termini di throughput del modello, misurato come parole per secondo (WPS).

I risultati delle misurazioni hanno mostrato che il modello denso ha un throughput di 31.970 WPS. In confronto, il modello MoMa 8X ha registrato una riduzione del 9% nel throughput, mentre MoMa 1t1i ha mostrato una diminuzione del 6%. Il modello MoMa 4t4i ha avuto una diminuzione del 17%, e le varianti MoD MoMa hanno mostrato diminuzioni ancora più significative, con un calo del 21% per MoD MoMa 1t1i e del 31% per MoD MoMa 4t4i. Questi risultati indicano che, sebbene la sparsità condizionata alla modalità offra un buon compromesso tra qualità e throughput rispetto al modello denso, le varianti MoD comportano generalmente maggiori sovraccarichi dovuti alla loro maggiore complessità e al disallineamento nei dati.

Confrontando i modelli MoE a scelta esperta (come moe_8x) con i modelli densi, si nota che l'introduzione della sparsità comporta un sovraccarico del 9%. Questa perdita di throughput è dovuta probabilmente alla necessità di calcolare le decisioni di instradamento e di sincronizzare i gradienti per tutti gli esperti, nonostante la loro equivalenza in termini di FLOPs. Tuttavia, eseguendo gli esperti in sequenza per modalità, come nel caso di moe_1t1i, non si verificano grandi sovraccarichi di esecuzione, e la maggior parte della perdita di throughput (6%) può essere attribuita al calcolo degli indici dei token per ciascuna modalità, un'operazione che può essere ottimizzata pre-calcolando gli indici e condividendoli tra i diversi livelli del trasformatore.

Combinando l'approccio feed-forward condizionato alla modalità con un routing appreso (come nel caso di moe_4t4i), si osserva un degrado graduale del throughput all'aumentare del numero di esperti, con un ulteriore sovraccarico dell'11% con 8 esperti, un valore comparabile alla perdita di throughput del 9% osservata nel passaggio dal modello denso al modello MoE con 8 esperti.

Nonostante le migliori prestazioni di training loss ottenute con la combinazione di MoD e MoE, l'introduzione di MoD comporta una perdita di throughput stimata al 15%. Questo è dovuto al fatto che le architetture MoD richiedono un router aggiuntivo nella dimensione della profondità, il che introduce complessità e potenziali colli di bottiglia. Inoltre, quando MoD è combinato con MoMa, si può esacerbare il disallineamento del sistema a causa della variazione dei token attivi per ogni modalità a ciascun livello, che devia dal rapporto di mix dei token predefinito nel dataset. Per mitigare questo problema, si può forzare i router MoD ad accettare i token basandosi sul rapporto di mix predefinito dei token. Tuttavia, l'impatto sulla qualità del modello richiede ulteriori indagini.

Le prestazioni durante il tempo di inferenza sono state valutate su modelli di dimensioni differenti (1,4 miliardi di parametri per i modelli densi, MoMa 1t1i, MoE 8x e MoMa 4t4i, e 2,3 miliardi per il modello MoD MoMa 4t4i) utilizzando dati di modellazione del linguaggio e task a valle. La valutazione includeva la misurazione della perplexity (una metrica che indica quanto un modello prevede correttamente il testo; valori inferiori indicano migliori prestazioni) su sottoinsiemi del dataset OBELICS e su task di ragionamento di senso comune. Sono stati selezionati anche dataset per task di visione-linguaggio, riportando la perplexity del testo di riferimento per il confronto tra modelli, utilizzando un approccio di zero-shot learning, che permette di valutare il modello su task non visti durante l'addestramento.

I task di ragionamento di senso comune, che includono dataset come PIQA, SIQA, HellaSwag, WinoGrande, ARC-Easy, ARC-Challenge, OpenBookQA e BoolQ, sono stati utilizzati per misurare la capacità dei modelli di risolvere problemi basati sul buon senso. Per il compito di captioning delle immagini, sono stati utilizzati i test split di MS-COCO e Flickr30k, valutando la perplexity condizionale testo-immagine e immagine-testo. Per la risposta a domande visuali, è stata valutata la perplexity delle risposte corrette sul test-dev split di VQA-v2.

Nei task di modellazione dei dati interleaved, le prestazioni relative del modello denso e delle diverse configurazioni MoE sono coerenti con le tendenze osservate nella perdita di pre-addestramento. Il modello 1,4 miliardi MoMa 1t1i, con un esperto di immagine aggiuntivo, ha superato significativamente il modello denso di riferimento nella maggior parte delle metriche, eccetto nella perplexity condizionale immagine-testo su COCO e Flickr. Aggiungere l'esperto di immagine ha portato a guadagni sostanziali nelle prestazioni sulla modalità immagine. Incrementare ulteriormente il numero di esperti ha migliorato le prestazioni, con il modello 1,4 miliardi MoE 8x che ha ottenuto le migliori prestazioni nel task immagine-testo. Inoltre, il modello eccelle nei task testo-testo. Il modello 1,4 miliardi MoMa 4t4i ha ottenuto le migliori prestazioni in tutte le metriche di perplexity immagine condizionale, con la perplexity del testo che si avvicina a quella del modello 1,4 miliardi MoE 8x nella maggior parte dei benchmark. Complessivamente, il modello 1,4 miliardi MoMa 4t4i ha ottenuto i migliori risultati nella modellazione dei dati interleaved.

Tuttavia, le prestazioni del modello 2,3 miliardi MoD MoMa 4t4i hanno mostrato una regressione significativa rispetto al modello 1,4 miliardi MoMa 4t4i, nonostante una migliore perdita di pre-addestramento. L'analisi ha identificato la performance del router ausiliario come la causa principale. Un modello più piccolo, il 635 milioni MoD MoMa 4t4i, è stato utilizzato nell'analisi. Inizialmente, è stato validato che l'uso del router di training e la selezione dei token top kd all'interno di un batch per l'inferenza consentono al modello 635 milioni MoD MoMa 4t4i di superare il modello 435 milioni MoMa 4t4i. Tuttavia, introducendo rumore casuale nella selezione del router di training con un rapporto di rumore σ, il modello 635 milioni MoD MoMa 4t4i inizia a sottoperformare rispetto al modello 435 milioni MoMa 4t4i quando σ supera lo 0,5%. Raggiungere un tasso di errore al di sotto di questa soglia è impraticabile per l'addestramento del router ausiliario. Pertanto, è necessaria ulteriore ricerca per sviluppare un approccio robusto per applicazioni pratiche di MoD.

Al contrario, i modelli MoE non mostrano una regressione simile durante l'inferenza, suggerendo che sono meno sensibili agli errori del router. Questo è probabilmente dovuto all'architettura multi-esperto del modello MoE, che permette ai token mal instradati di essere processati da altri esperti, preservandone le informazioni. Invece, nel modello MoD, l'unico switch di selezione per layer implica che gli errori di instradamento non possono essere corretti, portando a una maggiore degradazione delle prestazioni.

Chameleon-MoMa di Meta, limitazioni e futuri sviluppi

L'implementazione attuale del sistema MoMa di Meta si basa sulla corrispondenza tra la proporzione di token nel dataset e la proporzione di esperti nel modello per mantenere un equilibrio nel carico di lavoro tra le GPU. Tuttavia, può ancora verificarsi un lieve squilibrio poiché non esiste un limite rigido per quanto un lotto possa discostarsi da tale rapporto a livello di iterazione per ogni GPU. Miglioramenti in quest'area sono previsti per il futuro.

Il routing tramite scelta esperta aiuta a risolvere il problema dell'equilibrio del carico tra esperti durante l'addestramento, ma presenta sfide aggiuntive per i modelli linguistici auto-regressivi durante l'inferenza, come indicato da Zhou et al. nel 2022. Sebbene i router ausiliari rappresentino solo una piccola parte dei parametri della rete, il loro ruolo è cruciale. Nello studio condotto, il router ausiliario è stato addestrato dopo il completamento dell'addestramento dell'intera rete e il processo è stato limitato a poche migliaia di passi. Studi precedenti, come quello di Raposo et al. nel 2024, hanno dimostrato la possibilità di addestrare congiuntamente tali moduli con l'intera rete. La ricerca futura dovrebbe esplorare l'architettura e le tecniche di addestramento per i router ausiliari per evitare che diventino un collo di bottiglia nelle prestazioni e garantire la generalizzabilità su diverse distribuzioni di dati. In particolare, è necessaria un'ulteriore indagine sull'addestramento delle architetture con una combinazione di profondità, che includono sia i router ausiliari sia il modello originale, per garantire prestazioni efficaci negli scenari di inferenza causale.

Nel lavoro condotto, è stata sperimentata solo la formulazione standard di MoD e la sua integrazione progressiva con MoE. Si lascia l'indagine di altre variazioni di MoD, inclusa la modalità consapevole, a futuri studi. Inoltre, la generazione di sequenze in batch con MoD è complessa, poiché, a differenza della generazione standard di sequenze, ci sono forme dinamiche e aggiornamenti dinamici della cache di chiavi-valori (KV) per ogni strato, dato che alcune sequenze e strati possono saltare token diversi. Rimane spazio per ottimizzare le implementazioni di inferenza per i modelli MoD.

In questo lavoro, sono state introdotte una serie di architetture sparse consapevoli della modalità per modelli di base a fusione precoce e a modalità mista. L'approccio sfrutta la specificità del dominio preservando la condivisione della conoscenza e l'interazione delle caratteristiche tra le modalità. Sono state sviluppate architetture di modelli altamente efficienti ed efficaci incorporando la sparsità sia nella dimensione della larghezza (tramite esperti misti consapevoli della modalità) sia nella dimensione della profondità (tramite combinazioni di profondità).

La migliore architettura, chiamata Chameleon-MoMa, ha dimostrato miglioramenti significativi rispetto ai modelli di riferimento più avanzati. In esperimenti controllati per complessità, è stata ridotta la quantità totale di operazioni in virgola mobile (FLOPs) fino a 3.7 volte. I risultati sperimentali hanno rivelato che le architetture sparse consapevoli della modalità mantengono una legge di scalabilità empirica. Questa caratteristica suggerisce che l'approccio offre benefici immediati alle prestazioni e un quadro scalabile per futuri sviluppi nella formazione di modelli di base a modalità mista.

Il potenziale promettente di Chameleon-MoMa apre diverse direzioni di ricerca per il futuro. Queste includono l'esplorazione di meccanismi di routing più sofisticati, l'analisi dell'impatto di diversi schemi di sparsità tra le modalità e l'estensione dell'approccio a una gamma più ampia di modalità e compiti.

Conclusione

Il progresso realizzato da Meta con il modello MoMa rappresenta un'innovazione significativa nel campo dei modelli linguistici multimodali, proponendo un approccio di pre-addestramento efficiente e integrato che combina esperti consapevoli della modalità. Questa architettura non solo migliora l'efficienza computazionale, ma introduce nuove dinamiche nella gestione e nell'elaborazione simultanea di dati testuali e visivi.

Un punto cruciale di MoMa è l'ottimizzazione dell'uso delle risorse computazionali. L'architettura "sparse modality-aware" consente ai modelli di concentrarsi su parti specifiche dell'informazione, riducendo la quantità complessiva di calcoli necessari. Questo approccio mira a gestire la densità e la ridondanza diverse dei token di testo e immagine, utilizzando esperti specializzati per ogni modalità. In questo modo, si garantisce che ogni tipo di dato venga trattato con la precisione e l'efficienza necessarie, mantenendo un'alta qualità nella fusione delle informazioni.

L'adozione di tecniche come la "mixture-of-experts" (MoE) e la "mixture-of-depths" (MoD) permette di ridurre ulteriormente il carico computazionale senza sacrificare le prestazioni del modello. L'implementazione di router ausiliari, che prevedono la probabilità di selezione degli esperti, garantisce che l'instradamento dei token mantenga la causalità necessaria per una corretta modellazione autoregressiva. Questo equilibrio tra specializzazione degli esperti e integrazione delle modalità rappresenta un avanzamento strategico nel design dei modelli multimodali.

Un aspetto interessante è la strategia di "upcycling", che consente di migliorare un modello già esistente senza aggiungere nuovi dati, ma ottimizzando l'uso delle risorse disponibili. Questo metodo si dimostra particolarmente efficace per mantenere le prestazioni del modello riducendo al contempo il carico computazionale. L'upcycling permette di iniziare con una base solida e incrementare gradualmente la complessità del modello, migliorando la sua efficienza e stabilità.

L'efficacia di MoMa è stata dimostrata attraverso esperimenti controllati, che hanno rivelato una riduzione significativa delle operazioni necessarie e un miglioramento delle prestazioni di pre-addestramento. Tuttavia, permangono sfide legate alla complessità della progettazione e all'ottimizzazione delle risorse, soprattutto quando si considera l'espansione del modello a scala più ampia.

In termini strategici, l'approccio di MoMa offre un modello scalabile che può essere applicato a una vasta gamma di compiti e modalità, aprendo nuove opportunità per le imprese che desiderano sfruttare l'intelligenza artificiale multimodale. La capacità di integrare efficacemente dati testuali e visivi consente di creare soluzioni più versatili e potenti, in grado di gestire informazioni complesse provenienti da diverse fonti.

In futuro, sarà interessante vedere come le tecniche di sparsità e l'integrazione di esperti consapevoli della modalità potranno evolversi ulteriormente, magari esplorando meccanismi di routing più sofisticati o estendendo l'approccio a una gamma ancora più ampia di modalità e applicazioni. L'evoluzione di queste architetture potrebbe modificare il modo in cui le imprese utilizzano l'intelligenza artificiale generativa per comprendere e interagire con il mercato, promuovendo un uso più efficiente delle risorse e migliorando la qualità dei risultati ottenuti.