nGPT: Un nuovo passo nell'evoluzione dei transformer

20 ott 2024Tempo di lettura: 13 min

Aggiornamento: 24 ott 2024

Negli ultimi anni, i Transformer hanno rivoluzionato il panorama del deep learning, essendo la base di gran parte dei modelli di linguaggio avanzati come GPT. La ricerca continua ad esplorare modi per ottimizzare queste architetture, migliorandone l'efficienza e riducendo i costi di calcolo. Il modello nGPT (Normalized Transformer) si inserisce in questo filone, proponendo una serie di innovazioni che lo rendono più efficiente rispetto ai Transformer tradizionali.

nGPT: Un nuovo passo nell'evoluzione dei transformer

nGPT, una nuova architettura basata sulla normalizzazione

Il cuore del modello nGPT è la rappresentazione su ipersfera: tutte le embedding e le matrici utilizzate nelle varie operazioni del modello sono normalizzate a un'unica norma unitaria, ponendosi su una superficie ipersferica. Questo significa che tutte le operazioni di moltiplicazione matrice-vettore possono essere interpretate come prodotti scalari che rappresentano similarità coseni limitati tra -1 e 1. La normalizzazione rende anche il modello più robusto durante l'addestramento, riducendo il rischio che alcune embedding possano assumere valori troppo estremi e causare instabilità. Inoltre, la normalizzazione facilita il processo di apprendimento rendendo i gradienti meno suscettibili a esplosioni o vanificazioni.

Questa normalizzazione su ipersfera porta a una maggiore stabilità durante l'addestramento e a una miglior separabilità dello spazio delle embedding, rendendo il modello più efficiente nei compiti downstream, cioè quelli che vengono eseguiti dopo l'addestramento. Studi recenti hanno dimostrato che l'apprendimento delle rappresentazioni sull'ipersfera è associato a una migliore stabilità dell'addestramento, una maggiore capacità di generalizzazione e una rappresentazione più chiara delle relazioni tra concetti diversi. Ciò significa che il modello non solo riesce a imparare più velocemente, ma è anche più bravo a fare inferenze accurate su nuovi dati.

La rappresentazione su ipersfera può essere paragonata a far viaggiare le informazioni su una mappa globulare: tutte le informazioni si muovono lungo la superficie, senza mai "uscire dai confini". Questo assicura che tutte le rappresentazioni abbiano una natura simile, riducendo drasticamente le possibilità di outlier che potrebbero perturbare l'addestramento. In termini matematici, ogni vettore è normalizzato affinché rimanga sulla superficie dell'ipersfera, rendendo l'intero processo di apprendimento più "contenuto" e prevedibile.

Una delle innovazioni principali di questa architettura è la rimozione delle tradizionali tecniche di normalizzazione come LayerNorm o RMSNorm, che nei Transformer classici sono utilizzate per stabilizzare l'addestramento. Nel caso di nGPT, tutte le embedding sono direttamente normalizzate alla norma unitaria, garantendo che ogni singolo vettore abbia sempre una lunghezza uniforme e che la sua direzione diventi l'elemento chiave per la rappresentazione delle informazioni. Questo cambiamento riduce drasticamente la dipendenza dai parametri di normalizzazione e facilita la comprensione delle dinamiche del modello.

Un altro vantaggio significativo dell'architettura basata sulla normalizzazione è la capacità di ridurre il problema dell'overfitting. Normalizzando le embedding, nGPT riesce a garantire che i vettori rappresentativi dei token siano distribuiti in maniera uniforme lungo l'ipersfera, evitando che alcuni vettori dominino lo spazio di rappresentazione. Questo permette una migliore generalizzazione e rende il modello meno sensibile al rumore presente nei dati di addestramento. Ad esempio, nei classici Transformer, le embedding possono variare notevolmente in termini di magnitudine, il che porta spesso a un adattamento eccessivo del modello ai dati specifici di addestramento. Con nGPT, invece, la normalizzazione costante consente una distribuzione più equilibrata dei vettori nello spazio di rappresentazione.

La natura dell'ipersfera offre inoltre un grande vantaggio in termini di efficienza computazionale. Normalizzare le embedding significa che le operazioni di prodotto scalare possono essere interpretate come semplici misure di similarità angolare tra vettori normalizzati, semplificando così molte delle operazioni matematiche che il modello deve eseguire durante l'addestramento e l'inferenza. Questo approccio consente al modello di concentrarsi maggiormente sulla direzione dei vettori piuttosto che sulla loro magnitudine, un concetto che si è rivelato estremamente utile nella gestione di dati complessi, dove la relazione tra i concetti (la direzione) è spesso più rilevante rispetto alla loro intensità.

Inoltre, grazie alla rappresentazione su ipersfera, il modello riesce a rappresentare meglio le relazioni gerarchiche tra concetti. Quando si pensa alla relazione tra diverse parole o frasi, la distribuzione sull'ipersfera permette di collocare vettori simili in prossimità tra loro, garantendo che le relazioni semantiche siano rispettate anche durante l'apprendimento del modello. Ad esempio, parole con significati simili finiscono per avere rappresentazioni vicine sulla superficie dell'ipersfera, facilitando al modello la comprensione di sinonimi e termini correlati.

La rappresentazione su ipersfera aiuta anche a migliorare la resilienza del modello ai cambiamenti nei dati. Un problema comune durante l'addestramento di modelli di deep learning è la sensibilità ai dati che possono cambiare leggermente nel tempo. Grazie alla normalizzazione costante, nGPT è meno influenzato da piccole variazioni nei dati, il che lo rende ideale per applicazioni in cui i dati evolvono rapidamente, come il linguaggio naturale o il riconoscimento delle immagini.

Infine, la rappresentazione normalizzata permette una migliore integrazione con altre architetture e metodi di apprendimento. Poiché tutte le embedding sono scalate in modo uniforme, diventa più semplice integrare nGPT con altri modelli senza preoccuparsi delle differenze di scala tra le rappresentazioni. Questo potrebbe aprire la strada a soluzioni ibride in cui nGPT è combinato con altri tipi di reti neurali, come convoluzionali o reti di memoria a lungo termine, per affrontare compiti più complessi che richiedono diverse tecniche di apprendimento.

nGPT, ottimizzazione sullo spazio delle ipersfera

L'ottimizzazione sullo spazio dell'ipersfera porta notevoli benefici, in quanto permette una ricerca più efficiente dello spazio delle soluzioni. In altre parole, invece di cercare la soluzione in uno spazio illimitato, nGPT si limita a esplorare un contesto più ristretto, il che accelera l'individuazione del miglior cammino di ottimizzazione. Ogni vettore rappresenta un punto sulla superficie di un'ipersfera, e i movimenti lungo questa superficie sono controllati da rate di apprendimento adattivi che sono aggiornati continuamente in base alle necessità del modello.

Questo permette al modello di ridurre la necessità di decadenza del peso (“weight decay”) e di utilizzare una forma di ottimizzazione più stabile e controllata. Il weight decay è comunemente usato per evitare che i pesi del modello diventino troppo grandi, ma con l'uso dell'ipersfera, questa necessità viene in gran parte eliminata, poiché i pesi sono naturalmente contenuti grazie alla normalizzazione costante. Inoltre, l'uso degli eigen learning rates consente di adattare i tassi di apprendimento per ciascun vettore in base alla direzione e all'importanza relativa del movimento da compiere, migliorando l'efficacia complessiva dell'ottimizzazione.

Nel modello nGPT, ogni passo di ottimizzazione è diviso in due parti per ciascun layer: una contribuita dai blocchi di attenzione (Attention Blocks) e una dai percettroni a più strati (MLP Blocks). La traiettoria di ciascun token in input viene costantemente regolata per migliorare la previsione del token successivo, migliorando la capacità del modello di catturare le dipendenze lunghe e la complessità del linguaggio naturale. Questo approccio consente di sfruttare al meglio le informazioni fornite da ciascun token, senza sovraccaricare il sistema con informazioni ridondanti o inutili.

Un aspetto particolarmente innovativo di questo approccio è che la normalizzazione e l'ottimizzazione lungo l'ipersfera trasformano il modo in cui il modello gestisce la retropropagazione dell'errore. Poiché ogni rappresentazione è confinata sulla superficie dell'ipersfera, la direzione del gradiente è di fondamentale importanza, mentre la magnitudine viene automaticamente mantenuta sotto controllo. Questo significa che durante l'addestramento, nGPT può adattarsi molto rapidamente senza incorrere in valori esplosivi dei gradienti che potrebbero compromettere la stabilità dell'intero modello.

Inoltre, la rappresentazione sull'ipersfera e l'ottimizzazione associata permettono di gestire meglio la "catena di dipendenze" nelle reti molto profonde. Nei Transformer tradizionali, i gradienti possono degradarsi man mano che attraversano molti strati, un problema noto come il "vanishing gradient problem". Con nGPT, grazie all'uso della normalizzazione e dell'ottimizzazione specifica, i gradienti tendono a mantenere una direzione coerente attraverso gli strati, migliorando la capacità del modello di apprendere e conservare informazioni da contesti più lunghi.

La traiettoria di ciascun token viene regolata continuamente, sfruttando la superficie dell'ipersfera per garantire che i movimenti del modello non siano mai troppo estremi, ma sempre controllati e adattivi. Questa proprietà diventa particolarmente utile in contesti in cui il modello deve adattarsi a dati che cambiano rapidamente, come nel caso di testi in cui il contesto cambia frequentemente, oppure in situazioni di apprendimento continuo, in cui il modello deve adattarsi costantemente a nuovi dati senza perdere le informazioni precedenti.

Ad esempio, immaginate che nGPT stia cercando di prevedere la parola successiva in una frase complessa: l'ottimizzazione lungo l'ipersfera aiuta a mantenere ogni possibile predizione in una relazione logica rispetto alle altre parole, creando un percorso fluido lungo il quale il modello si "muove" per arrivare alla previsione corretta. Questo è particolarmente utile quando il contesto è complesso e le dipendenze tra le parole sono distanti. Grazie alla normalizzazione costante, il modello riesce a evitare predizioni troppo lontane dal contesto, mantenendo la coerenza semantica lungo tutta la frase.

Inoltre, il fatto che la ricerca dell'ottimizzazione sia limitata alla superficie dell'ipersfera comporta anche una riduzione della quantità di calcolo necessario per determinare la direzione ottimale. Questo riduce significativamente l'overhead computazionale, soprattutto nelle fasi iniziali dell'addestramento, in cui la rete cerca di trovare un buon equilibrio tra le diverse componenti dell'informazione. Il risultato è un modello che non solo è più veloce da addestrare, ma che risulta anche più stabile e in grado di adattarsi meglio a diverse condizioni di apprendimento.

Infine, l'ottimizzazione sullo spazio delle ipersfere consente una maggiore robustezza rispetto ai cambiamenti nei dati di input. In situazioni in cui i dati possono variare (ad esempio, diversi tipi di linguaggio o variazioni stilistiche nei testi), l'uso della superficie dell'ipersfera come spazio di ottimizzazione consente al modello di mantenere una rappresentazione consistente delle informazioni, evitando di sovra-adattarsi a un determinato tipo di dato. Questo significa che nGPT è particolarmente adatto per applicazioni in cui i dati possono cambiare dinamicamente, come le applicazioni di traduzione automatica o le piattaforme di generazione di contenuti che devono adattarsi a stili diversi in base al contesto.

Convergenza più veloce: 4 a 20 volte più rapida

Uno dei principali vantaggi del modello nGPT rispetto ai Transformer tradizionali è la velocità di convergenza. Gli esperimenti riportano che nGPT richiede un numero di passaggi di addestramento inferiore di un fattore compreso tra 4 e 20 per raggiungere la stessa accuratezza rispetto a un Transformer tradizionale. Ad esempio, con un contesto di 4000 token, nGPT raggiunge la stessa perdita di validazione (validation loss) che un GPT tradizionale ottiene dopo 200.000 iterazioni, in soli 20.000 passaggi.

Questo significa che il tempo necessario per addestrare il modello si riduce drasticamente, pur mantenendo (o superando) le performance in termini di precisione e capacità di generalizzazione. Tuttavia, va notato che il tempo per singolo passo di nGPT è più elevato (fino all'80% in più per contesti di 4000 token), ma questo overhead si riduce con ottimizzazioni del codice e diventa meno significativo per reti più grandi. Per modelli più complessi e con più parametri, la velocità complessiva dell'addestramento risulta comunque notevolmente migliorata.

Un ulteriore vantaggio di nGPT è che, richiedendo meno iterazioni per ottenere gli stessi risultati, riduce drasticamente il consumo energetico complessivo durante l'addestramento. Questo lo rende significativamente più sostenibile dal punto di vista ambientale, un aspetto particolarmente rilevante dato l’impatto crescente del training di grandi modelli di deep learning. Inoltre, la riduzione dei tempi di calcolo accelera la fase di sperimentazione e sviluppo, favorendo una più rapida innovazione.

Confronto delle performance sui compiti di downstream

Le performance del modello nGPT sono state testate su una serie di compiti di downstream per valutare la sua capacità di generalizzare. I risultati mostrano un miglioramento costante rispetto a GPT, con nGPT che necessita di meno token per raggiungere performance simili o superiori su vari task. Questo è particolarmente vero per compiti che richiedono una comprensione di contesti lunghi, dove nGPT riesce a mantenere una struttura delle embedding più uniforme e meglio distribuita.

Una caratteristica interessante che emerge dai dati è la distribuzione delle embedding su ipersfera. Mentre GPT tende a formare una sorta di iperellissoide, con una significativa variazione dei norm, nGPT mantiene una distribuzione più stabile, con i vettori che si raggruppano in cluster ben distinti, facilitando la separabilità dei dati e migliorando la capacità del modello di effettuare previsioni precise. La riduzione della variazione tra le embedding significa che nGPT è in grado di generalizzare meglio su dati mai visti, rendendolo un modello più robusto e adattabile.

La capacità di nGPT di mantenere una rappresentazione uniforme delle embedding su un'ipersfera consente anche di migliorare significativamente le prestazioni in vari compiti di downstream che richiedono una buona separazione delle rappresentazioni. Ad esempio, nei compiti di classificazione del testo, nGPT è stato in grado di ottenere una migliore separazione tra le classi, riducendo il margine di errore nella classificazione di frasi ambigue o simili. Questo risultato è particolarmente evidente nei compiti di analisi del sentiment, dove le emozioni espresse nel testo possono essere sottili e difficili da distinguere. Grazie alla rappresentazione su ipersfera, le diverse sfumature di sentiment vengono separate in modo più netto, facilitando al modello il compito di determinare l'emozione predominante.

Un altro esempio riguarda i compiti di traduzione automatica. Con nGPT, la rappresentazione normalizzata delle embedding permette una migliore correlazione tra frasi di lingue diverse, migliorando la qualità della traduzione. Mentre i Transformer tradizionali possono avere difficoltà a trovare corrispondenze precise tra frasi a causa della diversa scala delle embedding, nGPT riesce a mantenere una maggiore coerenza nelle rappresentazioni, garantendo che concetti simili siano posizionati vicini tra loro, indipendentemente dalla lingua. Questo si traduce in traduzioni più fluide e meno errori di interpretazione.

Anche nei compiti di generazione di testo, nGPT dimostra un netto miglioramento. La normalizzazione delle embedding permette al modello di mantenere un flusso narrativo più coerente e di generare testi che rispettano meglio la struttura logica e la coerenza del contesto. Ad esempio, durante la generazione di una storia, nGPT riesce a mantenere un filo conduttore stabile, evitando incoerenze narrative che possono sorgere quando le embedding si distaccano troppo dal contesto principale. Questo è un risultato importante per applicazioni come la creazione automatica di contenuti o la scrittura di dialoghi per chatbot, dove la coerenza e la continuità sono cruciali.

Inoltre, le performance nei compiti di domande e risposte (Q&A) sono notevolmente migliorate grazie alla maggiore capacità di rappresentazione delle relazioni semantiche tra le parole. Nei Transformer tradizionali, le risposte generate possono spesso essere troppo generiche o addirittura fuori contesto, mentre con nGPT, la capacità di mantenere una distribuzione stabile delle embedding aiuta il modello a fornire risposte più precise e pertinenti, che tengono meglio conto delle sfumature della domanda posta. Questo rende nGPT particolarmente utile per applicazioni in cui la precisione delle risposte è essenziale, come nel caso degli assistenti virtuali o delle piattaforme di supporto automatizzato.

Un altro vantaggio significativo è emerso nei compiti di rilevamento delle entità e delle relazioni in testi complessi. Grazie alla rappresentazione su ipersfera, nGPT riesce a separare meglio le entità e a identificare le relazioni tra di esse, migliorando le performance in compiti come l'estrazione di informazioni da articoli scientifici o documenti legali. In questi casi, la capacità di distinguere chiaramente tra diverse entità e relazioni è fondamentale per ottenere risultati accurati, e nGPT ha dimostrato di essere molto più efficace dei modelli tradizionali.

In sintesi, nGPT offre una notevole serie di vantaggi nelle performance sui compiti di downstream rispetto ai Transformer tradizionali. La sua capacità di mantenere una rappresentazione stabile e normalizzata delle embedding, combinata con una maggiore efficienza nell'addestramento e una migliore capacità di generalizzazione, lo rende un modello estremamente potente per affrontare una vasta gamma di applicazioni nel campo del deep learning. Dai compiti di classificazione alla generazione di contenuti, nGPT si distingue come una soluzione avanzata e robusta, in grado di soddisfare le esigenze più complesse dell'elaborazione del linguaggio naturale.

Applicazioni pratiche e direzioni future

La direzione futura per nGPT potrebbe riguardare la sua estensione a modelli di dimensioni maggiori e l'applicazione a contesti reali più ampi, come la traduzione automatica e la sintesi del linguaggio naturale. L'utilizzo di rappresentazioni ipersferiche potrebbe aprire nuove vie anche per l'ottimizzazione di altri tipi di architetture, inclusi encoder-decoder e modelli ibridi. Inoltre, l'implementazione di nGPT su hardware specializzato, come i TPU o GPU di ultima generazione, potrebbe migliorare ulteriormente l'efficienza del modello, rendendolo adatto a un uso industriale su larga scala.

In futuro, si potrebbero esplorare anche approcci che combinano nGPT con altre tecniche emergenti, come il few-shot learning e il transfer learning, per vedere come la normalizzazione su ipersfera possa contribuire a migliorare la capacità del modello di apprendere rapidamente da pochi esempi.

nGPT rappresenta un approccio innovativo e scalabile per l'apprendimento profondo, capace di affrontare molte delle sfide moderne nel campo del deep learning. La normalizzazione su ipersfera non solo migliora la stabilità dell'addestramento e la velocità di convergenza, ma offre anche una nuova prospettiva sul modo in cui le informazioni vengono rappresentate e utilizzate all'interno di reti neurali complesse. Potremmo essere solo all'inizio di una nuova generazione di architetture di deep learning che sfruttano la geometria avanzata per sbloccare nuove potenzialità e ridurre le limitazioni attuali.

Conclusioni

Il modello nGPT rappresenta una svolta significativa nel panorama del deep learning, specialmente per il settore aziendale, dove la necessità di soluzioni rapide, efficienti e scalabili è cruciale. L’approccio basato sulla normalizzazione su ipersfera introduce un elemento strategico rilevante per l’industria: la possibilità di ottimizzare i processi di apprendimento riducendo tempi e costi computazionali, senza compromettere la qualità dei risultati. Per un'impresa, l'implementazione di nGPT potrebbe tradursi in un vantaggio competitivo concreto, soprattutto in contesti che richiedono una rapida analisi dei dati o l’elaborazione di linguaggi naturali complessi, come ad esempio nell'ambito del customer care automatizzato, nella generazione di contenuti o nella traduzione automatica.

Uno dei principali vantaggi è la capacità del modello di garantire stabilità durante l’addestramento, riducendo fenomeni come l'overfitting o i problemi di esplosione e vanificazione dei gradienti. Questo significa che le aziende possono fare affidamento su modelli che, sebbene addestrati in meno tempo, sono più resilienti ai cambiamenti nei dati. Consideriamo ad esempio un'applicazione nel marketing predittivo: un modello come nGPT può fornire previsioni più accurate e tempestive, minimizzando l’impatto di dati di bassa qualità o rumorosi, tipici di molte realtà aziendali.

In termini di efficienza operativa, nGPT potrebbe ridurre drasticamente i costi energetici legati all'addestramento di modelli di intelligenza artificiale, un aspetto sempre più rilevante per le imprese attente alla sostenibilità. Inoltre, la possibilità di ridurre fino a 20 volte il numero di iterazioni necessarie per raggiungere una certa performance rappresenta un risparmio diretto anche sui tempi di sviluppo e di messa in produzione di nuove soluzioni, accelerando il ciclo di innovazione interna.

Un altro aspetto strategico è la maggiore capacità di generalizzazione del modello, che lo rende particolarmente adatto per ambienti in cui i dati cambiano rapidamente. Pensiamo, ad esempio, a settori come l'e-commerce o i media digitali, dove i trend e le preferenze degli utenti evolvono costantemente. L’utilizzo di nGPT permette alle aziende di adattarsi più rapidamente a tali cambiamenti, migliorando le capacità di personalizzazione e di risposta in tempo reale. Questo potrebbe aprire la strada a nuove forme di interazione con i clienti, basate su assistenti virtuali sempre più intelligenti e capaci di comprendere il contesto in modo profondo, con un notevole impatto sulle esperienze utente.

La rappresentazione su ipersfera del modello nGPT pone infine le basi per un futuro in cui l'integrazione tra diverse architetture di machine learning diventa più semplice ed efficace. La sua capacità di lavorare su uno spazio geometrico più coerente facilita l'integrazione con altri modelli già in uso, senza la necessità di complessi processi di allineamento o riaddestramento, aumentando così la flessibilità aziendale nell'adozione di nuove tecnologie.

In sintesi, l’introduzione di nGPT non si limita a rappresentare un avanzamento tecnologico, ma offre nuove opportunità di ottimizzazione e competitività per le imprese. L'adozione di una tecnologia che unisce velocità, precisione e robustezza in contesti dinamici può tradursi in un significativo vantaggio strategico, riducendo i tempi di sviluppo e i costi operativi, migliorando al contempo la qualità delle soluzioni di intelligenza artificiale implementate.

Podcast: https://spotifyanchor-web.app.link/e/INY4yFAZWNb

Fonte: https://arxiv.org/abs/2410.01131