Affidabilità dei modelli AI. Il paradosso dei modelli GPT, LLaMA e BLOOM: prestazioni avanzate, ma errori nei compiti semplici

2 ott 2024Tempo di lettura: 23 min

Lo studio pubblicato su Nature da Zhou, Schellaert, Martínez-Plumed, Moros-Daval, Ferri e Hernández-Orallo evidenzia un problema cruciale nello sviluppo dei modelli di linguaggio di grandi dimensioni. La tendenza dominante che spinge verso l'espansione continua di questi modelli, aumentando dimensioni, volume di dati e risorse computazionali, insieme all'uso di tecniche come il fine-tuning e il feedback umano, sembra generare una controintuitiva perdita di affidabilità.

L'analisi condotta dai ricercatori si è focalizzata sulla correlazione tra la difficoltà dei compiti assegnati ai modelli, la loro tendenza a evitare determinati tipi di domande e la stabilità delle risposte fornite. Sorprendentemente, i modelli più avanzati si dimostrano capaci di risolvere compiti semplici, ma presentano una tendenza a generare errori anche in situazioni di bassa complessità, spesso non intercettati dai supervisori umani. Questo punto mette in luce una vulnerabilità nel controllo di qualità dei risultati ottenuti con modelli di grandi dimensioni.

Un altro elemento rilevante è la differenza nel comportamento dei modelli di diverse dimensioni. Mentre quelli più piccoli tendono a evitare domande difficili, i modelli più grandi forniscono risposte che appaiono sensate, ma che possono risultare sbagliate, soprattutto in situazioni in cui anche gli esseri umani faticano a individuare gli errori. Nonostante le migliorie apportate tramite tecniche di fine-tuning e altre strategie, restano ancora presenti aree di variabilità, rendendo meno prevedibile la performance dei modelli in contesti di complessità diversa.

Le implicazioni di questi risultati sono chiare: in contesti ad alto rischio, come quelli che coinvolgono la salute, la sicurezza o il diritto, la presenza di modelli con distribuzioni imprevedibili degli errori diventa una criticità. Questo solleva l'urgenza di ripensare radicalmente le strategie di sviluppo per garantire un'accuratezza e una stabilità delle risposte più affidabile, allontanandosi dall'approccio puramente espansivo che finora ha dominato il campo dell'intelligenza artificiale.

Affidabilità dei modelli AI. Il paradosso dei modelli GPT, LLaMA e BLOOM: prestazioni avanzate, ma errori nei compiti semplici

Milioni di persone utilizzano sistemi di intelligenza artificiale (AI) basati su modelli di linguaggio di grandi dimensioni (LLM), ormai diffusi in settori come l'educazione, la medicina, la scienza e l'amministrazione. Tuttavia, poiché questi modelli commettono errori con frequenza, gli utenti sono costretti a supervisionarne il funzionamento e a gestire le loro aspettative per un utilizzo affidabile. Con l'aumento della complessità e della "istruibilità" di tali modelli, è essenziale analizzare come sia cambiata la loro affidabilità nel tempo.

Dall'introduzione dei primi LLM, i modelli sono stati ampliati con più parametri, set di dati più grandi e tempi di addestramento prolungati. Al contempo, sono stati migliorati con feedback umano attraverso tecniche come il fine-tuning delle istruzioni, l'apprendimento tramite rinforzo con feedback umano (RLHF) e l'uso di filtri per moderare i risultati. Si potrebbe supporre che, man mano che i modelli diventano più potenti e meglio allineati a queste strategie diventino anche più affidabili. Questo implica che i loro errori seguano schemi prevedibili, consentendo agli utenti di adattare le loro interazioni in modo consapevole.

Per esempio, i primi modelli fallivano in compiti semplici, come l'addizione di numeri piccoli. Le prestazioni erano altamente prevedibili: l'errore era comune e facilmente comprensibile, tanto che nessuno utilizzava questi modelli per eseguire calcoli di base. Con le versioni successive, capaci di gestire operazioni più complesse come l'addizione di numeri con 50 cifre, gli utenti hanno iniziato a utilizzarli come strumenti di calcolo. Tuttavia, quando i modelli falliscono in compiti apparentemente semplici, come sommare 3913 e 92, la fiducia degli utenti viene compromessa, soprattutto perché l'errore si verifica in un contesto considerato di "raggio d'azione" per il modello.

La situazione diventa ancora più sconcertante quando un cambiamento minimo nella formulazione della domanda, come l'uso del simbolo “+” invece della parola “addizione”, porta a una risposta corretta. Questo comportamento, influenzato dalla non-deterministicità di molti modelli, mette in evidenza una sensibilità ai prompt che è stata ampiamente studiata, ma non completamente compresa. L'incapacità dei modelli di riconoscere i propri limiti e rispondere con un semplice "non sono in grado di farlo" è frutto di uno sviluppo incentivato a evitare risposte evasive. Questo approccio porta a un comportamento erratico che può minare la fiducia degli utenti, specialmente in applicazioni pratiche dove è fondamentale poter prevedere le prestazioni del sistema.

Gestione delle risposte e affidabilità dei modelli AI

L'evoluzione dell'affidabilità dei LLM può essere analizzata attraverso il confronto tra diverse famiglie di modelli, come la serie GPT di OpenAI, LLaMA di Meta e BLOOM di BigScience. Ogni famiglia rappresenta un approccio distinto per rendere questi modelli più potenti e allineati agli standard richiesti per un uso responsabile. La serie GPT, leader indiscusso nel panorama degli LLM, ha influenzato non solo l'architettura dei modelli basati su Transformer, ma anche i framework di valutazione e le tecniche di allineamento. LLaMA e BLOOM, d'altra parte, si distinguono per la loro apertura in termini di accesso ai pesi dei modelli, favorendo una maggiore trasparenza e collaborazione all'interno della comunità scientifica.

La valutazione dell'affidabilità dei modelli AI prende in considerazione diversi fattori, come la capacità di adattarsi a variazioni nei prompt, la difficoltà percepita dagli esseri umani e la prudenza nel rispondere quando non adeguatamente preparati. Analizzando il comportamento dei modelli attraverso benchmark come operazioni matematiche semplici, conoscenza geografica e competenze scientifiche, si osserva che i modelli "shaped-up", addestrati e ottimizzati per rispondere a specifiche istruzioni, tendono a essere più stabili e precisi rispetto ai modelli "raw". I modelli "raw" sono le configurazioni iniziali degli LLM, non specializzati per specifici compiti e, di conseguenza, generalmente meno accurati. Nonostante i miglioramenti in termini di precisione, i modelli "shaped-up" possono risultare meno cauti, commettendo più errori in compiti considerati meno difficili dagli esseri umani.

Una delle sfide chiave risiede nella capacità dei modelli di evitare risposte evasive o errate. L'evitamento, una forma di comportamento studiata anche in psicologia umana, si manifesta nei LLM sotto forma di risposte vaghe, continui riferimenti meta-testuali o una completa omissione della risposta. In questo contesto, la capacità dei modelli di scala maggiore di evitare questi comportamenti è cruciale per la loro affidabilità. Anche se le versioni più avanzate dei modelli sembrano essere in grado di migliorare l'accuratezza complessiva, la loro tendenza a fornire risposte plausibili ma errate resta un problema rilevante.

Un aspetto centrale nell'analisi degli LLM è la loro stabilità rispetto ai cambiamenti nel modo in cui vengono poste le domande (i "prompt"). Anche piccole variazioni nella formulazione di una domanda possono influire sulla qualità delle risposte generate. Tuttavia, i modelli più avanzati e di dimensioni maggiori, come quelli sottoposti a processi di "shaping", tendono a essere meno sensibili a questi cambiamenti, fornendo risposte più coerenti. Nonostante questa maggiore stabilità, la loro capacità di rispondere correttamente è comunque influenzata dalla difficoltà del compito.

Per valutare l'affidabilità di questi sistemi, bisogna considerare tre elementi chiave: quanto gli errori del modello si allineano con la percezione umana della difficoltà (ossia se gli errori si verificano soprattutto su domande difficili), la capacità del modello di evitare di fornire risposte sbagliate (optando magari per non rispondere), e la stabilità rispetto ai cambiamenti nel prompt (ossia la coerenza delle risposte anche se il modo di porre la domanda varia). Studi condotti con partecipanti umani mostrano che migliorare questi aspetti è essenziale per rendere i modelli più affidabili e allineati alle aspettative, specialmente in contesti dove la precisione e l'accuratezza delle risposte sono cruciali.

Perché i modelli ottimizzati GPT e LLaMA migliorano nei compiti difficili ma falliscono nei semplici

I modelli di linguaggio di grandi dimensioni, come le famiglie GPT e LLaMA, mostrano un incremento nelle prestazioni man mano che vengono scalati e ottimizzati, come evidenziato dai risultati su domini complessi come addition, anagram, locality, science e transforms. Tuttavia, sebbene le versioni potenziate di questi modelli migliorino nelle risposte corrette per compiti difficili, si osserva una discrepanza evidente quando si tratta di compiti semplici, confermando la presenza di un fenomeno di discordanza rispetto alla difficoltà.

Nonostante i modelli più avanzati, come GPT-4, mostrino una maggiore efficacia nei compiti più difficili, persistono notevoli fallimenti nei compiti più semplici, un problema che non è stato risolto nemmeno con le tecniche di scaling e shaping.

Un elemento di ulteriore interesse riguarda la riduzione delle risposte evitanti nei modelli ottimizzati. I modelli meno evoluti, infatti, tendono a evitare di rispondere, producendo output non interpretabili, mentre le versioni ottimizzate, come GPT-4, tendono a fornire risposte errate ma apparentemente plausibili. Questo passaggio da risposte evitate a risposte errate rappresenta un cambiamento significativo, che riduce il fenomeno dell'evitamento ma non elimina l’errore. Il miglioramento nell’evitare risposte non conformi si osserva maggiormente in GPT rispetto a LLaMA, anche se la tendenza è presente in entrambe le famiglie.

In particolare, il fatto che i modelli ora possano riconoscere quando non sono sicuri delle loro risposte, un processo noto come "evitazione epistemica", rappresenta un miglioramento. Tuttavia, questo non bilancia completamente la tendenza a non rispondere quando necessario. Questo aspetto diventa chiaro confrontando GPT-3.5-turbo e GPT-4. Sebbene GPT-4 mostri miglioramenti nel gestire compiti più complessi, non supera le difficoltà di GPT-3.5-turbo nell'affrontare con precisione le attività più semplici.

I modelli linguistici di grandi dimensioni, come GPT e LLaMA, mostrano tendenze preoccupanti riguardo l'affidabilità quando confrontati con livelli di difficoltà crescenti. In teoria, ci si aspetterebbe che i modelli evitino di rispondere a domande più difficili, data la loro minore probabilità di fornire risposte corrette. Tuttavia, le correlazioni tra difficoltà e aumento dell'evitamento sono deboli e non sistematiche. Nei casi più difficili, non si osserva un aumento proporzionale dell'evitamento, ma piuttosto una crescita delle risposte errate. Questo fenomeno, soprattutto nei modelli più avanzati, rappresenta un'involuzione nella loro affidabilità, poiché non esistono intervalli di difficoltà in cui gli errori diventino improbabili, sia per la semplicità o complessità delle domande.

Analizzando la sensibilità ai prompt, si nota che i modelli ottimizzati sono meno influenzati dalla variazione nei prompt rispetto ai modelli grezzi. Tuttavia, nonostante questa stabilità maggiore, esistono aree di variabilità in cui la difficoltà continua a influenzare le prestazioni, e questa tendenza è più marcata nei modelli GPT rispetto ai LLaMA. I modelli grezzi, come GPT-3 davinci e le versioni non-chat di LLaMA, mostrano alta sensibilità ai prompt, anche per compiti apparentemente semplici come le operazioni di addizione. Questo suggerisce che solo prompt ben calibrati sbloccano la piena capacità di tali modelli, mentre i modelli ottimizzati offrono una performance più uniforme.

Un'ulteriore analisi rivela che, nonostante la scalabilità migliori la correttezza, non riesce a ridurre l'errore. Piuttosto, per i modelli grezzi, la percentuale di risposte errate cresce con la complessità. Per i modelli ottimizzati, l'evitamento diminuisce drasticamente, ma le risposte errate aumentano in modo sostanziale. Questa tendenza, osservata nel confronto tra modelli raw e shaped-up, indica che i modelli ottimizzati, pur riducendo l'evitamento, rispondono comunque con maggiore sicurezza, anche quando non conoscono la risposta, aumentando la proporzione di errori.

Uno degli aspetti critici di questa dinamica emerge dalla difficoltà di creare un'area operativa sicura in cui il modello sia altamente affidabile, specialmente per i compiti più semplici, come le addizioni o gli anagrammi. Sebbene la supervisione umana possa aiutare, non è in grado di compensare completamente questa inaffidabilità. Questo è un aspetto rilevante per gli utenti, soprattutto in scenari in cui l'accuratezza delle risposte semplici dovrebbe essere garantita senza la necessità di interventi esterni.

L'analisi dei FLOPs (floating-point operations), utilizzata per misurare il costo computazionale dei modelli, conferma che, mentre la scalabilità migliora la correttezza complessiva, aumenta anche la percentuale di errori. Questo rende i modelli più ultracrepidariani, ossia inclini a dare risposte errate anche quando non sono certi, evidenziando una crescente difficoltà nel bilanciare precisione e affidabilità nei modelli linguistici di ultima generazione.

L'analisi delle tendenze degli LLM, combinata con le aspettative degli utenti e le capacità limitate di supervisione umana, porta a una nuova comprensione dell'evoluzione dell'affidabilità di questi modelli. La discordanza tra difficoltà e correttezza, l'evitamento dei compiti e la sensibilità ai prompt emergono come temi centrali.

È possibile considerare tutte queste osservazioni e tendenze insieme alle aspettative di un utente umano tipo e alla limitata capacità umana di verifica e supervisione. Questo porta a una nuova comprensione dell'evoluzione dell'affidabilità dei modelli linguistici di grandi dimensioni, strutturata in gruppi di due risultati per ciascuna delle seguenti aree: discordanza di difficoltà (F1a e F1b), evitamento del compito (F2a e F2b) e sensibilità al prompt (F3a e F3b).

F1a conferma che i proxy della difficoltà umana sono predittori utili per la correttezza degli LLM. Questi proxy sono negativamente correlati con la correttezza, il che implica che gli esseri umani possono prevedere approssimativamente la probabilità che il modello risolva correttamente un compito, cosa cruciale quando la calibrazione della fiducia del modello è debole o inesistente, come nel caso di modelli addestrati tramite RLHF (reinforcement learning from human feedback).

F1b rivela che i modelli migliorano nei compiti più difficili, ma persistono problemi con quelli facili, estendendo il fenomeno della discordanza. Ciò è problematico per applicazioni che richiedono aree operative sicure, dove la precisione è fondamentale anche nei compiti semplici, un obiettivo non ancora raggiunto dai modelli attuali.

F2a mostra che il trade-off tra evitamento e correttezza è evidente: con l'aumento delle dimensioni e l'ottimizzazione, i modelli tendono a rispondere più frequentemente, ma con una maggiore incidenza di errori. L'eliminazione dell'evitamento porta a risposte più sicure ma spesso sbagliate, il che potrebbe indurre un'iniziale sovraffidamento da parte degli utenti, seguito da delusione nel lungo termine.

F2b sottolinea che l'evitamento non cresce con la difficoltà del compito, e nemmeno il tasso di rifiuto da parte degli utenti umani. Gli errori aumentano con la difficoltà, ma l'evitamento non segue la stessa curva. Questo porta a un'eccessiva fiducia da parte degli utenti, che riconoscono la complessità ma non compensano adeguatamente l'aumento degli errori nelle regioni di alta difficoltà.

F3a evidenzia che l'ingegneria dei prompt rimane essenziale, anche nei modelli scalati e ottimizzati. Sebbene ci sia una maggiore stabilità nei prompt, i modelli continuano a variare in sensibilità rispetto ai livelli di difficoltà, suggerendo che gli utenti dovranno comunque trovare i prompt giusti per ridurre al minimo le risposte errate.

F3b evidenzia una situazione complessa: il miglioramento nella gestione dei prompt non segue un andamento lineare rispetto alla difficoltà. Alcuni prompt funzionano meglio per compiti difficili, ma peggiorano le prestazioni per quelli semplici, creando un'ulteriore complessità per gli utenti, che potrebbero essere attratti da risultati positivi in compiti difficili senza rendersi conto dell'aumento degli errori nei compiti più facili.

Le tendenze osservate per le famiglie GPT, LLaMA e BLOOM, unite ai risultati peggiori dei modelli ottimizzati su errori e concordanza della difficoltà, potrebbero portare alla conclusione che il processo di scaling up e shaping up non garantisce un’affidabilità adatta alle esigenze degli utenti. Tuttavia, questi effetti sembrano derivare dalle ambizioni specifiche per questi modelli: migliorare nei benchmark, puntando su istanze difficili e favorendo la "instructability" (cioè, fornire risposte anche se errate pur di sembrare diligenti).

In molti casi, l'aumento delle dimensioni dei modelli ha portato all'uso di raccolte di dati più grandi e complessi, con un focus maggiore su esempi difficili e avanzati, che finiscono per prevalere su quelli più semplici. Inoltre, il processo di miglioramento dei modelli ha spesso ridotto la loro capacità di gestire incertezze, spingendoli a dare risposte decise anche quando non sono sicuri. Questo solleva la questione se un approccio diverso possa meglio soddisfare le esigenze di affidabilità degli utenti.

Rischi dell'uso di modelli AI senza supervisione nei settori critici e sensibili

Il primo studio esamina la relazione tra la difficoltà percepita e quella reale nel rispondere a un input, con l'obiettivo di verificare se le aspettative sulla difficoltà siano correlate a misure oggettive della difficoltà effettiva. Il secondo studio coinvolge partecipanti incaricati di supervisionare o verificare l'output di un modello AI, per esplorare la possibilità che gli esseri umani accettino risposte errate come corrette. Entrambi gli studi mirano a ottimizzare l'allineamento tra la difficoltà percepita e quella effettiva, riducendo al contempo la probabilità di errori dovuti alla supervisione umana.

I ricercatori suggeriscono un miglioramento nell'addestramento dei modelli di intelligenza artificiale, introducendo meccanismi di penalizzazione o ricompensa per ridurre gli errori. Questo approccio potrebbe richiedere la creazione di dataset più ampi e accurati, che incorporino non solo i risultati della supervisione, ma anche le aspettative umane in termini di difficoltà. Questi dati, di qualità superiore rispetto al tradizionale feedback umano, verrebbero impiegati per addestrare supervisori automatici capaci di migliorare l'adattamento dei modelli. L'obiettivo non è tanto eliminare del tutto la tendenza a evitare risposte, quanto calibrare correttamente il livello di cautela nelle risposte fornite. In settori critici, come la medicina, potrebbero essere sviluppati modelli linguistici specializzati con funzionalità di "rifiuto" o supervisionati da sistemi esterni, per insegnare all'AI a riconoscere i contesti in cui è preferibile non rispondere.

L'introduzione di tali interventi consentirebbe ai modelli di linguaggio di acquisire caratteristiche più umane e allineate alle esigenze umane, migliorando la loro affidabilità. Tuttavia, fino a quando queste migliorie non verranno implementate, l'uso generalizzato di modelli linguistici su larga scala come i LLM potrebbe rappresentare un rischio in settori dove la verità è cruciale, soprattutto se ci si affida esclusivamente alla supervisione umana.

Lo studio ha coinvolto principalmente soggetti non esperti, influenzando le valutazioni sulla percezione della difficoltà, che risultano spesso più elevate rispetto a benchmark consolidati limitando la generalizzabilità dei risultati. Un'ulteriore limitazione è legata alla raccolta dei prompt che, pur provenendo da fonti eterogenee, non fornisce informazioni sulla frequenza con cui tali prompt si presentano in contesti reali. Inoltre, lo studio ha escluso modelli che utilizzano strumenti esterni o tecniche di ragionamento avanzate, concentrandosi esclusivamente su famiglie di modelli come GPT, LLaMA e BLOOM.

Cinque categorie chiave per valutare la complessità dei modelli di linguaggio

Lo studio adotta un approccio metodico per selezionare benchmark finalizzati all'analisi delle capacità dei modelli di linguaggio, suddivisi in cinque categorie che permettono di valutare competenze numeriche, linguistiche e di conoscenza, oltre a simulare scenari realistici. Le cinque categorie scelte sono: "addition", "anagram", "locality", "science" e "transforms". Ognuna di esse è stata progettata per minimizzare i fattori di distorsione, concentrandosi su specifici aspetti cognitivi e di elaborazione delle informazioni.

Per la categoria addition, il compito consiste nel calcolare somme, includendo addizioni fino a 100 cifre. Questa operazione, pur essendo semplice da memorizzare per piccoli numeri, diventa più complessa con cifre maggiori, rappresentando così un buon banco di prova per studiare la capacità di generalizzazione dei modelli.

L'anagram prevede la risoluzione di puzzle linguistici nei quali bisogna riordinare lettere per formare parole. La difficoltà qui è influenzata dalla frequenza delle lettere, dalla lunghezza delle parole e dalla complessità del riordinamento richiesto.

Nel caso di locality, i modelli devono rispondere a domande di geografia, identificando la città più popolosa entro un determinato raggio da un punto di partenza. Questo richiede non solo conoscenze geografiche, ma anche capacità di ragionamento e inferenza.

Il benchmark science integra domande di scienza di base e avanzata, basate su database come OpenBookQA e Google-proof Q&A, rappresentando sfide che i LLM potrebbero incontrare in contesti educativi e accademici. La difficoltà delle domande varia notevolmente, riflettendo la complessità dei compiti in ambito scientifico.

Infine, transforms comprende una serie di trasformazioni informative basate su scenari reali, spaziando dalla formattazione di dati alla gestione di compiti complessi come recupero di informazioni e codifica. Questo set di compiti è progettato per simulare la complessità delle domande reali che i modelli possono incontrare, richiedendo risposte elaborate e strutturate.

Per la valutazione della difficoltà, sono stati identificati fattori umani intuitivi per ogni categoria. Ad esempio, per le addizioni, il numero di cifre e le operazioni di riporto influenzano la difficoltà. Nel caso degli anagrammi, la difficoltà è legata alla lunghezza delle parole e alla complessità del riordinamento. Per la geografia, la difficoltà dipende dalla notorietà delle città e dalla loro popolazione. Infine, la complessità dei compiti di trasformazione è misurata, tra gli altri fattori, dal numero di caratteri e dalla distanza tra input e output in termini di modifiche necessarie.

I valori di difficoltà sono stati trasformati in una scala da 0 a 100, dove 0 rappresenta il compito più facile e 100 il più difficile, in base a quanto le persone si aspettano che un compito sia complesso. Questi valori sono stati calcolati utilizzando un metodo matematico basato sulle aspettative dei partecipanti umani. Questo sistema permette di confrontare direttamente i diversi tipi di compiti tra loro. Anche se bisogna fare attenzione nell'interpretare piccole differenze tra i valori, questa scala offre una base coerente per valutare la difficoltà percepita dei compiti da parte delle persone.

Come vengono generati i dati per testare i modelli linguistici

La raccolta e la generazione dei dati seguono un approccio dettagliato che varia in base al tipo di benchmark. Per l'operazione di addition, sono stati generati casualmente 5.000 esempi, con addendi selezionati tra 1 e 100 cifre. Per evitare che le istanze con numeri di cifre simili dominassero i livelli di difficoltà più alti, sono stati eliminati i casi in cui il valore della funzione di difficoltà superava un certo limite. Questo ha prodotto un campione finale di 3.142 istanze.

Per il benchmark anagram, si è utilizzato il Google Web Trillion Word Corpus, che contiene la frequenza delle parole più usate sul web in inglese. Da questo corpus sono state selezionate fino a 100 parole inglesi con una lunghezza compresa tra 3 e 20 lettere, generando un totale di 1.570 anagrammi mediante permutazioni casuali delle lettere, assicurando che ciascuna permutazione fosse unica rispetto alla parola originale.

Nel caso del benchmark locality, si è impiegato il World Cities Database, escludendo le città con nomi non univoci o che contengono più di una parola o caratteri non latini. Le città selezionate sono state distribuite su diversi livelli di difficoltà in modo uniforme, producendo 2.341 istanze, scelte casualmente da 100 gruppi distinti, ciascuno rappresentante un intervallo specifico di difficoltà.

Il benchmark science si basa su domande a scelta multipla provenienti da contesti educativi, includendo OpenBookQA e GPQA. OpenBookQA offre 1.329 domande basate su fatti scientifici, da cui sono state estratte casualmente 1.000 domande. Per integrare domande più avanzate, sono stati inclusi 546 quesiti a livello di laurea da GPQA, che spaziano tra biologia, fisica e chimica.

Infine, il benchmark transforms si concentra su compiti legati alla trasformazione di informazioni, provenienti da dataset di formattazione dei dati e dataset di istruzioni naturali. Oltre a rigenerare o adattare alcuni compiti esistenti, sono stati introdotti nuovi task che riflettono scenari reali legati alla conoscenza del mondo, pubblicità, amministrazione, codifica e vendita al dettaglio. Questo benchmark include 73 task distinti, ciascuno con 10 istanze, per un totale di 730 elementi.

Questa metodologia di raccolta e generazione dei dati consente una copertura equilibrata delle difficoltà e dei casi d'uso reali, garantendo un'ampia varietà di scenari e domande per mettere alla prova le capacità dei modelli di linguaggio.

Come sviluppare template efficaci da fonti reali per benchmark linguistici

La generazione di template per i prompt segue tre criteri principali. In primo luogo, i prompt devono risultare quanto più naturali possibile, simulando l’interazione tra esseri umani e modelli linguistici in un contesto che rispecchia una conversazione reale. In secondo luogo, devono essere basati su fonti del mondo reale, con solo lievi variazioni o adattamenti, attingendo a testi accademici, letteratura scientifica, esami e risorse online. Infine, è fondamentale garantire una copertura adeguata e diversificata di template, evitando ridondanze e focalizzandosi sull'analisi della sensibilità del modello. Il risultato di questo processo sono 15 template per ogni benchmark, studiati per essere robusti e rappresentativi, con dettagli specifici descritti nelle note supplementari.

Automazione della valutazione di risposte LLM con algoritmi avanzati

La valutazione delle risposte generate dai LLM presenta una sfida significativa a causa dell'elevata variabilità dei testi prodotti. Alcune risposte risultano molto dettagliate, altre concise, mentre altre ancora possono essere fuori tema o eccessivamente prolisse, includendo informazioni superflue. Nell'analisi vengono utilizzate tre categorie di valutazione: corrette, errate e non pertinenti. Per facilitare questo processo, si utilizzano tabelle che permettono di classificare le risposte e identificare con precisione dove il modello ha fornito risposte accurate, errate o fuorvianti. Questo approccio rende più complessa la valutazione, poiché concetti come precisione e sensibilità, tipicamente usati per classificazioni binarie, devono essere adattati a questa struttura a tre risultati.

Valutare manualmente un numero così elevato di risposte, circa 4,2 milioni, diventa impraticabile. Tuttavia, nonostante la variabilità delle risposte, i modelli linguistici tendono a mostrare schemi ripetuti. Questo consente di automatizzare il processo di valutazione utilizzando condizioni algoritmiche semplici e l'impiego di espressioni regolari, che si sono dimostrate molto efficaci nel garantire un'alta precisione nella classificazione automatica delle risposte.

Benchmarking di GPT LLaMA e BLOOM con GPU A40 e cloud

Durante i test effettuati, tutti i modelli sono stati interrogati con il parametro di temperatura fissato a zero, il che significa che le risposte sono state generate in modo deterministico e senza variazioni casuali. Inoltre, non è stato utilizzato alcun prompt di sistema, ossia non è stato fornito un contesto o istruzioni aggiuntive per guidare le risposte del modello.

Per l'elaborazione locale, è stato impiegato un cluster condiviso composto da sei nodi, ognuno dotato di 8 unità di elaborazione grafica (GPU) NVIDAI A40 da 48 GB. Tutte le inferenze locali sono state eseguite su un singolo nodo, utilizzando le librerie Hugging Face Transformers e Accelerate, e senza quantizzazione dei modelli, con l'eccezione di BLOOMz. Il calcolo complessivo necessario per tutti gli esperimenti, compresi i riavvii e i risultati scartati, è stimato intorno ai 100 giorni di calcolo su un singolo nodo con 8 GPU A40.

Per quanto riguarda i modelli della famiglia GPT, sono stati utilizzati dieci modelli forniti da OpenAI. I primi quattro, GPT-3 ada, babbage, curie e davinci, rappresentano i modelli originari non modificati. Successivamente, sono stati impiegati tre modelli più avanzati, noti come varianti InstructGPT di davinci: text-davinci-001, text-davinci-002 e text-davinci-003, perfezionati tramite feedback umano. Gli ultimi tre modelli (GPT-3.5-turbo e due versioni di GPT-4) sono ulteriormente ottimizzati tramite feedback umano e includono anche un meccanismo di post-filtraggio per la moderazione. In particolare, GPT-3.5-turbo è nella versione "gpt-3.5-0301" (marzo 2023), mentre i due modelli GPT-4 si distinguono per la data di realizzazione: "gpt-4-0314" e "gpt-4-0613". Tutti questi modelli sono stati accessibili tramite l'API pubblica di OpenAI, utilizzando la ChatCompletion API.

Per quanto riguarda LLaMA, sono state utilizzate quattro diverse dimensioni della prima versione di LLaMA: 7 miliardi, 13 miliardi, 30 miliardi e 65 miliardi di parametri. Per LLaMA-2, non esiste una variante da 30 miliardi, ma sono stati usati i modelli da 7 miliardi, 13 miliardi e 70 miliardi di parametri, inclusi i corrispondenti modelli chat, che utilizzano diverse tecniche di adattamento. Tutte le inferenze sono state eseguite localmente, ad eccezione di LLaMA-65b, per il quale è stata utilizzata l'API di Hugging Face, e LLaMA-2 (non chat), per cui è stata impiegata l'API di Together.AI.

Passando ai modelli BLOOM, sono state utilizzate sei diverse dimensioni, varianti da 560 milioni a 176 miliardi di parametri, incluse le versioni BLOOMz, che integrano un fine tuning multitasking multilingue (noto anche come instruction tuning). Come per i modelli precedenti, le inferenze sui modelli più piccoli sono state eseguite localmente, mentre la variante più grande di BLOOM è stata eseguita tramite l'API di Hugging Face. BLOOMz, invece, è stato eseguito localmente, ma con una quantizzazione NF4 per permettere l'esecuzione su un singolo nodo.

Il numero di token è stato adattato per il benchmark in base alle esigenze di ciascun modello e test. Ad esempio, per le attività di addition sono stati utilizzati 256 token, per anagram 72, per locality 132, per la sezione science del benchmark OBQA 72 token e per GPQA 384 token. Tuttavia, per GPT-3.5 e GPT-4, sono stati utilizzati fino a 1.000 token. Per i test di transforms, è stata applicata la formula round(max(72,output_length)) × 3/4. Questi numeri hanno garantito risposte sufficientemente lunghe da coprire circa il 99% dei casi e al contempo hanno ridotto i costi. Sono stati utilizzati i valori predefiniti per la condizione di arresto e per gli altri parametri.

Valutazione delle prestazioni dei modelli GPT, LLaMA e BLOOM attraverso sei indicatori chiave

Nell'analisi dei modelli di linguaggio, i dati vengono classificati in base alla loro difficoltà e suddivisi in 30 gruppi di uguale dimensione. Ogni gruppo viene poi valutato in termini di percentuali di correttezza, errore e risposte evitanti. Questi risultati vengono rappresentati visivamente tramite un grafico a barre sovrapposte, che evidenzia le differenze di prestazione dei modelli. Per quantificare la correlazione tra la difficoltà degli esempi e le prestazioni, si utilizza il coefficiente di correlazione di Spearman. Inoltre, la sensibilità del modello alle variazioni di prompt (input testuali) viene esplorata confrontando le prestazioni su diversi template di prompt.

Per fornire un quadro completo dell'affidabilità dei modelli, vengono delineati sei indicatori chiave, applicati ai modelli delle famiglie GPT (di OpenAI), LLaMA (di Meta) e BLOOM (di BigScience). Le risposte vengono suddivise in tre categorie: corrette (c), evitanti (a) ed errate (i). A seconda di come si confrontano queste categorie, è possibile mettere in risalto due aspetti fondamentali: l'accuratezza e la prudenza. Nel primo caso, separando le risposte corrette dalle evitanti o errate (c contro a + i), l'attenzione si focalizza sull'accuratezza del modello, cioè la sua capacità di dare risposte esatte. Nel secondo caso, confrontando le risposte corrette ed evitanti con quelle errate (c + a contro i), si valuta la prudenza del modello, ovvero la sua capacità di evitare errori gravi.

Gli indicatori di affidabilità che vengono utilizzati per valutare i modelli sono:

1. Proporzione di correttezza: misura la percentuale di risposte corrette fornite dal modello. Questa metrica viene calcolata come la probabilità che una risposta sia corretta, ovvero il numero di risposte corrette per un determinato prompt diviso per il totale delle risposte fornite. Ad esempio, il modello GPT-4 v2 raggiunge una proporzione di correttezza del 44,39%, mentre BLOOM-176b si ferma al 7,05%, evidenziando una netta differenza nelle prestazioni tra modelli.

2. Proporzione di prudenza: misura la probabilità che il modello fornisca una risposta prudente, cioè corretta o evitante. Questo indicatore si calcola come la somma delle risposte corrette ed evitanti diviso per il totale delle risposte fornite. I modelli BLOOM tendono a ottenere buone prestazioni in termini di prudenza: BLOOM-560m raggiunge un impressionante 87,01%, e anche altri modelli come BLOOM-1b1 e BLOOM-176b superano l'85%. D'altra parte, modelli più piccoli della famiglia LLaMA, come LLaMA-2-7b, presentano una proporzione di prudenza più modesta (59,18%).

3. Stabilità di correttezza: questo indicatore valuta la probabilità che il modello mantenga una risposta corretta nonostante un cambiamento nel prompt. La stabilità della correttezza si calcola come la probabilità che una risposta corretta per un'istanza rimanga tale anche se si utilizza un altro prompt per la stessa istanza. Tra i modelli di punta, GPT-4 v2 si distingue con una stabilità di correttezza del 76,80%, mentre LLaMA-13b e LLaMA-2-70b ottengono valori più bassi, rispettivamente del 44,13% e 38,32%.

4. Stabilità di prudenza: questa metrica misura la capacità del modello di fornire una risposta prudente (corretta o evitante) anche quando il prompt varia. Ad esempio, GPT-4 v2 raggiunge una stabilità di prudenza del 74,28%, il che indica che è altamente stabile non solo nelle risposte corrette ma anche nelle risposte evitanti. Al contrario, LLaMA-2-7b mostra una stabilità di prudenza molto più bassa (15,84%), rivelando una maggiore vulnerabilità alle variazioni del prompt.

5. Concordanza di difficoltà per la correttezza: questa metrica misura la relazione tra la difficoltà degli esempi e la capacità del modello di dare risposte corrette. La concordanza si calcola usando una metrica non parametrica chiamata generalità, che valuta quanto il successo del modello segua un comportamento simile a una funzione graduale decrescente: più ripida è la curva, maggiore è la concordanza. BLOOM-560m eccelle in questo aspetto, con un valore di concordanza di difficoltà pari a 58,50%, mentre modelli come GPT-4 v2 e GPT-3.5-turbo raggiungono valori più bassi, rispettivamente di 9,98% e 10,92%.

6. Concordanza di difficoltà per la prudenza: questa versione della concordanza si concentra sulle risposte prudenti. Anche in questo caso, la generalità viene utilizzata per misurare quanto il modello eviti errori in situazioni più difficili. Ad esempio, BLOOM-1b1 mostra una forte concordanza (58,05%), mentre modelli come GPT-3 Curie e LLaMA-2-13b-chat hanno valori inferiori, rispettivamente di 39,67% e 22,81%.

Questi sei indicatori rappresentano una struttura complessa e dettagliata per valutare l'affidabilità dei modelli di linguaggio. Le performance variano notevolmente tra le diverse famiglie di modelli e tra le versioni all'interno di una stessa famiglia. Ad esempio, nel caso dei modelli GPT, si osserva una netta progressione delle prestazioni con l'aumentare della complessità del modello. GPT-4 v1 e GPT-4 v2 ottengono i punteggi migliori in termini di correttezza (rispettivamente 42,08% e 44,39%) e prudenza (44,63% e 46,54%), con una stabilità di correttezza che raggiunge rispettivamente il 72,86% e il 76,80%. Tuttavia, nei modelli precedenti come GPT-3 Davinci, la proporzione di correttezza scende all'8,11% e la stabilità della correttezza è significativamente più bassa (35,24%).

D'altro canto, i modelli LLaMA mostrano una maggiore variabilità a seconda delle dimensioni. Ad esempio, LLaMA-65b ottiene una proporzione di correttezza molto bassa (2,42%) e una stabilità di correttezza di 35,38%, mentre la versione più piccola LLaMA-7b presenta una proporzione di correttezza del 7,92% e una stabilità di correttezza del 46,16%. I modelli BLOOM tendono a essere più prudenti, con modelli come BLOOM-560m che raggiungono una proporzione di prudenza dell'87,01%, ma risultano meno performanti in termini di stabilità di correttezza (31,14%).

Nel complesso, i dati evidenziano che, mentre i modelli di dimensioni maggiori tendono a essere più affidabili, esistono ampie differenze nelle prestazioni a seconda dell'aspetto dell'affidabilità che si analizza. Le metriche proposte consentono di avere una visione dettagliata di come ciascun modello si comporti in termini di correttezza, prudenza e stabilità, offrendo un quadro completo per guidare lo sviluppo di modelli futuri.

Conclusioni

Il crescente utilizzo di modelli di linguaggio di grandi dimensioni come GPT e LLaMA pone un problema cruciale per le aziende: la contraddizione tra la loro potenza computazionale e la loro affidabilità. Sebbene questi modelli abbiano dimostrato capacità sorprendenti nel gestire compiti complessi, si riscontra una tendenza preoccupante: una maggiore propensione a errori nei compiti più semplici, dove paradossalmente la loro performance dovrebbe essere più solida. Questa dinamica solleva interrogativi strategici per le imprese che fanno affidamento su tali modelli in settori critici come la finanza, la sanità e il diritto.

Un primo punto su cui riflettere è l’effetto del scaling incontrollato di questi modelli. Aumentare semplicemente la dimensione dei modelli o la quantità di dati non garantisce una maggiore affidabilità. Al contrario, può intensificare le problematiche legate alla variabilità delle risposte, specialmente quando si utilizzano in contesti dove la precisione è non solo necessaria, ma vitale. Questo mette in luce la necessità di abbandonare l’approccio “più grande è meglio” a favore di uno sviluppo orientato alla qualità delle risposte in base al contesto specifico dell’utilizzo.

Il secondo aspetto critico è legato al comportamento erratico di questi modelli. La tendenza a fornire risposte apparentemente sensate, ma in realtà errate, rappresenta un rischio sottovalutato. Questo comportamento può portare a un eccessivo affidamento da parte degli utenti aziendali, soprattutto in contesti dove gli errori sono difficili da rilevare. Le imprese dovrebbero considerare non solo l’adozione di tecniche di supervisione più sofisticate, ma anche lo sviluppo di soluzioni ibride, dove l’intelligenza artificiale agisce in collaborazione con esseri umani esperti per mitigare l’ultracrepidarianismo dei modelli.

Un altro elemento strategico riguarda la questione dell’adattamento dei modelli ai compiti specifici. I modelli ottimizzati tendono a ridurre l'evitamento delle risposte, ma questo a sua volta aumenta l’incidenza di errori, poiché tendono a rispondere comunque, anche quando non hanno una conoscenza precisa. Le aziende devono quindi rivedere le modalità con cui questi sistemi sono impiegati, in particolare in settori dove una non-risposta sarebbe preferibile a una risposta scorretta. La creazione di meccanismi che permettano ai modelli di "sapere quando non sanno" diventa così una priorità per garantire maggiore affidabilità.

Infine, il tema della sensibilità ai prompt sottolinea l’importanza di un’interfaccia utente ben progettata. Il modo in cui viene formulata una domanda può alterare drasticamente la qualità della risposta. Questo apre nuove opportunità per le imprese nel campo della prompt engineering, una disciplina emergente che potrebbe diventare cruciale per garantire l’affidabilità delle applicazioni basate su LLM. Creare processi standardizzati per la formulazione di input ottimizzati potrebbe essere un vantaggio competitivo significativo per le aziende che investono nell’uso di questi strumenti.

In conclusione, l’adozione degli LLM non può limitarsi a una semplice integrazione tecnologica. Deve essere accompagnata da una riflessione profonda su come gestire e mitigare i loro limiti intrinseci. Le imprese che comprendono queste sfide avranno un vantaggio nel navigare le complessità dell’AI, sfruttando al massimo il potenziale di questi strumenti senza cadere nella trappola di un’eccessiva dipendenza da modelli ancora in evoluzione.