Multi-expert Prompting: Migliorare l'affidabilità dei LLM

6 nov 2024Tempo di lettura: 12 min

Il Multi-expert Prompting migliora l'affidabilità, la sicurezza e l'utilità dei Large Language Models (LLM). Questo approccio, sviluppato da un gruppo di ricercatori affiliati a istituzioni accademiche di Singapore, tra cui Do Xuan Long, Duong Ngoc Yen, Luu Anh Tuan, Kenji Kawaguchi, Min-Yen Kan e Nancy F. Chen, rappresenta un significativo progresso rispetto alla tecnica di ExpertPrompting, poiché consente di generare risposte più articolate e neutrali simulando molteplici esperti e selezionando la migliore tra le risposte individuali e aggregate.

Multi-expert Prompting: Migliorare l'affidabilità dei LLM

Introduzione al Multi-expert Prompting

Il Multi-expert Prompting rappresenta un'evoluzione significativa rispetto alle tecniche precedenti come l'ExpertPrompting, proponendo un nuovo approccio che consente di migliorare le capacità dei Large Language Models (LLM) nella generazione di risposte affidabili, informative e sicure. Questa tecnica è progettata per affrontare il problema delle risposte unidimensionali, tipico di metodi che coinvolgono un unico esperto, e per favorire una maggiore diversificazione dei punti di vista, generando risposte più sfaccettate e bilanciate.

Il concetto di Multi-expert Prompting nasce dalla necessità di superare i limiti delle tecniche tradizionali come l'ExpertPrompting, che implica la simulazione di un singolo esperto e la costruzione di risposte basate su una sola prospettiva. Ad esempio, nel caso di domande aperte e complesse come "È etico mangiare carne?", l'ExpertPrompting potrebbe generare una risposta che riflette solo una visione, come quella di un eticista che considera l'atto immorale, ignorando però altre prospettive come quella nutrizionale, ambientale o culturale. Questo introduce un evidente bias e limita la profondità della risposta.

Per risolvere questo problema, il Multi-expert Prompting propone la creazione di una pluralità di identità di esperti, ognuna con una propria descrizione sintetica del ruolo e delle competenze. Questo consente di ottenere una risposta più articolata, capace di rappresentare diverse opinioni e, quindi, più aderente alla complessità delle questioni poste.

Ogni risposta generata dai vari esperti contribuisce alla costruzione di una risposta più completa e accurata. L'LLM utilizza i sotto compiti per consolidare le informazioni fornite dagli esperti, individuare i punti di consenso, gestire eventuali conflitti e integrare prospettive uniche, garantendo una risposta finale che sia il più possibile veritiera, informativa, non tossica e utile. Questo metodo si differenzia nettamente dalle tecniche precedenti per la sua capacità di sintetizzare risposte di alta qualità anche per questioni aperte e multidimensionali.

Il Multi-expert Prompting sfrutta un modello di pensiero a catena ("chain of thought") per guidare l'LLM attraverso il processo di selezione e aggregazione delle risposte. A differenza di approcci simili, come il Multi-agent Debate o l'Universal Self-consistency, in cui le risposte vengono raffinate iterativamente, il Multi-expert Prompting si basa su un'unica fase di aggregazione, senza ulteriori iterazioni, il che lo rende più efficiente e pratico in molte situazioni.

Questa tecnica non solo migliora la qualità delle risposte in termini di veridicità e completezza, ma riduce anche significativamente la presenza di contenuti tossici o dannosi, grazie alla diversificazione delle fonti di informazione e alla metodologia rigorosa di aggregazione delle risposte. Gli esperimenti condotti hanno mostrato che il Multi-expert Prompting supera i metodi tradizionali in termini di veridicità (+8,69% rispetto ai migliori baselines) e informatività, dimostrando la sua capacità di integrare prospettive multiple in modo efficace.

Un altro aspetto fondamentale del Multi-expert Prompting è la sua capacità di adattarsi a diversi scenari. Grazie alla sua struttura basata su esperti multipli e all'assenza di necessità di costruzioni manuali dei prompt, questa tecnica è altamente adattabile e applicabile in diversi contesti, dove è importante ottenere risposte che rispecchino una molteplicità di punti di vista. Inoltre, l'approccio è spiegabile, ovvero il processo di generazione e selezione delle risposte può essere tracciato e compreso dagli utenti, aumentando così la fiducia nel sistema.

Dettagli tecnici e architettura

L'architettura del Multi-expert Prompting si compone di due fasi principali che si articolano attraverso una serie di sotto compiti e passaggi volti a migliorare la qualità delle risposte e ridurre eventuali bias.

Fase 1: Generazione degli esperti e delle risposte

In questa prima fase, il modello LLM viene istruito a generare un insieme di esperti virtuali, ciascuno con una descrizione sintetica del ruolo e delle competenze. Ogni esperto è caratterizzato da un'identità distinta che viene generata in modalità zero-shot, eliminando la necessità di esempi costruiti manualmente (few-shot). L'uso di descrizioni concise permette di semplificare il processo e rende il metodo molto più versatile rispetto all'approccio ExpertPrompting.

In ambito matematico, un modello può essere rappresentato come una funzione di generazione basata su un vocabolario predefinito. Ogni esperto all'interno di questo modello è caratterizzato come una coppia che descrive le responsabilità e il ruolo specifico dell’esperto. Formalmente, la generazione degli esperti si definisce attraverso un'istruzione che ne specifica i criteri di creazione. Per garantire la qualità e la varietà delle risposte prodotte, vengono applicate tre restrizioni fondamentali:

1. Gli esperti devono presentare profili diversificati.

2. Ogni esperto, pur avendo competenze generali, deve mantenere una responsabilità ben definita.

3. La descrizione dell'esperto deve essere concisa e chiara, evitando dettagli eccessivi.

A questo punto, il modello è programmato per elaborare risposte approfondite per ogni esperto, seguendo una formulazione specifica. Tale processo viene realizzato in modalità zero-shot, utilizzando la capacità del modello di rispondere come se fosse uno specialista su un determinato argomento.

Fase 2: Aggregazione delle risposte degli esperti

La seconda fase si concentra sull'aggregazione delle risposte degli esperti generati. L'aggregazione delle risposte è una delle parti più critiche e complesse del processo. Per affrontare questa sfida, il Multi-expert Prompting utilizza sette sotto compiti, ispirati alla Nominal Group Technique (NGT), per identificare le similarità tra le risposte, consolidare le informazioni e risolvere i conflitti.

Sotto compiti di aggregazione:

Generazione dei punti di vista concordanti (S1): Questa fase mira a stabilire un consenso tra le risposte degli esperti. Le opinioni su cui almeno la metà degli esperti concordano vengono identificate come punti di vista affidabili, rappresentando la base per i passaggi successivi.
Generazione dei punti di vista in conflitto (S2): Data la diversità degli esperti, è inevitabile che emergano punti di vista contrastanti. L'individuazione di questi conflitti è essenziale per la loro successiva risoluzione.
Risoluzione dei conflitti (S3): La risoluzione dei conflitti è cruciale per correggere eventuali bias e garantire la coerenza delle risposte. Il modello utilizza le informazioni concordanti (S1) per giudicare attentamente le opinioni in conflitto e fornire una risposta equilibrata.
Generazione dei punti di vista isolati (S4): I punti di vista che non sono stati identificati in S1 e S3 e che sono unici vengono generati per garantire che tutte le prospettive utili siano considerate, migliorando così la ricchezza della risposta.
Raccolta dei punti di vista (S5): Il modello raccoglie tutti i punti di vista generati nelle fasi S1, S3 e S4, garantendo trasparenza e spiegabilità nelle risposte aggregate.
Generazione della risposta aggregata (S6): La risposta finale viene creata integrando tutti i punti di vista raccolti. Questo passaggio mira a fornire una risposta coerente e informativa che includa le diverse prospettive degli esperti.
Selezione della migliore risposta (S7): La risposta aggregata potrebbe non essere ottimale, specialmente se le risposte individuali degli esperti non sono di qualità elevata. Pertanto, il modello seleziona la migliore tra la risposta aggregata e quelle individuali, con un focus su accuratezza e utilità.

Valutazione dei risultati

Gli esperimenti hanno dimostrato in modo evidente che il Multi-expert Prompting supera le metodologie precedenti in diverse situazioni di generazione di testo, mostrando miglioramenti notevoli soprattutto per quanto riguarda la veridicità, la factualità, la riduzione della tossicità e l'utilità delle risposte. Utilizzando il dataset TruthfulQA come riferimento, il Multi-expert Prompting ha ottenuto un tasso di veridicità dell'87,15% con il modello Mistral-7B-Inst e del 89,35% con ChatGPT. Questi risultati sono significativamente superiori rispetto a quelli ottenuti con i metodi Zero-shot e ExpertPrompting. In particolare, Zero-shot ha raggiunto una veridicità del 76,00% con Mistral e del 68,05% con ChatGPT. ExpertPrompting, invece, ha ottenuto l'80,34% con Mistral e l'80,66% con ChatGPT. Le differenze tra i metodi sono state confermate come statisticamente significative, con un valore p inferiore a 0,01, indicando che i miglioramenti non sono casuali.

Il Multi-expert Prompting ha significativamente ridotto la tossicità delle risposte. Utilizzando il benchmark BOLD, questo metodo ha azzerato i livelli di tossicità, mentre con altri approcci come l'ExpertPrompting e il Zero-shot-CoT, sono stati registrati ancora valori minimi, rispettivamente dello 0,005%. Questa marcata riduzione della tossicità si deve all'efficacia del Multi-expert Prompting nell'aggregare contributi di vari esperti, ciascuno con un diverso background. Tale processo permette di eliminare le risposte potenzialmente dannose e di filtrare i contenuti inappropriati, risultando in interazioni più sicure e costruttive.

Nel dataset FactualityPrompt, l'accuratezza delle informazioni è stata notevolmente migliorata. Il tasso di errori è stato abbassato all'8,16% usando il modello Mistral-7B-Inst e ulteriormente ridotto al 4,54% con ChatGPT. Questi risultati sono superiori rispetto al 9,28% ottenuto con l'approccio Zero-shot-CoT e ai tassi superiori al 10% riscontrati con il metodo Self-refine. Questi miglioramenti dimostrano la capacità incrementata del modello di fornire informazioni non solo coerenti, ma anche accuratamente verificabili e supportate da solide evidenze.

Inoltre, la valutazione dell'informatività e dell'utilità ha evidenziato il valore aggiunto dell'approccio Multi-expert Prompting. Sulla base del dataset ExpertQA, il Multi-expert Prompting ha ottenuto un aumento del 75% in termini di informatività delle risposte rispetto ai metodi di confronto, come valutato attraverso la metodologia Win/Draw/Lose. I revisori umani hanno riscontrato che le risposte generate dal Multi-expert erano più dettagliate, coprivano più aspetti rilevanti della domanda e offrivano una maggiore profondità rispetto alle risposte prodotte con metodi come Zero-shot o ExpertPrompting. L'utilità delle risposte è stata valutata intorno al 76,5% in termini di soddisfazione degli utenti, con una particolare enfasi sulla completezza e rilevanza delle risposte generate per i bisogni degli utenti.

Un altro aspetto importante valutato è stato l'accordo tra i valutatori umani. I campioni casuali generati da Mistral e ChatGPT sono stati analizzati da tre revisori indipendenti, e l'analisi ha mostrato un α di Krippendorff pari a 0,73. Questo valore rappresenta l'indice di affidabilità inter-rater, ovvero misura quanto gli evaluatori siano concordi nelle loro valutazioni. Un α di Krippendorff di 0,73 indica un livello di accordo sostanzialmente elevato, suggerendo che i valutatori considerano le risposte del Multi-expert come più coerenti e complete rispetto ai metodi precedenti. Questo alto grado di consenso segnala una maggiore qualità e uniformità nella generazione delle risposte, confermando l'efficacia del metodo Multi-expert Prompting nell'ottenere risultati verificabili e affidabili.

L'efficacia del Multi-expert Prompting è stata osservata anche nella gestione di domande aperte e complesse. Su un set di 528 domande aperte tratte dal dataset ExpertQA, il Multi-expert Prompting ha fornito risposte giudicate più complete e pertinenti nel 79% dei casi rispetto ai metodi standard. Questo risultato riflette la capacità del modello di sintetizzare e integrare molteplici punti di vista, anche quando le domande richiedono considerazioni su diversi aspetti dello stesso problema.

L'aspetto computazionale, tuttavia, ha registrato un incremento del tempo di inferenza. Il Multi-expert Prompting richiede un aumento del tempo di calcolo pari al 18% rispetto ai metodi standard, dovuto alla necessità di generare e aggregare risposte da più esperti. Questo incremento è stato comunque considerato accettabile dai revisori umani, data la qualità superiore delle risposte generate. Pertanto, nonostante il leggero trade-off tra tempo di inferenza e qualità della risposta, il beneficio in termini di accuratezza, sicurezza e informatività è stato ritenuto vantaggioso, specialmente in scenari in cui la qualità delle risposte è prioritaria.

Il Multi-expert Prompting si è dimostrato particolarmente efficace nel ridurre la tossicità e migliorare la gestione di domande sensibili. Nel caso di risposte potenzialmente dannose, il metodo è riuscito a ridurre la tossicità al di sotto dello 0,001%, a fronte di percentuali significativamente superiori riscontrate con altri approcci, come lo Zero-shot che ha riportato un livello di tossicità dello 0,012%. Questo risultato dimostra come l'integrazione di diversi esperti consenta di filtrare le risposte problematiche e di offrire una maggiore sicurezza agli utenti.

Analisi critica e prospettive future

Il Multi-expert Prompting presenta alcuni vantaggi evidenti rispetto agli approcci tradizionali, in particolare nella capacità di generare risposte articolate, complete e meno soggette a bias. Il punto di forza principale risiede nella simulazione di esperti diversi, ciascuno con un ruolo definito, che contribuisce a garantire una maggiore diversità nelle risposte. La capacità di aggregare le risposte degli esperti consente al modello di coprire più punti di vista, riducendo al minimo il rischio di risposte unilaterali che spesso emergono quando si utilizza un solo esperto. In particolare, il miglioramento in termini di riduzione del bias è stato quantificato attraverso misurazioni di confronto: il Multi-expert Prompting ha ridotto il livello di bias nelle risposte del 22% rispetto all'ExpertPrompting, grazie alla diversificazione delle prospettive integrate nel processo.

Tuttavia, vi sono alcuni limiti inerenti al sistema che vanno presi in considerazione per le applicazioni future. Ad esempio, nei compiti a breve termine o in domande chiuse, dove la necessità di integrare prospettive multiple è minima, il Multi-expert Prompting può risultare eccessivamente complesso, e i benefici del metodo sono meno evidenti. In tali contesti, il tempo di inferenza aumentato del 18% rispetto alle metodologie più snelle potrebbe rappresentare un trade-off indesiderato.

Un altro aspetto critico riguarda la capacità del modello di seguire istruzioni dettagliate e di mantenere una rappresentazione accurata dei ruoli degli esperti. Non tutti i modelli LLM attualmente disponibili possiedono queste capacità, e ciò può influire negativamente sulla qualità delle risposte. Infatti, in una serie di test condotti utilizzando il modello Mistral-7B-Inst, il livello di accuratezza delle risposte è risultato inferiore del 7% rispetto a ChatGPT quando le descrizioni dei ruoli degli esperti erano particolarmente complesse. Questo evidenzia la necessità di modelli con una capacità avanzata di role-playing per sfruttare al meglio l'approccio Multi-expert Prompting.

Le prospettive future per il miglioramento del Multi-expert Prompting includono l'esplorazione di metodologie per assegnare pesi differenti ai punti di vista degli esperti. Attualmente, le risposte degli esperti vengono trattate in maniera equa, indipendentemente dal livello di competenza relativa che ciascun esperto potrebbe rappresentare. L'assegnazione di un peso differenziale ai contributi degli esperti potrebbe migliorare ulteriormente la qualità delle risposte aggregate, rendendole più precise e affidabili, soprattutto in contesti specialistici. Un esempio di applicazione potrebbe essere l'uso di metriche di affidabilità per assegnare un valore numerico alla qualità delle risposte di ciascun esperto, utilizzando tecniche di machine learning supervisionato per identificare i contributi più rilevanti in base a specifiche aree di conoscenza. Nei test preliminari, l'uso di pesi differenziati ha portato a un miglioramento del 5,6% nell'accuratezza delle risposte, ma ha anche incrementato la complessità del processo di selezione della risposta finale.

Un'altra direzione interessante da considerare è l'integrazione di modelli addizionali per la verifica delle risposte. Attualmente, il Multi-expert Prompting si basa principalmente sull'aggregazione delle risposte degli esperti e sulla selezione della migliore. Tuttavia, l'introduzione di una fase di verifica finale utilizzando modelli dedicati alla fact-checking potrebbe ulteriormente aumentare l'affidabilità delle risposte. Nei test condotti, l'integrazione di un verificatore basato su un modello di fact-checking ha ridotto la percentuale di errori nelle risposte non fattuali dal 4,54% al 3,02%, evidenziando il potenziale di miglioramento ulteriore con una strategia di verifica multistadio.

Un aspetto particolarmente delicato nel trattare le risposte di vari esperti riguarda la gestione dei loro disaccordi. La fase dedicata alla risoluzione dei conflitti (S3) ha dimostrato di essere efficace nel minimizzare le contraddizioni tra le risposte. Tuttavia, questo metodo tende a privilegiare le opinioni su cui c'è maggiore accordo, rischiando di trascurare punti di vista meno comuni che potrebbero essere importanti. Per superare questo ostacolo, si potrebbe pensare di sviluppare nuove strategie che valorizzino maggiormente le opinioni minoritarie quando queste sono ben supportate da prove concrete. Tecniche avanzate basate su calcoli statistici o su modelli che danno più peso a queste opinioni isolate potrebbero rendere l'analisi più precisa. Nei test preliminari, l'adozione di questi metodi ha migliorato l'accuratezza delle valutazioni di circa il 3,8%.

Un ulteriore limite del sistema attuale riguarda la scalabilità del processo di generazione degli esperti. Sebbene l'utilizzo di tre esperti si sia dimostrato ottimale, un numero maggiore di esperti può portare a un miglioramento solo marginale della qualità, con un costo computazionale significativamente più elevato. Ad esempio, test con cinque e dieci esperti hanno mostrato un aumento dei tempi di inferenza del 35%, mentre l'incremento in termini di qualità delle risposte si è fermato al 2%. Questo suggerisce che, oltre un certo punto, l'aggiunta di ulteriori esperti non è una strategia efficiente, e il focus dovrebbe spostarsi sull'ottimizzazione delle competenze dei singoli esperti piuttosto che sull'aumento del loro numero.

Conclusioni

Il Multi-expert Prompting, introducendo la simulazione di esperti diversificati, si colloca come soluzione strategica per aumentare affidabilità e sicurezza nei modelli di linguaggio avanzati, spingendo verso una generazione di risposte che integrano multipli punti di vista e risolvono i conflitti. Questo approccio è un chiaro progresso rispetto alla tradizionale focalizzazione su singole risposte "esperte", che rischiavano di offrire una visione riduttiva. L’effetto più profondo del Multi-expert Prompting è la sua capacità di creare un ecosistema di risposta che simula l'interazione tra esperti con competenze diverse, in grado di replicare una sorta di processo decisionale collettivo che aumenta la neutralità e riduce bias e tossicità. Questo sistema rappresenta un allineamento con l’evoluzione dei bisogni aziendali, dove l'affidabilità non è solo una questione di accuratezza ma diventa un vero vantaggio competitivo.

L’approccio Multi-expert offre un vantaggio cruciale nei contesti aziendali ad alta complessità, in cui una valutazione multidimensionale dei problemi è indispensabile. Simulando un consiglio di esperti, il modello diventa capace di adattarsi a domande complesse, migliorando la qualità informativa delle risposte e fornendo dettagli più contestualizzati. Le organizzazioni possono beneficiare di questa maggiore completezza nelle risposte per sostenere la presa di decisioni informate e per rispondere efficacemente a questioni che richiedono una valutazione multilaterale, riducendo il rischio di visioni unilaterali.

Dal punto di vista strategico, questa capacità di produrre risposte aggregative pone le basi per un uso più esteso di modelli di linguaggio nei processi decisionali aziendali, potenzialmente sostituendo alcune funzioni di consulenza con un supporto analitico più avanzato e sempre disponibile. Un altro impatto rilevante è rappresentato dalla capacità del Multi-expert di limitare le risposte tossiche e imprecise, migliorando la sicurezza informativa per l'utente finale e minimizzando i rischi legati alla diffusione di contenuti inappropriati o errati.

Tuttavia, vi sono sfide da considerare. Il costo computazionale e la complessità del processo di aggregazione limitano l'applicabilità su larga scala in situazioni a bassa complessità o in cui il tempo di risposta è critico.

Per le aziende, la prospettiva di utilizzare modelli come il Multi-expert Prompting apre possibilità interessanti nel campo dell'automazione dei processi decisionali e della consulenza interna. Integrare un modello che rappresenti opinioni esperte su questioni aziendali potrebbe ridurre il tempo e le risorse necessarie per elaborare soluzioni complesse, consentendo una scalabilità delle conoscenze e una riduzione dei costi consulenziali.

In definitiva, il Multi-expert Prompting non solo migliora la qualità e l’affidabilità delle risposte, ma rappresenta un importante passo verso un uso dei modelli di linguaggio come veri e propri partner analitici, capaci di contribuire alla costruzione di un vantaggio competitivo attraverso una gestione dell'informazione più intelligente e versatile.

Podcast: https://www.andreaviliotti.it/post/multi-expert-prompting-improving-the-reliability-of-llms

Fonte: https://arxiv.org/abs/2411.00492