Meta Knowledge Summary e PR3: Innovazione AWS

La ricerca condotta da Laurent Mombaerts e il team di Amazon Web Services, intitolata "Meta Knowledge for Retrieval Augmented Large Language Models", esplora una delle nuove sfide nell'uso dei modelli linguistici di grandi dimensioni, ovvero l'implementazione del Retrieval Augmented Generation (RAG). Questo approccio si basa sull'integrazione delle capacità dei modelli linguistici con informazioni esterne, aggiornate o specializzate in uno specifico dominio, senza intervenire sui parametri interni del modello. Gli autori introducono un nuovo approccio strutturato in quattro fasi principali: preparare, riscrivere, recuperare e leggere. Questo flusso di lavoro si distingue nettamente dall'architettura convenzionale che segue la sequenza "recuperare e poi leggere". L'obiettivo di questa nuova metodologia è consentire un'analisi più approfondita e una comprensione esperta dei documenti contenuti all'interno della knowledge base.

La ricerca presenta un concetto innovativo denominato Meta Knowledge Summary (MK Summary), che svolge un ruolo fondamentale nell'organizzazione dei documenti. Questo strumento permette di raggruppare i documenti in insiemi coerenti, basandosi sui relativi metadati. Inoltre, per ogni documento vengono generate sintesi sotto forma di domande e risposte, utili a facilitare la navigazione e la comprensione delle informazioni.

Lo studio evidenzia come l'impiego di query arricchite con domande sintetiche superi di gran lunga le metodologie tradizionali RAG (Retrieval-Augmented Generation), le quali si basano sulla tecnica del "chunking". Questa tecnica consiste nella suddivisione dei documenti in piccoli frammenti o blocchi di testo, un metodo che risulta meno efficace rispetto al nuovo approccio proposto. Di conseguenza, il Meta Knowledge Summary non solo migliora la precisione delle risposte, ma anche il richiamo e la qualità complessiva delle informazioni recuperate.

Meta Knowledge Summary e PR3: Innovazione AWS per un recupero dei dati più efficace

La tecnica Retrieval Augmented Generation (RAG) è un metodo comunemente utilizzato per potenziare le capacità dei modelli di linguaggio di grandi dimensioni. Questa tecnica integra informazioni rilevanti contestualmente, come dati aggiornati o specifici di un particolare dominio, senza la necessità di modificare i parametri del modello stesso. In questo modo, i modelli possono accedere a conoscenze più precise e pertinenti, mantenendo la loro struttura originale intatta. Questa metodologia si dimostra particolarmente efficace per compiti che richiedono un'ampia conoscenza, laddove è necessario disporre di dati proprietari o aggiornati per guidare la risposta del modello di linguaggio. Il RAG è inoltre una soluzione efficace per ridurre le allucinazioni del modello e garantire che le risposte siano allineate alle informazioni più recenti e pertinenti per il compito da svolgere.

Nella pratica, le pipeline RAG sono composte da vari moduli che seguono un processo sequenziale tradizionale. Inizialmente, si recuperano le informazioni necessarie, successivamente vengono lette e integrate nel sistema. Quando viene posta una domanda, entra in azione un modulo di recupero che cerca in modo dinamico frammenti di documenti pertinenti. Questi frammenti vengono quindi forniti al modello di linguaggio, che li utilizza come contesto per formulare una risposta. In questo modo, il modello non si affida esclusivamente alle conoscenze apprese durante la fase di addestramento, ma sfrutta una tecnica nota come apprendimento in contesto.

Un metodo semplice, efficace e conveniente per la ricerca di informazioni è il modello di recupero denso a doppio codificatore. Questo sistema trasforma sia le domande degli utenti che i documenti in vettori numerici, rappresentandoli all'interno di uno spazio multidimensionale complesso.

Il doppio codificatore prende il nome dalla presenza di due encoder: uno dedicato alla domanda e l'altro ai documenti. Pur operando separatamente, entrambi generano vettori comparabili, e il sistema misura la somiglianza tra questi vettori attraverso il calcolo del prodotto interno. Più i vettori risultano simili, maggiore è la rilevanza del documento rispetto alla domanda.

Questo meccanismo permette di migliorare non solo la velocità del recupero delle informazioni, ma anche la loro accuratezza, selezionando con precisione i contenuti più pertinenti.

Questa tecnica si basa sull'idea che domande simili e documenti correlati avranno rappresentazioni vettoriali simili in questo spazio ad alta dimensione. Di conseguenza, il sistema è in grado di identificare i documenti che rispondono meglio alla domanda, utilizzando una metrica matematica per guidare il processo di recupero delle informazioni. Questo approccio si distingue per la sua capacità di trattare grandi volumi di dati con un costo computazionale relativamente basso, il che lo rende una scelta pratica ed efficiente per molti casi d'uso.

Tuttavia, ci sono diverse sfide che possono compromettere la qualità del contesto di conoscenza recuperato. Una delle difficoltà principali riguarda il cosiddetto "rumore" presente nei documenti delle basi di conoscenza. Per rumore si intende qualsiasi informazione superflua o irrilevante che può interferire con il processo di recupero delle informazioni. Questo rumore può derivare da vari fattori. Da un lato, può essere legato alle specificità del compito in questione, con documenti che contengono dettagli non utili o distrazioni rispetto al contenuto realmente necessario. Dall'altro, può essere causato dalla mancanza di uniformità tra i diversi documenti. Infatti, i documenti spesso esistono in formati diversi, come .pdf, .ppt, .docx, ognuno con strutture e layout differenti, che complicano ulteriormente il processo di estrazione delle informazioni rilevanti e aumentano il rischio di includere contenuti non pertinenti.

Una delle principali sfide nel recupero delle informazioni riguarda la mancanza di dati etichettati manualmente o di etichette di rilevanza. Le etichette manuali sono indicazioni specifiche assegnate da esperti o utenti che classificano i contenuti di un documento, come ad esempio la categoria, il tema o la rilevanza rispetto a una certa domanda. Le etichette di rilevanza, in particolare, indicano quali parti di un documento sono considerate più importanti o pertinenti per una determinata ricerca. Questi elementi sono cruciali per suddividere i documenti, generare embedding efficaci (cioè, le rappresentazioni vettoriali che descrivono i contenuti) e migliorare la precisione nel recupero delle informazioni.

Quando queste etichette sono assenti, il processo diventa non supervisionato, e il sistema si trova a operare senza una guida chiara. In altre parole, mancano indicazioni esplicite su quali parti dei documenti siano più rilevanti, rendendo più difficile per l'algoritmo identificare i contenuti pertinenti.

Una difficoltà aggiuntiva emerge quando è necessario suddividere e codificare documenti molto lunghi, poiché questo processo complica l'estrazione delle informazioni utili per i modelli di recupero. Quando un documento viene diviso in frammenti, quelli di dimensioni ridotte rischiano di perdere il contesto semantico dell'intero testo da cui provengono. Al contrario, frammenti troppo grandi mantengono meglio il contesto ma possono rendere più complessa l'elaborazione da parte dei modelli. Pertanto, la scelta della giusta strategia di suddivisione è cruciale per garantire il successo delle fasi successive, evitando sia la perdita di informazioni sia difficoltà di gestione.

Inoltre, una difficoltà ulteriore deriva dalle domande poste agli LLM dagli utenti, spesso formulate in modo conciso e ambiguo, talvolta caratterizzate da disallineamenti lessicali o da una complessità tale da richiedere la consultazione di più documenti per trovare una risposta adeguata. Ciò rende complicato comprendere con precisione l'intento dell'utente e individuare i documenti più pertinenti da recuperare. A rendere il processo ancora più complesso, le informazioni rilevanti non sono necessariamente concentrate in un unico documento all'interno della base di conoscenza, ma possono essere distribuite tra diverse fonti. Questo aspetto rende l'utilizzo delle basi di conoscenza un compito particolarmente impegnativo.

Per migliorare l'efficacia delle ricerche, è stata introdotta e ampiamente adottata la tecnica dell'augmentazione delle query, questa tecnica si basa sul riscrivere o estendere in modo esplicito la query originale fornita dall'utente, trasformandola in una o più query personalizzate che possano meglio adattarsi ai risultati di ricerca desiderati. Questo processo ha lo scopo di risolvere i problemi legati alla sottospecificazione delle query, ossia quelle domande che mancano di dettagli sufficienti per ottenere risultati precisi.

L'implementazione di questa tecnica comporta l'aggiunta di un nuovo modulo al framework RAG, rendendo il flusso di lavoro più avanzato. Il sistema prevede infatti una riscrittura della query prima delle fasi di recupero delle informazioni e lettura, migliorando così l'efficacia del processo complessivo di ricerca.

Per affrontare le varie difficoltà emerse, la ricerca propone un nuovo approccio ideato da Laurent Mombaerts e il suo team, denominato prepare-then-rewrite-then-retrieve-then-read (PR3). Questo approccio introduce un workflow RAG orientato ai dati, in cui i documenti vengono elaborati dai modelli di linguaggio per generare metadati personalizzati, come coppie di domande e risposte (QA), basati sulle caratteristiche degli utenti. L'obiettivo principale di questa metodologia è migliorare le capacità di ragionamento all'interno della base di conoscenza, arricchendo le query per potenziarne l'efficacia.

Per comprendere meglio questo concetto, immaginiamo un LLM specializzato per un'azienda che produce macchinari industriali. Un utente inserisce una query generica come "come si ripara il motore". In un sistema tradizionale, la risposta potrebbe risultare poco precisa, perché non tiene conto delle specifiche del motore in questione o delle competenze dell'utente. Con il workflow PR3, il sistema analizza il contesto dell'utente (ad esempio, se l'utente è un tecnico esperto o un novizio), riscrive la query originale e la trasforma in una domanda più dettagliata e personalizzata come "quali sono i passaggi per riparare il motore modello X prodotto nel 2020?" e recupera documenti specifici che rispondono esattamente a quel tipo di richiesta.

La pipeline di preparazione e recupero dei dati ha l'obiettivo di ridurre la perdita di informazioni che può verificarsi durante la suddivisione e l'embedding di grandi documenti. Invece di frammentare i documenti, vengono codificate le coppie di domande e risposte, il che aiuta anche a filtrare rumori o informazioni non rilevanti per il compito specifico. Nel nostro esempio, invece di fornire frammenti generici di manuali di riparazione, il sistema crea una collezione di domande e risposte su come riparare il motore specifico, riducendo al minimo le informazioni irrilevanti per l'utente.

Attraverso la creazione di cluster di metadati basati su coppie di domande e risposte (QA) e la sintesi della metaconoscenza, il framework è in grado di espandere la query originale dell'utente adattandola alle specifiche esigenze del caso, generando così query mirate. Questo processo migliora la specificità e la profondità della ricerca all'interno della base di conoscenza.

Questo metodo standardizzato presenta un vantaggio pratico in quanto può essere facilmente applicato a nuovi set di dati senza richiedere l'etichettatura manuale o il perfezionamento del modello. Inoltre, costituisce un progresso verso il ragionamento autonomo su database documentali, sfruttando le potenzialità dei modelli di linguaggio di grandi dimensioni, un campo di ricerca che è ancora in fase di sviluppo.

Tecniche di fine-tuning per migliorare le pipeline RAG

Le metodologie volte a migliorare le pipeline RAG mediante il fine-tuning presentano generalmente delle sfide significative, sia per quanto riguarda l'aggiornamento iniziale dei parametri, sia per il mantenimento della precisione del modello nel tempo, con l'introduzione di nuovi documenti. Queste tecniche richiedono un'attenta pulizia dei dati e una cura spesso manuale, oltre a iterazioni sui set di iperparametri di addestramento, per adattare il modello al compito specifico senza compromettere le conoscenze acquisite durante la fase di pre-addestramento. Inoltre, il tuning del modello può non essere sostenibile in presenza di aggiornamenti frequenti della base di conoscenza, comportando costi elevati a causa delle risorse computazionali richieste, nonostante lo sviluppo recente di tecniche di fine-tuning più efficienti in termini di parametri (PEFT).

Nel settore del commercio elettronico, come dimostra l'esperienza di TaoBao, è stato sviluppato un sistema per la riscrittura delle query che utilizza i log aziendali e un metodo di campionamento chiamato "per rifiuto". Questo sistema consente di perfezionare un modello di linguaggio ampio (LLM) in modo supervisionato, senza la necessità di generare domande e risposte, rendendo l'ottimizzazione più efficiente. Parallelamente, sono stati introdotti nuovi metodi di apprendimento contrastivo per migliorare la capacità del modello di generare query che siano meglio allineate ai risultati di ricerca desiderati. Questi progressi hanno portato a un notevole aumento delle vendite, delle transazioni e del numero di visitatori unici sulla piattaforma.

Un'altra tecnica che è stata adottata coinvolge l'apprendimento per rinforzo, che si basa sulla valutazione di modelli LLM considerati come "scatole nere". In questo caso, il modello di riscrittura delle query addestrato è di dimensioni più contenute, ma ha comunque dimostrato un miglioramento costante nelle prestazioni, specialmente in contesti di ricerca sul web che prevedono domande e risposte in domini aperti o a scelta multipla.

Nonostante i benefici, tuttavia, gli approcci che utilizzano l'apprendimento per rinforzo possono presentare alcune difficoltà, specialmente nella fase di addestramento. Questi metodi tendono a essere meno stabili e richiedono una gestione accurata dei compromessi tra la capacità del modello di generalizzare a compiti diversi e la sua specializzazione in compiti specifici.

Altre strategie si sono orientate verso l'ottimizzazione dello spazio di embedding, cercando di migliorare il collegamento tra la query dell'utente e i documenti disponibili, senza aumentare la complessità della query stessa. Un esempio significativo di questo approccio è rappresentato da InPars. In questo caso, la base di conoscenze dei documenti viene arricchita generando in modo non supervisionato coppie di domande e risposte sintetiche. Queste coppie vengono poi utilizzate per effettuare il fine-tuning di un modello di embedding basato su T5. I risultati ottenuti dimostrano che l'applicazione di un modello di embedding fine-tuned, combinato successivamente con un riorganizzatore neurale come ColBERT, è in grado di superare benchmark solidi come BM25, confermando l'efficacia di questa tecnica.

In tempi più recenti, sono stati sviluppati altri approcci volti a migliorare le prestazioni dell'intera pipeline di elaborazione. Un esempio è RAFT, un metodo che si concentra sull'addestramento specifico di un modello, il cui compito è distinguere tra documenti rilevanti e non rilevanti, affinando così l'accuratezza nella selezione delle informazioni. Un altro approccio innovativo è QUILL, che mira a sostituire completamente l'attuale pipeline RAG, sfruttando un addestramento distillato e potenziato attraverso l'integrazione di un altro modello di linguaggio di grandi dimensioni (LLM) arricchito da RAG.

Migliorare il recupero delle informazioni con l'augmentazione delle query senza fine-tuning

Come alternativa al fine-tuning dei modelli di grandi dimensioni (LLM) o dei modelli encoder, sono state sviluppate tecniche che puntano a migliorare le prestazioni dei sistemi di recupero delle informazioni tramite l'augmentazione delle query, senza la necessità di modificare direttamente i modelli stessi. Queste metodologie agiscono trasformando la query dell'utente prima della fase di codifica e si suddividono in due approcci principali: quelli che prevedono un passaggio preliminare attraverso i documenti e quelli che operano senza alcun utilizzo di documenti di esempio, detti zero-shot.

Un esempio rilevante di approccio zero-shot è rappresentato dalla tecnica introdotta da HyDE, che utilizza modelli di linguaggio di grandi dimensioni per generare un documento ipotetico di risposta alla query dell'utente. Questo documento viene creato con l'obiettivo di ridurre la distanza tra la query e i documenti rilevanti all'interno dello spazio di embedding, ottimizzando così il processo di recupero. I risultati degli esperimenti condotti hanno mostrato che questo metodo riesce a ottenere prestazioni comparabili a quelle raggiunte con sistemi sottoposti a fine-tuning, in una varietà di compiti. Tuttavia, il documento generato in questo modo rappresenta un esempio di augmentazione dei dati considerata "ingenua", poiché non tiene conto delle specifiche informazioni contenute nei dati relativi al compito. Questo limite può portare a un calo delle prestazioni in alcune situazioni, dato che il contenuto generato può risultare distante dalle reali conoscenze necessarie per affrontare la query in maniera ottimale.

In parallelo, esistono approcci che prevedono un passaggio preliminare attraverso lo spazio di embedding dei documenti per poi aumentare la query originaria, con lo scopo di condurre una ricerca più mirata e precisa. Queste metodologie sono conosciute come Pseudo Relevance Feedback (PRF) e Generative Relevance Feedback (GRF). Entrambi gli approcci dipendono fortemente dalla qualità dei documenti inizialmente recuperati, che vengono utilizzati per migliorare la fase successiva di augmentazione della query. Tale dipendenza può condizionare le prestazioni in maniera significativa, portando a risultati variabili in base alla specificità delle query, o, in alcuni casi, rischiando di alterare il senso della query originaria.

Ottimizzazione della pipeline RAG con il framework AWS e Meta Knowledge Summary

Le tecniche di miglioramento della pipeline RAG citate in precedenza mostrano che i sistemi di recupero delle informazioni generalmente non tengono conto della distribuzione dei documenti nella collezione di riferimento, nonostante un passaggio iniziale attraverso la pipeline di recupero. Nel framework proposto da Laurent Mombaerts e il team di Amazon Web Services, per ogni documento, viene creato un set dedicato di metadati prima dell'inferenza. Successivamente, vengono generate domande guidate che attraversano i vari documenti utilizzando la tecnica Chain of Thoughts (CoT) con Claude 3 Haiku. Le domande sintetiche vengono codificate e i metadati sono impiegati per operazioni di filtraggio. Per ogni combinazione rilevante di metadati, viene generata una Meta Knowledge Summary (MK Summary), che consiste in una sintesi dei concetti chiave presenti nella base dati, realizzata utilizzando Claude 3 Sonnet.

Durante l'inferenza, la query dell'utente viene arricchita dinamicamente tramite l'MK Summary personalizzata, creata in base ai metadati di interesse. Questo approccio consente di fornire risposte mirate e specifiche, permettendo al sistema di recupero di ragionare su più documenti contemporaneamente, senza la necessità di ripetuti cicli di recupero e ragionamento. L'obiettivo è migliorare la qualità complessiva della pipeline di recupero in termini di profondità, copertura e rilevanza, grazie a ricerche mirate e all'uso di informazioni di meta-conoscenza. Questo risultato viene ottenuto senza la necessità di aggiornare i pesi del modello, consentendo anche la possibilità di combinare il framework con eventuali operazioni di fine-tuning sui modelli linguistici o di codifica, migliorando così le prestazioni della pipeline RAG in domini specifici.

Dataset utilizzato per validare la metodologia innovativa di Amazon Web Services

La metodologia sviluppata da Laurent Mombaerts e il team di Amazon Web Services è stata verificata attraverso un dataset di 2.000 articoli di ricerca del 2024, raccolti utilizzando l'API di arXiv. Questo dataset rappresenta una vasta gamma di ricerche nei settori della statistica, dell'apprendimento automatico, dell'intelligenza artificiale e dell'econometria. La selezione degli articoli è stata effettuata utilizzando determinate categorie dell'API di arXiv, come "stat.ML", "stat.TH", "stat.AP", "stat.ME", "math.ST", "cs.AI", "cs.LG", "econ.EM". Complessivamente, il dataset comprende circa 35 milioni di token.

Nel processo di generazione sintetica di domande e risposte (QA), per ciascun documento del dataset vengono generate una serie di metadati e relative QA utilizzando il prompting a catena di pensieri (CoT). Il prompting è progettato per classificare i documenti in un insieme predefinito di categorie, ad esempio campi di ricerca o tipi di applicazioni, all'interno del benchmark di articoli di ricerca. Sulla base di questi metadati, vengono generate domande e risposte sintetiche attraverso un processo di prompting insegnante-studente, valutando così la conoscenza dell'apprendente riguardo al contenuto del documento. In particolare, si fa uso di Claude 3 Haiku, noto per le sue capacità di ragionamento a lungo contesto, per creare coppie di domande e risposte sintetiche che possano collegare più documenti.

I metadati generati vengono utilizzati come parametri di filtraggio per la ricerca avanzata e vengono impiegati per selezionare le domande e risposte sintetiche, utilizzate nell'augmentazione delle query degli utenti sotto forma di informazioni di meta-conoscenza (sintesi MK). Le domande e risposte sintetiche trovano applicazione anche nel recupero delle informazioni, ma solo le domande vengono vettorizzate per il recupero successivo. Nel caso d'uso specifico, relativo agli articoli di ricerca scientifica, sono state prodotte un totale di 8.657 coppie di domande e risposte sintetiche a partire da 2.000 documenti, con una media di 5-6 domande nel 70% dei casi e di 2 domande nel 21% dei casi.

L'intero processo di generazione ha prodotto circa 8 milioni di token di output, con un costo complessivo di circa 20,17 dollari per l'elaborazione dei 2.000 documenti, considerando anche i token di input, utilizzando Amazon Bedrock. È stata effettuata un'analisi della ridondanza delle domande e risposte generate attraverso il clustering gerarchico nello spazio degli embedding delle domande, sfruttando il modello e5-mistral-7b-instruct. Tuttavia, non è stata effettuata una deduplicazione delle domande e risposte a causa della ridotta sovrapposizione tra di esse.

Come la Meta Knowledge Summary facilita L'arricchimento dei dati e delle query utente

Per una determinata combinazione di metadati, viene generata una Meta Knowledge Summary (MK Summary) con l'obiettivo di agevolare la fase di arricchimento dei dati per una specifica query dell'utente. Questo processo è stato sperimentato da Laurent Mombaerts e il team di Amazon Web Services, che hanno circoscritto i metadati a campi di ricerca specifici, come l'apprendimento per rinforzo, l'apprendimento supervisionato e non supervisionato, i metodi bayesiani, l'econometria e altri. Tali ambiti sono stati selezionati durante la fase di elaborazione dei documenti attraverso l'impiego di Claude 3 Haiku.

La MK Summary viene creata riassumendo i concetti presenti in un insieme di domande precedentemente classificate in base ai metadati di interesse. Per generare questi riassunti, si utilizza Claude 3 Sonnet, che sintetizza le informazioni chiave dei documenti, facilitando così l'arricchimento delle query degli utenti con concetti rilevanti estratti dai metadati.

Una possibile direzione futura, oggetto di ulteriori studi, potrebbe essere il perfezionamento dei prompt (istruzioni fornite al modello) al fine di ottimizzare il contenuto dei riassunti. Tale ottimizzazione mirerebbe a migliorare ulteriormente la precisione e la rilevanza delle informazioni sintetizzate, rendendo il processo ancora più efficiente e utile.

Metodo Plan-and-Execute per migliorare le risposte a query complesse

Per affrontare query complesse, viene utilizzata la metodologia di prompting chiamata "plan-and-execute". Questo metodo aiuta a ragionare attraverso più documenti e migliorare il richiamo, la precisione e la diversità delle risposte fornite. Ad esempio, per una query dell'utente relativa al tema della ricerca sull'Apprendimento per Rinforzo, la pipeline dapprima recupera la MK Summary sull'Apprendimento per Rinforzo dal database, poi aumenta la query dell'utente suddividendola in più sotto-query basate sul contenuto della MK Summary ed esegue una ricerca parallela nel database filtrato, rilevante per le domande specifiche.

Per questa procedura, le domande sintetiche vengono trasformate in rappresentazioni numeriche (embedding), sostituendo così il classico metodo di corrispondenza basata sulla similitudine tra porzioni di documenti. Questo approccio riduce la perdita di informazioni causata dalla frammentazione dei documenti. Una volta trovata la corrispondenza migliore con una domanda sintetica, vengono recuperate la domanda e la risposta corrispondente insieme al titolo del documento originale. Tuttavia, come risultato finale del processo di recupero, vengono restituiti solo il titolo del documento, la domanda sintetica e la risposta associata.

Per migliorare la prestazione della fase di sintesi a valle, il formato JSON viene utilizzato nella formattazione dei dati. La risposta finale della pipeline RAG viene ottenuta fornendo la query originale, le query aumentate, il contesto recuperato e alcuni esempi di risposte predefinite (few-shot examples).

Metodo di valutazione delle performance della pipeline di recupero aumentata con Meta Knowledge Summary

Per valutare l'efficacia della pipeline di recupero aumentata basata sui dati, sono state generate 200 domande utilizzando Claude 3 Sonnet, con riferimento al dataset arXiv. Inoltre, è stata effettuata una comparazione della metodologia proposta con approcci tradizionali, come il document chunking (suddivisione dei documenti in porzioni), l'augmentazione delle query combinata con il document chunking, e un'augmentazione delle query senza l'utilizzo delle Meta Knowledge Summary (MK Summary) nel processo di QA dei documenti. A scopo comparativo, i documenti sono stati suddivisi in blocchi di 256 token con una sovrapposizione del 10%, generando complessivamente 69.334 porzioni di documenti.

In merito alle metriche di valutazione, in assenza di etichette di rilevanza specifiche, è stato utilizzato Claude 3 Sonnet come valutatore affidabile per confrontare le prestazioni delle quattro metodologie di benchmark considerate: il chunking tradizionale senza augmentazione delle query, il chunking dei documenti con una semplice augmentazione delle query, la ricerca aumentata tramite la pipeline PR3 senza MK Summary, e la ricerca aumentata tramite la pipeline PR3 con l'uso delle MK Summary.

Le metriche di performance personalizzate sono state definite direttamente nel prompt e servono a confrontare i risultati sia del modello di recupero che della risposta finale, su una scala da 0 a 100.

Le metriche utilizzate per la valutazione sono le seguenti:

- Richiamo: misura quanto efficacemente le informazioni chiave e altamente rilevanti sono state recuperate dai documenti.

- Precisione: valuta la proporzione di documenti rilevanti rispetto a quelli irrilevanti tra i risultati recuperati.

- Specificità: misura quanto la risposta finale è focalizzata in modo preciso sulla query, fornendo informazioni chiare e dirette che rispondono alla domanda posta.

- Ampiezza: valuta la copertura di tutti gli aspetti rilevanti o delle aree correlate alla domanda, offrendo una panoramica completa.

- Profondità: valuta il livello di comprensione raggiunto dalla risposta finale, misurando la capacità di fornire un'analisi approfondita e dettagliata sul tema affrontato.

- Rilevanza: valuta quanto la risposta finale è ben adattata alle necessità e agli interessi del contesto o del pubblico, concentrandosi sulle informazioni essenziali e direttamente applicabili, evitando dettagli superflui che non contribuiscono a rispondere alla domanda specifica.

Valutazione delle prestazioni del recupero delle informazioni con riassunto MK e QA

Sono stati considerati quattro casi distinti per la valutazione del sistema di recupero delle informazioni: il primo prevede un approccio tradizionale di suddivisione dei documenti senza alcuna espansione, il secondo introduce un'aggiunta di dati allo stesso metodo, il terzo utilizza una ricerca e recupero basati su domande e risposte (QA) con un'espansione semplice (la prima proposta), mentre il quarto impiega la stessa metodologia QA, ma con l'uso di un riassunto MK (la seconda proposta). Per una singola query, la latenza computazionale dell'intero processo varia tra i 20 e i 25 secondi.

Sono stati quindi applicati criteri di valutazione delle prestazioni del recupero delle informazioni e dell'efficacia complessiva del sistema. Per ogni query generata artificialmente, è stato eseguito un confronto tra i risultati ottenuti con ciascuno dei metodi proposti. Il contesto recuperato da ogni approccio è stato presentato insieme alle risposte finali. Successivamente, Claude 3 Sonnet è stato utilizzato per assegnare punteggi a vari parametri, da 0 a 100, giustificando le valutazioni fornite. I punteggi ottenuti sono stati mediati su tutte le query.

Dai risultati emerge un chiaro vantaggio delle due metodologie proposte, basate su domande e risposte, in quasi tutti i parametri, fatta eccezione per la precisione dei documenti recuperati. La limitata crescita nel parametro di precisione è coerente con l'utilizzo di un singolo modello di codifica e dimostra che pochi documenti sono stati considerati completamente irrilevanti. È stato osservato un notevole miglioramento sia nella quantità di informazioni raccolte che nella qualità delle risposte fornite dal modello linguistico alla fine del processo. Questo indica che il riassunto MK fornisce informazioni aggiuntive che vengono sfruttate durante il passaggio di espansione della query. Inoltre, il contributo del riassunto MK alla fase di condizionamento della ricerca risulta statisticamente significativo per tutti i parametri, tranne che per la precisione del sistema di recupero (con un valore di p inferiore a 0,01 tra la ricerca QA aumentata e quella con l'uso del riassunto MK). È stato anche riscontrato che la metodologia proposta migliora significativamente l'ampiezza della ricerca (oltre il 20% rispetto agli approcci tradizionali di suddivisione dei documenti), confermando l'ipotesi che il metodo consente di sintetizzare più efficacemente le informazioni dal contenuto del database e di sfruttarlo in maniera più estensiva.

Per quanto riguarda le prestazioni misurate su 200 query sintetiche, i risultati mostrano diversi valori nei parametri di richiamo, precisione e specificità. Nel caso della ricerca tradizionale con suddivisione dei documenti, il richiamo è stato del 77,76%, la precisione dell'86,91% e la specificità del 71,51%. Con l'aggiunta di dati a questo metodo, il richiamo è aumentato all'82,27%, la precisione è leggermente cresciuta all'87,09% e la specificità è salita al 74,86%. Nel caso della ricerca QA aumentata, il richiamo ha raggiunto l'86,33%, la precisione è aumentata al 90,04% e la specificità al 79,64%. Infine, con l'uso del riassunto MK nella ricerca QA, il richiamo è stato dell'88,39%, la precisione ha raggiunto il 90,40% e la specificità è aumentata all'83,03%.

Altri parametri come l'ampiezza, la profondità e la rilevanza delle risposte hanno mostrato miglioramenti analoghi. Con l'approccio tradizionale di suddivisione, l'ampiezza è stata del 67,32%, la profondità del 65,62% e la rilevanza dell'81,51%. Aggiungendo l'espansione dei dati, l'ampiezza è aumentata al 79,77%, la profondità al 72,41% e la rilevanza all'85,08%. Con la ricerca QA aumentata, i valori di ampiezza sono stati dell'84,55%, quelli di profondità del 78,08% e quelli di rilevanza dell'88,92%. Infine, l'approccio con il riassunto MK ha raggiunto un'ampiezza dell'87,09%, una profondità dell'80,84% e una rilevanza del 90,22%.

Conclusioni

La metodologia proposta nella ricerca di Laurent Mombaerts e del team AWS rappresenta una significativa evoluzione nel campo del Retrieval Augmented Generation (RAG). L'innovazione chiave risiede nel passaggio dal tradizionale processo "retrieve-then-read" a un approccio più articolato in quattro fasi, che punta a ottimizzare non solo il recupero, ma anche la comprensione e la pertinenza delle informazioni restituite. L'integrazione del Meta Knowledge Summary introduce un elemento di astrazione che non solo migliora l'efficacia delle risposte generate, ma apre anche nuovi scenari di utilizzo per le imprese.

Dal punto di vista strategico, questo modello evidenzia un cambiamento di paradigma che le aziende devono considerare nella gestione delle loro basi di conoscenza. L'approccio PR3, infatti, non si limita a potenziare l'accesso alle informazioni, ma trasforma radicalmente il modo in cui tali informazioni possono essere elaborate e utilizzate per decisioni operative. In particolare, la capacità di generare coppie di domande e risposte sintetiche specifiche per un dominio può ridurre drasticamente il tempo necessario per ottenere risposte precise, migliorando la qualità decisionale a tutti i livelli dell'organizzazione. Questo aspetto è cruciale in settori come il manifatturiero, il legale o il sanitario, dove l'accesso a informazioni iper-specializzate può rappresentare un fattore competitivo determinante.

Un'altra implicazione strategica risiede nella possibilità di adottare questa tecnologia senza dover ricorrere a frequenti aggiornamenti del modello principale, riducendo così i costi operativi e di mantenimento. Questa flessibilità offre alle imprese la capacità di scalare l'uso di modelli RAG su diverse basi di conoscenza, adattandoli a nuove esigenze senza necessità di pesanti interventi tecnici.

Tuttavia, emergono anche delle sfide. La creazione di metadati di qualità e l'efficacia della generazione di domande e risposte sintetiche richiedono un'accurata progettazione, pena l'inclusione di rumore che potrebbe distorcere le risposte.

Infine, è importante considerare il potenziale impatto sul cambiamento culturale all'interno delle organizzazioni. L'uso di modelli come PR3 può favorire una transizione verso un approccio più data-driven nelle decisioni aziendali, ma richiede anche che il personale sia formato per sfruttare appieno queste nuove capacità. In un certo senso, ciò potrebbe accelerare la trasformazione digitale, promuovendo un uso più intelligente e strategico delle informazioni disponibili.

In sintesi, il framework PR3 prospetta un futuro in cui le aziende non solo avranno un accesso rapido alle informazioni rilevanti, ma lo faranno con una precisione e una profondità superiori rispetto ai metodi tradizionali, trasformando così il loro approccio alla conoscenza e alle decisioni strategiche.

Meta Knowledge Summary e PR3: Innovazione AWS per un recupero dei dati più efficace