I ricercatori Shengran Hu, Cong Lu e Jeff Clune, affiliati rispettivamente all'Università della British Columbia, al Vector Institute e al programma Canada CIFAR AI Chair, hanno inaugurato un nuovo campo di ricerca, chiamato Automated Design of Agentic Systems (ADAS). Questo ambito si propone di automatizzare la progettazione di sistemi agentici avanzati, andando oltre la semplice scoperta di nuovi componenti per includere la combinazione creativa di elementi esistenti. Tra i vari approcci esplorati, uno dei più promettenti è l'uso della programmazione di agenti attraverso il codice, dove un meta-agente crea autonomamente nuovi agenti sempre più sofisticati.
La teoria alla base è affascinante, poiché i linguaggi di programmazione, essendo Turing Complete, permettono al sistema di apprendere la costruzione di qualsiasi agente possibile, combinando in modi innovativi prompt, strumenti e flussi di controllo. Questo apre potenzialmente nuove frontiere per l'intelligenza artificiale, estendendo la sua capacità di apprendimento a una gamma quasi infinita di sistemi agentici. A sostegno di questa visione, l'algoritmo Meta Agent Search consente a un meta-agente di programmare nuovi agenti iterativamente, sfruttando un archivio in espansione di scoperte precedenti. Gli esperimenti hanno mostrato come questi agenti possano superare le prestazioni di quelli progettati manualmente, rivelandosi robusti e versatili in diversi contesti.
L'ADAS si distingue come un progresso significativo per l'intelligenza artificiale e offre grandi opportunità per le aziende. L'integrazione di queste tecnologie nei processi di innovazione permette alle organizzazioni di sviluppare soluzioni su misura, adattabili rapidamente alle dinamiche di mercato. Grazie all'elevata capacità di automazione, le imprese possono migliorare la loro efficienza e mantenere un vantaggio competitivo, aprendo nuove possibilità per la personalizzazione e l'innovazione continua.
I modelli fondativi, conosciuti anche come Foundation Models (FMs), come GPT (OpenAI, 2022, 2024) e Claude (Anthropic, 2024b), stanno rapidamente affermandosi come agenti generali potenti per compiti che richiedono ragionamento flessibile e pianificazione. Tuttavia, nonostante i recenti avanzamenti, la risoluzione affidabile di problemi complessi richiede spesso un sistema agente composto da più componenti, anziché affidarsi a un unico modello monolitico. Questo concetto è stato approfondito da vari ricercatori, che hanno evidenziato come, per affrontare compiti complessi del mondo reale, gli agenti debbano frequentemente accedere a strumenti esterni come motori di ricerca, esecuzione di codice o interrogazioni di database. Di conseguenza, sono stati proposti numerosi elementi costitutivi per la progettazione di sistemi agentici efficaci, tra cui la pianificazione, il ragionamento a catena di pensieri, strutture di memoria, l'uso di strumenti e l'auto-riflessione. Questi agenti hanno già dimostrato notevoli successi in diverse applicazioni, ma lo sviluppo e l'integrazione di tali elementi in sistemi complessi richiede spesso una calibrazione manuale specifica per il dominio e un considerevole sforzo da parte di ricercatori e ingegneri.
Esaminando l'evoluzione del machine learning, emerge un tema costante: gli elementi creati manualmente vengono gradualmente rimpiazzati da soluzioni apprese in modo automatico, che risultano più efficienti grazie alla crescita delle risorse computazionali e alla disponibilità di maggiori quantità di dati. Un esempio significativo può essere tratto dalla visione artificiale, dove in passato venivano utilizzate caratteristiche progettate manualmente, come l'istogramma di gradienti orientati (HOG). Con il tempo, queste caratteristiche sono state sostituite da quelle apprese attraverso l'uso di reti neurali convoluzionali, una tipologia di rete che si specializza nell'elaborazione delle immagini.
Recentemente, i metodi di AutoML, ossia tecniche di automazione del machine learning, e gli algoritmi per la creazione automatica di intelligenze artificiali hanno mostrato che i sistemi appresi sono più efficaci rispetto a quelli progettati manualmente. Per esempio, i modelli più avanzati di reti neurali convoluzionali oggi non vengono più creati attraverso un processo di progettazione manuale, ma emergono dalla ricerca automatizzata di nuove architetture. Anche nell'ambito dei modelli linguistici, le funzioni di perdita, che servono a ottimizzare il processo di apprendimento, risultano più performanti quando vengono apprese automaticamente anziché essere progettate a mano.
Questo stesso principio si estende anche al concetto di Scienziato AI, ovvero a sistemi automatizzati che esplorano nuove soluzioni di machine learning. Grazie a pipeline automatizzate, è possibile sviluppare nuovi algoritmi di apprendimento, e persino creare ambienti di apprendimento per la robotica in modo automatico. Questi processi automatizzati dimostrano una capacità di innovazione che supera spesso quella degli approcci manuali, permettendo una creazione più rapida ed efficace.
Nel lavoro di Shengran Hu e dei suoi colleghi è stata sollevata una nuova questione di ricerca: è possibile automatizzare la progettazione dei sistemi agentici anziché affidarsi al lavoro manuale?
Per esplorare questa questione, è stata creata una nuova area di ricerca denominata Progettazione Automatica di Sistemi Agentici (ADAS), il cui obiettivo è inventare automaticamente nuovi elementi costitutivi e progettare sistemi agentici potenti.
L'ADAS potrebbe rappresentare la via più rapida per lo sviluppo di agenti avanzati, poiché molti linguaggi di programmazione, come Python, essendo Turing Completi, permettono teoricamente a un algoritmo ADAS di esplorare e scoprire qualsiasi sistema agentico all'interno dello spazio del codice. Ciò implica la capacità di identificare e creare tutti i componenti necessari, come i prompt (ossia le istruzioni o i comandi forniti a un sistema), l'uso degli strumenti, i flussi di controllo (sequenze logiche che regolano l'ordine delle operazioni) e molte altre funzionalità. Inoltre, grazie ai recenti progressi nei modelli di intelligenza artificiale, che diventano sempre più abili nella programmazione, è possibile utilizzare questi modelli come meta agenti. Un meta agente è un sistema capace di generare autonomamente altri agenti tramite la scrittura di codice. Questo apre la strada alla possibilità di automatizzare la creazione di nuovi sistemi agentici, rendendo lo sviluppo di agenti sempre più efficiente e sofisticato.
Sulla base di queste premesse, la ricerca introduce Meta Agent Search, uno dei primi algoritmi nel campo degli ADAS a consentire una progettazione completa all'interno dello spazio del codice. Il fulcro di Meta Agent Search è istruire un meta agente affinché generi iterativamente nuovi agenti rilevanti, li valuti, li aggiunga a un archivio di agenti scoperti e utilizzi tale archivio per supportare la creazione di ulteriori agenti nelle iterazioni successive. Similmente ad altri algoritmi di "open-endedness", che si basano su criteri di interesse umano, il meta agente viene incoraggiato a esplorare agenti nuovi o promettenti.
Per validare l'approccio proposto, Meta Agent Search è stato testato su diverse sfide, inclusi il compito logico ARC, pensato per valutare l'intelligenza generale di un sistema di IA, e quattro benchmark popolari comprendenti domande di comprensione del testo, matematica, scienze e risoluzione di problemi multi-task. Inoltre, è stata esaminata la capacità degli agenti scoperti di trasferirsi con successo su domini e modelli precedentemente non affrontati. I risultati sperimentali hanno dimostrato che gli agenti scoperti superano ampiamente i baseline progettati manualmente. Ad esempio, gli agenti hanno incrementato i punteggi F1 nei compiti di comprensione del testo di DROP del 13,6% e i tassi di accuratezza nei compiti di matematica di MGSM del 14,4%. Hanno inoltre migliorato l'accuratezza del 25,9% e del 13,2% rispetto ai baseline nei compiti matematici GSM8K e GSM-Hard, rispettivamente, anche dopo il trasferimento tra domini.
Le prestazioni promettenti dell'algoritmo rispetto alle soluzioni progettate manualmente sottolineano il potenziale dell'ADAS nell'automazione della progettazione di sistemi agentici. Gli esperimenti hanno ulteriormente dimostrato che gli agenti scoperti non solo eccellono nel trasferimento tra domini simili, ma mantengono elevate performance anche nel trasferimento tra domini eterogenei, come il passaggio dalla matematica alla comprensione del testo. Questo aspetto evidenzia la robustezza e la capacità di trasferibilità dei sistemi agentici sviluppati tramite Meta Agent Search. Lo studio, pertanto, apre nuove e stimolanti prospettive di ricerca, promuovendo ulteriori approfondimenti nel settore.
Algoritmi di ricerca e spazi di esplorazione nell'Automated Design of Agentic Systems (ADAS)
L'Automated Design of Agentic Systems (ADAS) rappresenta l'applicazione di algoritmi di ricerca per identificare i sistemi agentici più efficaci all'interno di uno specifico spazio di ricerca, basandosi su una funzione di valutazione. La definizione dello spazio di ricerca è cruciale poiché determina quali sistemi agentici possono essere rappresentati e, quindi, scoperti durante il processo di ADAS. Questo spazio funge da confine, delimitando ciò che è possibile esplorare e ottimizzare.
Un esempio di implementazione di ADAS è PromptBreeder, un sistema che si concentra esclusivamente sulla mutazione dei prompt testuali utilizzati da un agente, lasciando inalterati altri componenti come il flusso di controllo. In tal modo, lo spazio di ricerca di PromptBreeder è limitato: non permette di esplorare agenti che possano operare con un flusso di controllo diverso da quello predefinito. Questo tipo di vincolo implica che l'innovazione si limita ai prompt, mentre altre variabili rimangono fisse.
Parallelamente, l'attenzione è stata rivolta anche ad altri spazi di ricerca più complessi, come le strutture grafiche e le reti feed-forward, che offrono una gamma più ampia di possibilità rispetto a spazi più specifici come quello di PromptBreeder. La scelta dello spazio di ricerca, dunque, non è un dettaglio secondario, ma piuttosto una decisione strategica che determina il potenziale di scoperta e sviluppo dei sistemi agentici stessi.
L'algoritmo di ricerca viene utilizzato per determinare come gli algoritmi ADAS esplorano lo spazio delle soluzioni possibili. Questi spazi di ricerca possono essere molto ampi o, in alcuni casi, infiniti, rendendo cruciale trovare un equilibrio tra due approcci distinti: l'esplorazione e lo sfruttamento. L'esplorazione consiste nell'individuare nuove soluzioni che potrebbero rivelarsi promettenti, mentre lo sfruttamento comporta l'uso delle migliori soluzioni già identificate. Il rischio, tuttavia, è quello di concentrarsi troppo sulle soluzioni già note, finendo intrappolati in ottimi locali, cioè in risultati che, pur essendo buoni, potrebbero non essere i migliori possibili su scala più ampia.
Alcuni metodi attuali utilizzano l'apprendimento per rinforzo per affrontare questa sfida. L'apprendimento per rinforzo è una tecnica in cui un agente apprende comportamenti ottimali attraverso l'interazione con l'ambiente e il feedback ricevuto sotto forma di ricompense o punizioni. Altri approcci, come l'algoritmo usato da PromptBreeder, adottano una strategia iterativa per generare continuamente nuove soluzioni. L'obiettivo è garantire che l'algoritmo sia in grado di individuare rapidamente sistemi altamente performanti, cioè in grado di svolgere i loro compiti in maniera molto efficiente, senza però trascurare la possibilità di scoprire altre soluzioni che potrebbero essere ancora più efficaci.
Infine, la funzione di valutazione definisce i criteri utilizzati per misurare le prestazioni di un agente. A seconda del contesto applicativo, possono essere presi in considerazione diversi obiettivi, come l'efficienza operativa, i costi associati, la velocità di esecuzione (latenza) o gli aspetti legati alla sicurezza. Un esempio comune di applicazione della funzione di valutazione è la misurazione della performance di un agente su dati nuovi e non ancora analizzati. In questo caso, si utilizza spesso il calcolo del tasso di accuratezza su un set di dati di convalida. Questo approccio è largamente impiegato nelle ricerche e negli studi esistenti. Pertanto, la funzione di valutazione assume un ruolo cruciale, in quanto guida l'intero processo di ottimizzazione, consentendo di confrontare le varie soluzioni ottenute rispetto agli obiettivi prefissati.
Una possibilità ancora poco esplorata ma promettente nel campo delle configurazioni per lo spazio di ricerca riguarda la definizione completa di un sistema agentico attraverso il codice, accompagnata dall'implementazione di un meta-agente in grado di programmare automaticamente agenti più efficaci. Questo approccio si basa su uno spazio di ricerca che utilizza il codice come fondamento, permettendo di scoprire qualsiasi possibile componente di base, come istruzioni di programmazione, utilizzo di strumenti o strutture per controllare il flusso delle operazioni. Inoltre, consente di combinare questi elementi in molteplici modi. Uno spazio di ricerca di questo tipo offre una maggiore trasparenza nella progettazione degli agenti, poiché il codice è generalmente leggibile, facilitando l'individuazione e la correzione degli errori e contribuendo a migliorare la sicurezza complessiva dei sistemi di intelligenza artificiale.
Rispetto a spazi di ricerca che si basano su reti o grafi, un ambiente di ricerca codificato permette di costruire più agevolmente su progressi tecnologici già esistenti. Per esempio, risulta possibile investigare all'interno di framework open-source dedicati agli agenti e sfruttare blocchi di codice già sviluppati. Inoltre, poiché i modelli di linguaggio hanno dimostrato una certa competenza nella programmazione, l'utilizzo di uno spazio di ricerca basato sul codice permette di sfruttare questa abilità durante il processo di esplorazione.
Algoritmo Meta Agent Search per la creazione iterativa e validazione di agenti
Il Meta Agent Search è un algoritmo sviluppato con l'obiettivo di individuare e creare agenti all'interno dello spazio del codice. L'approccio centrale di questo algoritmo prevede l'impiego di modelli fondazionali, chiamati meta-agenti, che attraverso un processo iterativo sviluppano nuovi agenti utilizzando un archivio in continuo aggiornamento basato sulle scoperte precedenti. In linea teorica, il meta-agente potrebbe programmare qualsiasi sistema agentico partendo completamente da zero, ma questa strategia risulta inefficiente dal punto di vista pratico.
Per rendere il processo più efficace, al meta-agente viene fornito un insieme di funzioni di base che facilitano il suo lavoro. Queste funzioni comprendono, ad esempio, API che consentono di interrogare i modelli fondazionali o altri strumenti già disponibili. Viene quindi utilizzato un framework semplice e contenuto in meno di 100 righe di codice, che mette a disposizione del meta-agente queste funzioni essenziali, tra cui la capacità di formulare e formattare richieste ai modelli fondazionali.
In tal modo, il compito del meta-agente viene semplificato, concentrandosi principalmente sullo sviluppo di una funzione di elaborazione che definisce un nuovo sistema agentico. Questa funzione, simile a quanto avviene nell'approccio FunSearch, riceve informazioni relative al compito da eseguire e genera la risposta appropriata dell'agente in relazione a quel compito.
Il Meta Agent Search ha come scopo principale quello di permettere al meta-agente di creare nuovi agenti in modo iterativo. Questo processo si basa su principi simili ad altri algoritmi definiti di "open-endedness", i quali fanno affidamento su concetti come la novità e l'interesse. L'obiettivo è favorire l'esplorazione di agenti che risultino innovativi o utili, prendendo spunto dalle scoperte precedenti. Durante questo processo, il meta-agente utilizza un meccanismo di auto-riflessione che consente due cicli di miglioramento, sia per quanto riguarda la novità dell'agente proposto, sia per quanto riguarda la correttezza della proposta stessa. Se si verificano errori durante l'esecuzione del codice, il sistema prevede la possibilità di effettuare fino a tre ulteriori perfezionamenti.
Dopo la creazione di un nuovo agente, questo viene valutato utilizzando dati di validazione pertinenti al dominio di applicazione. Le prestazioni dell'agente vengono misurate attraverso diverse metriche, come il tasso di successo o il punteggio F1, che è una misura statistica che combina la precisione (la capacità di un modello di identificare correttamente esempi positivi) e il richiamo (la capacità di catturare tutti gli esempi positivi disponibili). Per garantire la solidità delle prestazioni, viene inoltre calcolato un intervallo di confidenza bootstrap al 95%, una tecnica statistica che permette di stimare la variabilità delle prestazioni stimate. L'agente, insieme alle sue metriche di valutazione, viene quindi aggiunto all'archivio esistente, e il processo continua iterativamente, basandosi su questo archivio aggiornato, fino a raggiungere il numero massimo di iterazioni prestabilito.
Benchmark e prestazioni: Come gli agenti autonomi superano i modelli manuali
La ricerca di Shengran Hu e collaboratori ha dimostrato come Meta Agent Search sia in grado di identificare nuovi agenti in grado di superare le prestazioni di quelli più avanzati progettati manualmente. Questo risultato è stato ottenuto all'interno della sfida denominata Abstraction and Reasoning Corpus (ARC), proposta da François Chollet nel 2019. L'ARC è stata concepita per valutare l'intelligenza artificiale generale, cioè la capacità di un sistema di apprendere e applicare nuove competenze in modo efficiente, piuttosto che limitarsi a eseguire compiti predefiniti.
Le domande dell'ARC sono progettate per mettere alla prova diverse capacità, tra cui la capacità di riconoscere schemi visivi di input-output rappresentati su griglie, imparare una regola di trasformazione di questi schemi a partire dagli esempi forniti e prevedere il pattern di output della griglia sulla base di una griglia di input. Ogni domanda dell'ARC è costruita in modo da presentare una regola di trasformazione unica, il che richiede che l'intelligenza artificiale sia in grado di apprendere queste regole con l'uso di pochi esempi, dimostrando una certa versatilità e capacità di adattamento. Le abilità necessarie includono, ad esempio, la capacità di contare numeri, comprendere geometrie semplici e analizzare le relazioni topologiche tra gli elementi della griglia.
Nel contesto sperimentale, come suggerito dalla pratica comune descritta da Greenblatt nel 2024, non si richiede all'agente di fornire direttamente una risposta, ma di scrivere codice che esegua la trasformazione richiesta. All'interno del framework sperimentale sono forniti strumenti per valutare il codice generato. Dato che l'ARC rappresenta un compito particolarmente complesso per i moderni sistemi di intelligenza artificiale, è stata selezionata una serie di dati ridotti, concentrandosi su domande con griglie di dimensioni pari o inferiori a 5x5, provenienti dal "Public Training Set (Easy)". Sono stati creati un set di validazione e un set di test, contenenti rispettivamente 20 e 60 domande, utilizzati per la fase di addestramento e quella di valutazione del sistema. Per garantire risultati più stabili e ridurre la variabilità dovuta al campionamento casuale delle funzioni di modello, la precisione dell'agente viene valutata ripetendo i test cinque volte. Gli agenti scoperti sono infine sottoposti a una valutazione finale utilizzando un set di test indipendente.
Il processo di ricerca del Meta Agent Search si articola in 25 iterazioni. In ogni iterazione, GPT-4 viene utilizzato come meta agente per guidare la scoperta di nuovi agenti, mentre GPT-3.5 viene impiegato per valutare gli agenti scoperti e confrontarli con i risultati ottenuti dagli agenti di riferimento (baseline), con l'obiettivo di ridurre i costi computazionali mantenendo al contempo un'elevata qualità della valutazione.
Confronto tra agenti avanzati e tecniche di risoluzione di problemi complessi
Sono stati confrontati cinque agenti avanzati progettati manualmente, rappresentanti lo stato dell'arte nella risoluzione di problemi complessi. Il primo di questi è il Chain-of-Thought (COT), introdotto da Wei e colleghi nel 2022, il quale istruisce l'agente a fornire una spiegazione del processo di ragionamento prima di arrivare alla risposta finale, facilitando così la risoluzione dei problemi attraverso passaggi intermedi. Il secondo agente è il Self-Consistency con Chain-of-Thought (COT-SC), proposto da Wang e collaboratori nel 2023, che genera risposte parallele tramite COT per poi combinare queste diverse risposte al fine di ottenere una soluzione più precisa. Il terzo agente è il Self-Refine, sviluppato da Madaan e Shinn nel 2024, che permette all'agente di riflettere iterativamente sugli errori compiuti nelle risposte precedenti per correggerli progressivamente. Un altro approccio è quello del LLM-Debate, presentato da Du nel 2023, in cui diversi modelli di linguaggio (LLM) vengono messi a confronto per dibattere tra loro, sfruttando la diversità di prospettive per ottenere risposte più solide. Infine, viene considerato l'approccio Quality-Diversity, una versione semplificata dell'Intelligent Go-Explore, proposto da Lu nel 2024, che genera e combina risposte diverse per esplorare in modo più efficace le soluzioni possibili. Tutti questi metodi sono stati utilizzati come base per il processo di ricerca del Meta Agent Search.
Approccio ADAS e stepping stones ottimizzano la progettazione degli agenti con Meta Agent Search
I risultati mostrano che Meta Agent Search scopre in modo progressivo ed efficace agenti che superano le prestazioni delle attuali soluzioni progettate manualmente. Come evidenziato in precedenti studi sugli algoritmi genetici di intelligenza artificiale, Meta Agent Search innova basandosi su un archivio in continua crescita di precedenti "stepping stones" (ovvero idee o soluzioni parziali che fungono da base per sviluppi successivi). Un esempio significativo emerge nell'iterazione 3, quando viene utilizzato un modello che impiega molteplici "chain of thought" (sequenze di ragionamenti) per generare risposte possibili, affinarle e poi combinare le migliori soluzioni. Questo approccio diventa una base cruciale per i progetti successivi. Inoltre, il miglior agente scoperto mostra un meccanismo complesso di feedback che permette di perfezionare le risposte in modo più efficace. L'osservazione attenta del processo di ricerca rivela che questo sofisticato meccanismo di feedback non è apparso improvvisamente, ma è stato il risultato dell'introduzione graduale di idee, come l'integrazione di feedback diversificato, la valutazione delle caratteristiche specifiche (efficienza e semplicità) tramite esperti e la simulazione di feedback simile a quello umano, emerse nelle iterazioni 5, 11 e 12. Il meccanismo finale rappresenta un'innovazione che combina questi elementi, simile al concetto di crossover nell'evoluzione attraverso modelli di linguaggio di grandi dimensioni. I risultati complessivi evidenziano il potenziale dell'approccio ADAS e l'efficacia di Meta Agent Search nel trovare agenti che superano le soluzioni progettate manualmente e nell'inventare nuovi schemi di progettazione attraverso l'innovazione e la combinazione di diverse "stepping stones".
Come Meta Agent Search potenzia la comprensione del testo e le abilità matematiche
Sono stati effettuati test sull'algoritmo Meta Agent Search utilizzando quattro benchmark ampiamente riconosciuti: DROP (Dua et al., 2019) per la valutazione della comprensione del testo; MGSM (Shi et al., 2023) per la misurazione delle abilità matematiche in contesti multilingue; MMLU (Hendrycks et al., 2021) per la risoluzione di problemi multi-task; e GPQA (Rein et al., 2023) per la gestione di domande complesse a livello universitario avanzato in ambito scientifico. Ogni test è stato condotto separatamente per ciascun dominio, e l'algoritmo Meta Agent Search è stato eseguito per 30 iterazioni. Per l'agente meta è stato utilizzato GPT-4 (OpenAI, 2024), mentre gli agenti scoperti e i modelli di riferimento sono stati valutati con GPT-3.5 (OpenAI, 2022). Poiché i domini esaminati richiedono elevate capacità di ragionamento, sono stati inclusi due modelli di riferimento aggiuntivi focalizzati specificamente sul miglioramento delle abilità di ragionamento degli agenti, per offrire un confronto più completo. Il primo modello, Step-back Abstraction (Zheng et al., 2023), istruisce gli agenti a riflettere sui principi sottostanti nella risoluzione dei compiti, favorendo un ragionamento più profondo. Il secondo modello, Role Assignment, assegna ruoli distinti ai modelli fondazionali (FMs), come suggerito da Xu et al. (2023), al fine di ottenere risposte di qualità superiore.
I risultati ottenuti in vari ambiti indicano che Meta Agent Search è capace di individuare agenti che superano in prestazioni quelli sviluppati manualmente. Questo è particolarmente evidente nei settori della comprensione del testo e della matematica, dove sono stati osservati significativi miglioramenti. In particolare, le metriche F1, che misurano la precisione e la completezza delle risposte in contesti come il linguaggio naturale, hanno registrato un incremento di 13.6%, mentre i tassi di accuratezza nei problemi matematici sono aumentati del 14.4%.
Nonostante l'algoritmo superi i modelli di riferimento anche nei domini multi-task, cioè quelli che richiedono la gestione simultanea di compiti diversi, e in quelli scientifici, il divario di miglioramento è più ridotto. Questo potrebbe essere dovuto alla complessità delle domande in questi settori, dove le informazioni presenti nei modelli di base (chiamati modelli fondazionali) non sembrano essere sufficienti per risolvere completamente i problemi. Di conseguenza, l'ottimizzazione dei sistemi agentici porta solo a miglioramenti limitati. Tuttavia, si prevede che con il progresso di questi modelli fondazionali, questa limitazione tenderà a diminuire.
Al contrario, nei campi della comprensione del testo e della matematica, i modelli già possiedono le conoscenze necessarie per affrontare le problematiche poste. Qui, gli errori sono per lo più dovuti a fenomeni come le allucinazioni, ossia risposte che appaiono plausibili ma sono errate, o a semplici errori di calcolo. Tali errori possono essere significativamente ridotti attraverso l'impiego di sistemi agentici ben strutturati, come quelli individuati da Meta Agent Search.
In generale, i risultati ottenuti dimostrano l'efficacia dell'algoritmo nella selezione di agenti specializzati per specifici domini, con la potenzialità di ridurre l'impegno umano necessario nella creazione di agenti sempre più adattati a una vasta gamma di applicazioni.
Per dimostrare la capacità di generalizzazione dei blocchi costruttivi e dei modelli progettuali creati, sono stati eseguiti esperimenti riguardanti la trasferibilità degli agenti scoperti. Inizialmente, si è esaminata la trasferibilità tra diversi modelli fondazionali. Gli agenti individuati con il modello GPT-3.5 sono stati trasferiti ad altri modelli fondazionali per valutare se gli agenti, trovati utilizzando un determinato modello, fossero in grado di generalizzare anche in altri contesti. A tal fine, sono stati scelti i tre agenti con le migliori prestazioni, misurate in termini di accuratezza sull'ARC utilizzando GPT-3.5, e successivamente trasferiti a tre modelli ampiamente diffusi: Claude-Haiku, GPT-4 e Claude-Sonnet. È stato applicato lo stesso metodo di valutazione utilizzato per i test su ARC e MGSM. È emerso che gli agenti scoperti superano costantemente quelli progettati manualmente, con un margine considerevole. Tra i modelli testati, Claude-Sonnet ha evidenziato le prestazioni migliori, consentendo al miglior agente di raggiungere un'accuratezza vicina al 50% su ARC.
Successivamente, è stata valutata la trasferibilità tra differenti domini. Gli agenti scoperti nel dominio MGSM, specializzato in matematica, sono stati trasferiti ad altri domini matematici per verificare se fossero in grado di generalizzare anche in contesti diversi. I tre agenti con le migliori prestazioni nel dominio MGSM sono stati trasferiti a quattro domini matematici popolari: GSM8K, GSM-Hard, SVAMP e ASDiv, oltre che a tre domini non matematici. Anche in questo caso, le prestazioni degli agenti sono risultate superiori rispetto ai modelli di riferimento. In particolare, è stato osservato un miglioramento dell'accuratezza del 25,9% su GSM8K e del 13,2% su GSM-Hard rispetto ai modelli standard. Inoltre, è stato sorprendentemente rilevato che gli agenti scoperti nel dominio matematico possono essere efficacemente trasferiti anche a domini non matematici, come la comprensione del testo e i compiti multi-task, dove hanno ottenuto prestazioni superiori o comparabili a quelle degli agenti progettati manualmente. Questi risultati indicano che Meta Agent Search è capace di identificare schemi di progettazione e sistemi agentici che sono adattabili a diversi contesti.
Meta Agent Search e l'importanza della sandboxing per la sicurezza AI
Quando si intraprendono ricerche che coinvolgono la generazione di codice tramite modelli di intelligenza artificiale, come nel caso del Meta Agent Search, è fondamentale valutare attentamente le implicazioni legate alla sicurezza. Sebbene nelle configurazioni attuali, con l'uso dei modelli di base, sia improbabile che il codice generato possa eseguire azioni palesemente dannose, i rischi potenziali esistono comunque. Questi rischi possono derivare dalle limitazioni intrinseche nelle capacità dei modelli o da problemi di allineamento degli obiettivi tra ciò che il modello intende fare e ciò che effettivamente realizza. Per questo motivo, l'utilizzo di ambienti di prova isolati, o "sandbox", è altamente consigliato. Questi ambienti protetti permettono di eseguire il codice generato dai modelli in modo sicuro, prevenendo potenziali danni involontari.
L'avanzamento della ricerca su sistemi di intelligenza artificiale sempre più potenti porta inevitabilmente a riflettere sull'opportunità di spingere ulteriormente i limiti delle capacità dell'IA. In particolare, l'idea di sviluppare Sistemi Agentici Automatizzati (ADAS) ha suscitato interesse per la possibilità che ciò possa accelerare la creazione di un'Intelligenza Artificiale Generale (AGI), rispetto agli approcci manuali attualmente in uso. Questo tema ha alimentato un vivace dibattito tra accademici ed esperti del settore e, pur non essendo l'obiettivo principale dello studio condotto da Shengran Hu e collaboratori, pone interrogativi fondamentali sull'etica e la sicurezza nello sviluppo dell'intelligenza artificiale.
In merito agli ADAS, è emerso che con l'accesso alle API dei modelli di base più avanzati, è possibile creare algoritmi altamente efficaci senza la necessità di hardware costoso, come le GPU. Questa scoperta è di grande importanza per la comunità scientifica, poiché mette in luce la semplicità con cui tali algoritmi possono essere sviluppati e il potenziale impatto che ciò potrebbe avere sulla diffusione della tecnologia. La pubblicazione di queste scoperte è generalmente considerata positiva, poiché incoraggia ulteriori studi e sperimentazioni in quest'ambito.
Inoltre, la diffusione di queste conoscenze potrebbe stimolare la ricerca verso lo sviluppo di ADAS sicuri. La creazione di algoritmi che, pur svolgendo compiti complessi, non rischino di generare codice pericoloso o dannoso è una priorità cruciale. In tal senso, un approccio di ricerca aperta, che si concentri sulla sicurezza degli ADAS, potrebbe rappresentare una strategia vincente per garantire che lo sviluppo dell'IA rimanga sicuro e controllato. Una direzione promettente è quella di integrare nei processi di addestramento dei modelli, come nel caso di Meta Agent Search, delle richieste esplicite affinché si comportino in modo sicuro, creando solo agenti utili, onesti e privi di intenti dannosi.
Un ulteriore passo in questa direzione è rappresentato dall'adozione di concetti come l'Intelligenza Artificiale Costituzionale. Questo approccio prevede l'introduzione di regole e vincoli etici direttamente nel comportamento dei sistemi durante il loro sviluppo, garantendo che operino entro limiti etici ben definiti. Tale integrazione di principi etici potrebbe essere la chiave per assicurare che, man mano che l'intelligenza artificiale continua a evolversi, essa rimanga un alleato affidabile e sicuro per l'umanità.
Conclusioni
L'Automated Design of Agentic Systems (ADAS) rappresenta una svolta cruciale nell'evoluzione dell'intelligenza artificiale, segnalando un passaggio da un approccio manuale e altamente specializzato a uno più automatizzato e scalabile. Questa transizione non solo ha implicazioni tecniche, ma porta con sé profonde conseguenze strategiche per le aziende. Se da un lato l'ADAS promette di accelerare significativamente la capacità di innovazione e adattamento delle organizzazioni, dall'altro introduce nuove sfide in termini di governance, sicurezza e gestione del cambiamento.
In primo luogo, l'automazione della progettazione dei sistemi agentici potrebbe trasformare radicalmente il panorama competitivo. Le imprese che sapranno integrare ADAS nei loro processi di innovazione avranno un vantaggio significativo, potendo sviluppare soluzioni altamente personalizzate e più rapidamente adattabili ai cambiamenti del mercato. Tuttavia, questa automazione comporta una delega crescente delle decisioni creative e strategiche a sistemi che, per quanto avanzati, operano secondo logiche spesso opache e difficili da comprendere appieno. La trasparenza e la spiegabilità dei risultati prodotti da questi agenti diventano quindi fondamentali per garantire che le decisioni aziendali siano basate su principi condivisi e non su processi che sfuggono al controllo umano.
In secondo luogo, l'introduzione di ADAS richiederà alle aziende di ripensare il loro approccio alla gestione dei rischi e alla sicurezza. I sistemi agentici, soprattutto quelli creati in maniera autonoma, potrebbero comportare rischi imprevedibili se non adeguatamente monitorati e testati in ambienti sicuri. L'adozione di sandboxing, come suggerito nella ricerca, diventerà una pratica essenziale non solo per prevenire danni accidentali, ma anche per proteggere le aziende da potenziali minacce alla sicurezza informatica. Le organizzazioni dovranno investire in infrastrutture e competenze che consentano di gestire queste nuove tecnologie in modo sicuro e controllato.
Un'altra considerazione chiave riguarda la governance e l'etica. Con l'aumento dell'autonomia dei sistemi agentici, le aziende dovranno affrontare nuove questioni etiche, soprattutto in merito alla responsabilità delle decisioni prese da questi agenti. La creazione di un quadro etico robusto, magari ispirato ai principi dell'Intelligenza Artificiale Costituzionale, sarà cruciale per garantire che l'automazione non porti a esiti indesiderati o inaccettabili dal punto di vista sociale. Le imprese dovranno sviluppare politiche che bilancino l'efficienza e l'innovazione con la responsabilità sociale e il rispetto delle normative.
Infine, l'implementazione di ADAS richiederà un cambiamento culturale all'interno delle organizzazioni. Le competenze richieste per gestire questi sistemi automatizzati differiscono da quelle tradizionali, richiedendo una maggiore collaborazione tra i dipartimenti tecnici e quelli strategici. Le aziende dovranno investire in formazione e sviluppo delle competenze, non solo per i loro team IT, ma anche per i leader aziendali, affinché possano comprendere le implicazioni strategiche delle tecnologie emergenti e guidare il cambiamento in modo efficace.
In sintesi, l'ADAS non rappresenta solo una nuova frontiera tecnologica, ma una sfida multidimensionale che richiede alle imprese di ripensare il proprio approccio all'innovazione, alla sicurezza e alla governance. L'adozione di questi sistemi può portare enormi vantaggi competitivi, ma solo se gestita con una visione chiara e una strategia ben articolata, che tenga conto delle complessità etiche, operative e culturali che accompagnano l'automazione avanzata.
Comments