The AI Scientist: l'automazione totale della ricerca scientifica e della ricerca e sviluppo aziendale

20 ago 2024Tempo di lettura: 33 min

In un recente studio intitolato "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery", i ricercatori Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune e David Ha, provenienti da istituzioni come Sakana AI, l'Università di Oxford, l'Università della British Columbia e il Vector Institute, presentano un quadro innovativo volto all'automazione completa della ricerca scientifica.

Uno dei sogni più ambiziosi nel campo dell'intelligenza artificiale è quello di sviluppare agenti capaci di condurre ricerche scientifiche in modo autonomo, spingendo così i confini della conoscenza. Oggi, i modelli avanzati di intelligenza artificiale sono già utilizzati per assistere gli scienziati in molteplici compiti, come la generazione di idee, la programmazione e la previsione dei risultati. Tuttavia, il loro ruolo è ancora principalmente di supporto, con un impatto diretto limitato sul processo di scoperta scientifica.

A colmare questo divario emerge The AI Scientist, un sistema innovativo progettato per permettere ai modelli linguistici di nuova generazione di condurre attività di ricerca in completa autonomia, fino alla condivisione dei risultati. Non più semplici assistenti, questi agenti diventano veri protagonisti del processo scientifico, generando conoscenza senza la necessità dell'intervento umano.

Questo sistema è capace di sviluppare idee di ricerca originali, scrivere codice per eseguire esperimenti, analizzare e visualizzare i risultati, e redigere articoli scientifici per documentare le scoperte. Ancora più sorprendente, The AI Scientist è in grado di simulare un processo di revisione, valutando la qualità del lavoro prodotto. Questo ciclo di scoperta può ripetersi indefinitamente, creando un flusso continuo di nuove idee che vanno ad arricchire un archivio in costante evoluzione, replicando così il modus operandi della comunità scientifica umana.

L'introduzione di tecnologie come "The AI Scientist" in un contesto aziendale comporterebbe una trasformazione profonda del ruolo di scienziati e ingegneri all'interno della R&D aziendale. Questi professionisti potrebbero infatti orientarsi maggiormente verso la supervisione strategica, piuttosto che sull'operatività quotidiana. Questo cambiamento alleggerirebbe il carico di lavoro operativo dei dipartimenti R&D, consentendo loro di concentrarsi su questioni più complesse e strategiche, come la definizione delle priorità di ricerca e l'integrazione delle innovazioni nel contesto aziendale. Tuttavia, una sfida importante potrebbe derivare dalla potenziale iperproduzione di idee, che rischierebbe di diventare dispersiva se non adeguatamente allineata alla strategia complessiva dell'azienda. Pertanto, la qualità e la pertinenza delle scoperte, insieme alla gestione di un notevole volume di output, diventano fattori determinanti.

Dal punto di vista operativo, l'integrazione di intelligenze artificiali autonome all'interno del reparto R&D aziendale potrebbe portare a una riduzione significativa dei costi e a una maggiore velocità nel lancio dei prodotti sul mercato. Tuttavia, questo richiederebbe anche una riorganizzazione delle competenze interne e l'introduzione di nuove figure professionali, come specialisti in intelligenza artificiale. Inoltre, i dipartimenti R&D dovrebbero sviluppare capacità avanzate per monitorare e gestire i rischi legati a scoperte che potrebbero rivelarsi pericolose o di difficile interpretazione.

The AI Scientist: l'automazione totale della ricerca scientifica e della ricerca e sviluppo aziendale

The AI Scientist e la nuova frontiera della ricerca scientifica automatizzata

Il metodo scientifico moderno è stato riconosciuto come una delle principali conquiste dell'Illuminismo. Questo processo richiede che un ricercatore raccolga informazioni di base, formuli ipotesi plausibili, sviluppi un piano per testare tali ipotesi, raccolga dati per verificarle e, infine, valuti e comunichi i risultati ottenuti. Una volta completato, il manoscritto che descrive questo lavoro viene sottoposto a revisione da parte di altri esperti del settore e, se necessario, viene ulteriormente migliorato. Questo iter ha permesso l'avanzamento di numerose scoperte scientifiche e tecnologiche, che hanno avuto un impatto positivo sulla vita umana. Tuttavia, tale ciclo è limitato dalla creatività, dalle conoscenze e dal tempo disponibile dei ricercatori.

Nel contesto dell'intelligenza artificiale, alcuni studiosi hanno ipotizzato la possibilità di automatizzare questo processo di ricerca scientifica, utilizzando l'AI stessa. Nonostante i recenti progressi nei modelli di base, che hanno dimostrato notevoli capacità in vari ambiti, l'AI è riuscita fino ad ora solo a velocizzare specifiche fasi del processo di ricerca. Alcuni esempi includono la stesura di manoscritti scientifici, la generazione di nuove idee o l'assistenza alla programmazione. Tuttavia, non è ancora stata raggiunta la possibilità di completare progetti di ricerca complessi senza la supervisione o l'intervento diretto di ricercatori umani.

Le strategie tradizionali per automatizzare la ricerca scientifica si sono basate su una delimitazione rigida degli spazi di indagine, imponendo confini ben definiti entro i quali le scoperte potevano essere fatte. Ciò ha comportato la necessità di un sostanziale contributo da parte di esperti umani per progettare tali spazi di ricerca. In alcuni campi, come la scoperta di nuovi materiali o la biologia sintetica, sono stati raggiunti significativi risultati attraverso questo approccio. Tuttavia, tali progressi sono stati possibili solo perché l'esplorazione è stata limitata a domini ben conosciuti e caratterizzati, il che ha permesso avanzamenti mirati, ma al contempo ha ridotto la possibilità di fare scoperte più ampie. Altre fasi cruciali del processo scientifico, come la redazione del manoscritto, rimangono ancora non completamente automatizzate.

Anche nel campo del machine learning, l'automazione della ricerca si è concentrata principalmente su aspetti specifici come la ricerca di iperparametri, cioè quei parametri che influenzano il comportamento di un modello di apprendimento automatico, o la scoperta di nuove architetture algoritmiche. Questi approcci hanno ottenuto successi entro spazi di ricerca ben definiti e progettati per ottenere risultati specifici.

Lo studio condotto da Chris Lu e collaboratori presenta una pipeline completamente automatizzata e scalabile per la generazione di articoli scientifici. Questa innovativa tecnologia sfrutta i recenti avanzamenti nei modelli di base per permettere la generazione end-to-end di articoli, partendo da un ampio orientamento di ricerca e da una semplice base di codice iniziale. The AI Scientist è in grado di gestire autonomamente l'intero processo di ricerca scientifica, che comprende la generazione di nuove idee, la ricerca di riferimenti bibliografici, la pianificazione e l'iterazione di esperimenti, la scrittura del manoscritto e anche la revisione paritaria. Questa automazione consente di produrre articoli scientifici a un costo molto basso, intorno ai 15 dollari per articolo. Inoltre, il sistema funziona in un ciclo continuo, sfruttando le scoperte scientifiche già realizzate per migliorare le idee delle ricerche successive, accelerando così il lungo processo della ricerca scientifica. Questa pipeline automatizzata rappresenta un passo importante verso l'utilizzo delle sempre maggiori risorse computazionali per affrontare le principali sfide scientifiche del XXI secolo. Anche se l'attenzione principale dello studio è rivolta alle applicazioni nel campo del Machine Learning, il metodo può essere esteso ad altre discipline come la biologia e la fisica, a condizione che siano presenti sistemi in grado di eseguire esperimenti in maniera automatizzata.

The AI Scientist utilizza tecniche avanzate come il chain-of-thought, che permette di suddividere il ragionamento in una catena di pensieri collegati per una maggiore coerenza decisionale, e la self-reflection, che implica una riflessione interna sui processi per migliorarli in modo autonomo. Questi strumenti permettono al sistema di formulare ipotesi scientifiche e pianificare esperimenti per testarle in maniera autonoma. Successivamente, grazie all'integrazione con l'assistente alla programmazione di ultima generazione Aider, il sistema apporta modifiche al codice necessario per condurre gli esperimenti e raccoglie i risultati ottenuti. Questi risultati vengono poi utilizzati per redigere un articolo scientifico. Il ciclo si chiude con un processo di revisione automatizzata degli articoli, basato sulle linee guida delle principali conferenze nel campo del machine learning. Le idee completate e il feedback dei revisori vengono integrati nell'archivio delle scoperte scientifiche del sistema, consentendo così un continuo miglioramento. Gli articoli generati e gli esperimenti condotti risultano interpretabili anche per i ricercatori umani, i quali possono trarre vantaggio dalle conoscenze acquisite tramite questo processo automatizzato.

LLMs come strumenti avanzati per l'automazione del linguaggio e della scrittura di codice

I modelli di linguaggio di grandi dimensioni autoregressivi (LLMs) rappresentano uno strumento avanzato per la generazione automatica di testo. Questi modelli apprendono a completare sequenze testuali prevedendo la probabilità di un nuovo elemento (detto token, simile a una parola) sulla base dei token già generati. Durante la fase di test, il modello genera le previsioni campionando nuovi token in base a questa probabilità. Grazie all'uso di vasti dataset e alla scalabilità dei modelli, gli LLMs non solo sono capaci di produrre testo coerente, ma dimostrano abilità vicine a quelle umane. Tra queste capacità rientrano la comprensione del senso comune, come descritto da studi precedenti, il ragionamento logico e la capacità di scrivere codice informatico.

Le applicazioni pratiche di questi modelli prevedono spesso l'integrazione all'interno di un framework per agenti. In tali framework, l'LLM può essere utilizzato per diverse operazioni. Ad esempio, può essere strutturato per rispondere a query linguistiche specifiche attraverso il prompting, un metodo in cui il modello viene esposto a esempi per migliorare le sue prestazioni. Un altro approccio consiste nel guidare il modello attraverso processi di ragionamento complessi, come avviene nel chain-of-thought, dove il modello sviluppa una catena di pensieri logici per risolvere un problema. Inoltre, esistono metodi per far sì che il modello migliori iterativamente i propri risultati, come avviene con la self-reflection, un processo in cui il modello riflette sui propri output e li perfeziona. Questi approcci sfruttano la capacità degli LLMs di apprendere in modo contestuale e ne migliorano le prestazioni, aumentando al contempo la loro robustezza e affidabilità.

Un esempio di applicazione concreta di questi concetti è Aider, un assistente per la programmazione basato su LLM. Questo framework open-source è stato progettato per assistere nella scrittura di codice, correggere errori o ristrutturare il codice esistente in una base di codice già avviata. Aider può utilizzare diversi modelli di linguaggio sottostanti e, con i modelli più avanzati, ha dimostrato un notevole successo nel risolvere problemi di programmazione reali. Nel benchmark SWE Bench, che raccoglie problemi reali da GitHub, Aider ha raggiunto un tasso di successo significativo, pari al 18,9%. Questo livello di affidabilità, insieme ad altre innovazioni, consente di automatizzare il processo di ricerca nel campo del machine learning in modo completo, senza necessità di intervento umano diretto.

Come funziona AI Scientist dalle idee alla sperimentazione fino alla scrittura

The AI Scientist si sviluppa attraverso tre fasi principali: la generazione delle idee, l'iterazione sperimentale e la scrittura del documento scientifico. Dopo la redazione del documento, viene introdotta una fase di revisione, utilizzando un modello linguistico avanzato per valutare la qualità dell'elaborato prodotto.

1. Generazione delle idee. L'AI Scientist utilizza un processo per generare nuove idee di ricerca che si ispira al concetto di evoluzione e alla ricerca sull'apertura a nuove possibilità. Il metodo è basato su una crescita iterativa di un archivio di idee, dove i modelli di linguaggio svolgono il ruolo di "operatore di mutazione". Questo significa che tali modelli vengono utilizzati per creare variazioni e nuove direzioni di ricerca a partire da idee già esistenti. Ogni nuova idea viene descritta nei dettagli, accompagnata da un piano sperimentale per metterla in pratica e da una valutazione numerica in cui si autoassegnano punteggi relativi al grado di interesse, novità e fattibilità dell'idea stessa. Durante il processo, l'AI Scientist genera iterativamente nuove direzioni di ricerca, basandosi sulle idee archiviate e sui punteggi ottenuti dalle idee precedenti.

Per migliorare queste idee, si ricorre a una tecnica che coinvolge più fasi di ragionamento concatenato e di auto-riflessione. Questo aiuta a raffinare e sviluppare ogni idea in modo più completo. Dopo la generazione delle idee, viene effettuato un ulteriore filtraggio. In questa fase, il modello di linguaggio è collegato a risorse esterne, come l'API di Semantic Scholar e strumenti per l'accesso al web. Questo permette di eliminare le idee che risultano troppo simili a quelle già esistenti nella letteratura scientifica disponibile. In questo modo, il processo assicura la produzione di direzioni di ricerca originali e innovative.

2. Iterazione sperimentale. AI Scientist esegue gli esperimenti proposti e successivamente visualizza i risultati ottenuti, con l'obiettivo di facilitarne la successiva scrittura. In questo processo viene impiegato uno strumento chiamato Aider, il quale pianifica inizialmente una lista di esperimenti da condurre, per poi eseguirli in sequenza. Per rendere questa procedura più affidabile, in caso di errore o di timeout (ad esempio, quando gli esperimenti richiedono troppo tempo per essere completati), gli errori vengono restituiti ad Aider, che corregge il codice e tenta di rieseguire l'esperimento fino a quattro volte. Al termine di ciascun esperimento, Aider riceve i risultati e annota le osservazioni in uno stile simile a quello di un diario sperimentale. Attualmente, Aider opera solamente su testo, ma in versioni future potrebbe integrare anche visualizzazioni grafiche o altri tipi di dati. In base ai risultati ottenuti, Aider ripianifica e implementa l'esperimento successivo, ripetendo questo ciclo fino a cinque volte. Una volta conclusi gli esperimenti, Aider viene incaricato di modificare uno script di grafici in Python per generare figure da includere nell'articolo. L'AI Scientist annota ciò che ciascun grafico rappresenta, permettendo così ai grafici generati e agli appunti sperimentali di fornire tutte le informazioni necessarie per la stesura del documento. Durante tutte le fasi, Aider ha accesso allo storico delle esecuzioni precedenti.

In generale, i modelli di base forniti per i grafici e gli esperimenti sono piccoli file indipendenti. Tuttavia, l'AI Scientist spesso crea nuovi grafici e raccoglie metriche che non erano incluse nei modelli iniziali. Questa capacità di modificare il codice in modo arbitrario può talvolta portare a risultati inattesi.

3. Stesura dell'articolo. Il terzo stadio dell'AI Scientist prevede la redazione di un documento chiaro e conciso che illustri i progressi raggiunti, adottando uno stile simile a quello di un articolo da conferenza standard nel campo del machine learning, redatto in LaTeX. LaTeX è un sistema di preparazione di documenti ampiamente utilizzato in ambito accademico e scientifico per la sua capacità di gestire in modo efficace la composizione del testo e la formattazione complessa, particolarmente adatto a documenti che includono formule matematiche. Poiché la stesura di un buon documento in LaTeX può richiedere tempo anche ai ricercatori più esperti, vengono implementate alcune strategie per rendere questo processo più efficiente e affidabile.

Il primo passaggio consiste nella generazione del testo per ogni sezione del documento. Gli appunti registrati e i grafici vengono passati ad Aider, uno strumento incaricato di completare, passo dopo passo, una bozza di articolo seguendo un template di conferenza. Questo processo si svolge in un ordine prestabilito: introduzione, background, metodi, impostazione sperimentale, risultati, e infine conclusione. Ogni sezione già completata viene mantenuta come contesto per Aider, in modo che possa tenerne conto durante la scrittura delle sezioni successive. Vengono forniti brevi suggerimenti su cosa dovrebbe includere ciascuna sezione, ispirandosi alla guida "How to ML Paper", un popolare manuale su come scrivere articoli di apprendimento automatico. Inoltre, mentre viene redatta ogni sezione, viene eseguito un ciclo di auto-riflessione, secondo una metodologia descritta in un lavoro di Shinn e collaboratori del 2024, per migliorare la qualità del testo. In questa fase non vengono incluse citazioni, ad eccezione di uno schema per la sezione relativa ai lavori correlati, che sarà completata in una fase successiva.

Il secondo passaggio prevede la ricerca sul web delle fonti necessarie per le citazioni. In modo analogo alla generazione di idee, l'AI Scientist può effettuare fino a venti interrogazioni all'API di Semantic Scholar per trovare le fonti più rilevanti da confrontare e includere nella sezione dei lavori correlati. Questo processo consente all'AI Scientist di selezionare gli articoli che ritiene più pertinenti e di completare eventuali citazioni mancanti nelle altre sezioni del documento. Per ciascun articolo selezionato viene fornita una breve descrizione su come e dove inserire la citazione nel testo. Inoltre, i riferimenti bibliografici in formato bibtex vengono automaticamente aggiunti al file LaTeX per garantirne la correttezza.

Il terzo passaggio riguarda il raffinamento del testo. Dopo le prime due fasi, l'AI Scientist dispone di una bozza completa del documento, che però potrebbe risultare eccessivamente prolissa e ripetitiva. Per risolvere questo problema, viene eseguita un'ulteriore auto-riflessione sezione per sezione, con l'obiettivo di eliminare eventuali informazioni duplicate e rendere più fluido e diretto il flusso degli argomenti.

Infine, dopo che il template LaTeX è stato completamente riempito con tutti i risultati appropriati, questo viene passato a un compilatore LaTeX. Durante la compilazione, viene utilizzato un linter LaTeX, un software che controlla gli errori nel codice, e gli eventuali errori di compilazione vengono rimandati ad Aider affinché li corregga automaticamente.

Revisione scientifica automatizzata con GPT-4o risultati e confronto

Un componente chiave di una comunità scientifica efficace è il suo sistema di revisione, che ha l'obiettivo di valutare e migliorare la qualità degli articoli scientifici. Per riprodurre un simile processo utilizzando modelli linguistici di grandi dimensioni, è stato progettato un agente basato su GPT-4° con lo scopo di condurre revisioni di articoli seguendo le linee guida di revisione della conferenza Neural Information Processing Systems (NeurIPS). Questo agente di revisione è in grado di elaborare il testo grezzo dei manoscritti in formato PDF utilizzando la libreria di parsing PyMuPDF. L'output generato dal processo include punteggi numerici che valutano aspetti come solidità, presentazione, contributo scientifico, punteggio complessivo e livello di fiducia. Inoltre, vengono forniti elenchi di punti deboli e punti di forza del lavoro analizzato, insieme a una decisione preliminare binaria di accettazione o rifiuto del documento. Tali decisioni possono successivamente essere ricalibrate applicando una soglia basata sul punteggio del revisore.

Per analizzare le prestazioni del sistema di revisione automatica, sono state confrontate le decisioni generate automaticamente con i dati di riferimento relativi a 500 articoli scientifici presentati alla conferenza ICLR del 2022. L'ICLR, ovvero l'International Conference on Learning Representations, è un'importante conferenza internazionale nel campo dell'intelligenza artificiale e dell'apprendimento automatico. I dati utilizzati per il confronto provengono dal dataset pubblico OpenReview, una piattaforma online che consente di gestire e consultare le revisioni e i feedback relativi agli articoli scientifici presentati a conferenze accademiche. Per rendere il processo decisionale più affidabile e preciso, sono state integrate diverse innovazioni recenti nel campo dei sistemi basati su LLM. Tra queste innovazioni, è stata inclusa la capacità del modello di riflettere su sé stesso, ossia una tecnica in cui il modello analizza e rivaluta le proprie risposte per migliorarle. Inoltre, sono stati presentati al modello esempi selezionati per guidare meglio le decisioni e si è adottata una tecnica chiamata "ensemble delle risposte". Quest'ultima consiste nel combinare più risposte diverse generate dal modello al fine di ottenere una decisione finale più accurata e rappresentativa, riducendo così la possibilità di errore o bias nel processo di revisione.

Utilizzando GPT-4o, il processo di revisione guidato dall'AI Scientist ha raggiunto un'accuratezza del 70%, grazie a cinque cicli di riflessione su sé stesso, cinque revisioni combinate e un esempio di revisione basato sulle linee guida dell'ICLR 2022. Successivamente, è stata eseguita una meta-review supportata da un LLM, in cui l'agente ha assunto il ruolo di "Area Chair", ovvero una figura responsabile di supervisionare e sintetizzare le decisioni di revisione. Sebbene questa accuratezza sia inferiore al 73% registrato dagli esseri umani in un esperimento di coerenza della NeurIPS 2021, il revisore automatico ha superato le prestazioni umane in termini di punteggio F1, che misura l'equilibrio tra precisione e sensibilità, ottenendo un valore di 0.57 rispetto a 0.49. Inoltre, ha raggiunto un livello comparabile agli esseri umani nell'AUC, una metrica che valuta la capacità di un modello di distinguere tra categorie diverse.

Il dataset di articoli ICLR 2022 preso in considerazione era altamente sbilanciato, contenendo molti più articoli respinti rispetto a quelli accettati. Quando il dataset è stato bilanciato, il processo di revisione dell'AI Scientist ha raggiunto un'accuratezza simile a quella umana, con valori molto vicini. Inoltre, il tasso di falsi negativi, ovvero il numero di articoli di alta qualità erroneamente respinti, è risultato essere significativamente inferiore rispetto al dato umano, mentre il tasso di falsi positivi, cioè articoli erroneamente accettati, era leggermente più alto, suggerendo margini di miglioramento futuri.

Le prestazioni del revisore automatico sono state ulteriormente esaminate attraverso un confronto tra la coerenza dei punteggi assegnati da revisori umani e quelli generati dal modello di linguaggio di grandi dimensioni. In particolare, è stata analizzata la correlazione tra i punteggi assegnati da coppie di revisori umani anonimi, selezionati in modo casuale, e la correlazione tra la media di questi punteggi umani e il punteggio generato dall'LLM. Per un campione di 500 articoli della conferenza ICLR 2022, è emerso che la correlazione tra i punteggi di due revisori umani è risultata inferiore rispetto a quella tra il punteggio generato dall'LLM e la media dei punteggi umani. Questo suggerisce che le revisioni generate dall'LLM non solo possono offrire un feedback utile, ma mostrano anche una maggiore allineamento con il punteggio medio umano rispetto a quanto accade tra i revisori umani stessi.

Il costo per ogni revisione generata varia tra 0.25 e 0.50 dollari in termini di costi API. Sono state confrontate anche le prestazioni di altri modelli di base, come Claude Sonnet 3.5 e GPT-4o-mini. Sebbene questi modelli offrano un approccio più economico, le loro prestazioni sono risultate sostanzialmente peggiori. Inoltre, nel caso di Sonnet 3.5, è stato necessario impostare una soglia molto più alta per ottenere risultati calibrati, a causa di un persistente bias verso giudizi eccessivamente ottimisti. Altri modelli come Llama 3.1 405B hanno mostrato difficoltà a seguire in modo coerente il formato richiesto per la revisione.

Sono stati confrontati diversi tipi di configurazioni di prompt per GPT-4o, scoprendo che sia la riflessione su sé stesso sia l'uso di un esempio di revisione aumentano significativamente l'accuratezza del revisore. Al contrario, l'uso dell'ensamble delle revisioni, pur non migliorando sostanzialmente le prestazioni, contribuisce a ridurre la variabilità nei risultati.

Limiti e potenzialità dell'AI Scientist nella modellazione della diffusione dei dati

Prima di introdurre gli esperimenti e le metriche relative ai documenti generati da The AI Scientist, è utile esaminare un esempio concreto proveniente da una delle esecuzioni di questo sistema. Questo campione consente di evidenziare sia i punti di forza sia le limitazioni del sistema. Il documento preso in esame, intitolato "Adaptive Dual-Scale Denoising", è stato prodotto durante una fase in cui il sistema è stato incaricato di condurre una ricerca sul tema della modellazione della diffusione. Per questa attività è stata utilizzata una versione del modello Claude Sonnet 3.5, sviluppata da Anthropic nel 2024.

Idea Generata

L'idea proposta dal sistema AI Scientist si basa su un modello esistente e sulle scoperte già archiviate. Il concetto presentato nel documento selezionato è emerso durante la sesta iterazione dell'algoritmo e si pone l'obiettivo di migliorare la capacità dei modelli di diffusione di catturare sia la struttura globale che i dettagli locali di un dataset bidimensionale. Per raggiungere questo risultato, viene suggerita una modifica alla rete standard del denoiser, con l'introduzione di due rami distinti. Questa linea di ricerca è motivata dall'adozione sempre più crescente di tali modelli, ritenuti superiori rispetto ai precedenti modelli generativi, come gli autoencoder variazionali (VAEs) sviluppati da Kingma e Welling nel 2014 e le reti antagoniste generative (GANs) introdotte da Goodfellow e collaboratori nello stesso anno.

In aggiunta, il sistema AI Scientist ha elaborato un piano sperimentale dettagliato che include la modifica del codice proposto, il confronto con i modelli di base (baseline), l'utilizzo di metriche di valutazione specifiche e la creazione di grafici supplementari per l'analisi dei risultati. Come evidenziato dalla letteratura, i modelli LLMs possono presentare bias nelle loro valutazioni, come osservato da Zheng e colleghi nel 2024, che si manifestano spesso in una sovrastima del livello di interesse, fattibilità o originalità di un'idea. Il sistema ha identificato l'idea proposta come "novel" (nuova) dopo aver condotto una ricerca di articoli correlati tramite l'API di Semantic Scholar, suggerendo quindi che l'idea sia ritenuta originale.

Esperimenti generati

Viene visualizzata una differenza di codice generata in cui le eliminazioni sono evidenziate in rosso e le aggiunte in verde, riferite ai cambiamenti algoritmici sostanziali. Il codice prodotto rispecchia la descrizione sperimentale ed è corredato di commenti dettagliati. È possibile apportare modifiche al codice utilizzando i risultati di esperimenti intermedi per ottenere iterativamente scelte di design interessanti per la rete di pesi adattivi, come l'uso di una funzione LeakyReLU, che è una variante della funzione di attivazione ReLU (Rectified Linear Unit) che permette un piccolo flusso di informazioni anche per valori negativi dell'input. Un aspetto rilevante è che questa rete ha un'uscita ben controllata, garantita essere compresa tra 0 e 1. Inoltre, si osserva che l'uscita della rete è stata modificata per restituire i pesi adattivi, permettendo così la creazione di nuove visualizzazioni.

Documento generato

Il documento scientifico generato dall'intelligenza artificiale segue lo stile tipico di una pubblicazione presentata in una conferenza di machine learning, includendo tutte le sezioni standard, comprese visualizzazioni di dati e risultati sperimentali. Per quanto riguarda la descrizione matematica dell'algoritmo, questa è stata effettuata con precisione, introducendo una nuova notazione quando necessario. Anche il processo di addestramento è stato descritto in modo esatto, utilizzando i pacchetti LaTeX per la rappresentazione delle formule matematiche.

La parte sperimentale è stata trattata con grande attenzione ai dettagli: i valori dei parametri, i confronti con i modelli di riferimento e i dataset utilizzati sono elencati accuratamente. È stato verificato che i principali risultati numerici coincidano perfettamente con i log sperimentali. Nonostante i numeri nei log fossero riportati con molte cifre decimali, l'intelligenza artificiale ha scelto di arrotondarli a tre cifre decimali senza introdurre errori. Inoltre, è stato fatto un confronto accurato con i modelli di riferimento, ad esempio riportando una riduzione del 12,8% della divergenza KL su un dataset chiamato "dinosaur". La divergenza KL è una misura statistica utilizzata per confrontare due distribuzioni di probabilità; in questo caso, una riduzione indica che la distribuzione stimata dall'algoritmo si avvicina di più a quella reale rispetto al modello di riferimento.

Anche i risultati empirici sono notevoli: qualitativamente, i campioni generati dall'algoritmo mostrano un netto miglioramento rispetto al riferimento, con un numero inferiore di punti che si discostano significativamente dai dati reali. Dal punto di vista quantitativo, si registrano progressi nella divergenza KL approssimata tra la distribuzione reale e quella stimata. Inoltre, sono state create nuove visualizzazioni avanzate che superano quelle di base, con grafici specifici per l'algoritmo che illustrano l'evoluzione dei pesi durante il processo di denoising, ossia la riduzione del rumore nei dati.

La sezione relativa ai futuri sviluppi propone alcune direzioni interessanti, come l'estensione a problemi in spazi con più dimensioni, l'integrazione di meccanismi adattivi più sofisticati e l'approfondimento delle basi teoriche.

Tuttavia, il documento non è esente da difetti. Alcune scelte progettuali non sono giustificate in modo adeguato: ad esempio, la rete di denoising locale opera su una versione ingrandita dell'input originale con una dimensionalità doppia, ma non viene fornita una spiegazione del perché questa scelta sia ragionevole. In un lavoro più rigoroso, ci si aspetterebbero ulteriori esperimenti per giustificare tale scelta.

Un'altra anomalia riscontrata riguarda la "hallucination" di alcuni dettagli sperimentali. Il documento afferma che sono state utilizzate GPU V100, sebbene l'intelligenza artificiale non potesse sapere l'hardware realmente impiegato, che in realtà era costituito da GPU H100. Inoltre, il sistema ha ipotizzato la versione di PyTorch senza verificarla.

In alcuni casi, i risultati sono presentati in modo eccessivamente positivo, anche quando negativi. Ad esempio, viene riportato un miglioramento del 12,8% per un dataset chiamato "Dino", ma nel caso del dataset "Moons" un peggioramento viene descritto come un miglioramento del 3,3%, il che è palesemente un'esagerazione. Inoltre, alcuni risultati sembrano provenire direttamente dai log sperimentali, con riferimenti come "Run 2", che non sono appropriati per un documento professionale.

Infine, il documento presenta risultati intermedi per ogni singolo esperimento effettuato. Sebbene ciò fornisca una visione completa dell'evoluzione dell'idea durante l'esecuzione, non è una pratica comune nei lavori accademici standard presentare tutti i risultati intermedi. Anche la sezione delle referenze è piuttosto scarna, contenendo solo 9 voci, nonostante siano stati aggiunti alcuni riferimenti rilevanti tratti da fonti accademiche.

Revisione

Il revisore automatico evidenzia delle preoccupazioni valide riguardo al manoscritto generato. Viene riconosciuto che gli esperimenti sono stati effettuati solo su dataset semplici e bidimensionali, tuttavia, questo è dovuto a una limitazione esterna imposta al sistema, che attualmente non è in grado di scaricare dataset di dimensioni superiori dalla rete. D'altro canto, vengono menzionati anche aspetti limitanti come l'aumento del costo computazionale dell'algoritmo proposto. Questi elementi sono già presenti nel documento originale, il che dimostra che il sistema The AI Scientist tende a essere trasparente riguardo ai potenziali svantaggi delle proprie idee. Il revisore solleva inoltre numerose domande pertinenti riguardo al lavoro, come la spiegazione della variabilità delle prestazioni tra i diversi dataset e la necessità di chiarire meglio in che modo il processo di ingrandimento influenzi l'input del ramo locale del sistema.

Analisi

L'analisi del documento prodotto dall'AI Scientist evidenzia alcuni aspetti interessanti nel campo della modellazione per diffusione. Sebbene questa non sia l'area principale di ricerca, è comunque un ambito in cui sono stati pubblicati articoli scientifici, fornendo così una base solida per esprimere valutazioni complessive.

L'AI Scientist ha identificato correttamente una direzione di ricerca ben motivata nel campo della modellazione per diffusione. Ad esempio, ricerche precedenti hanno studiato meccanismi di attenzione modificati (come quelli proposti da Hatamizadeh et al., 2024) per affrontare problemi in spazi di dimensioni superiori. Il modello ha proposto un piano sperimentale completo per indagare la propria idea, implementandolo con successo e ottenendo buoni risultati. È notevole il modo in cui l'AI Scientist ha reagito ai risultati iniziali non soddisfacenti, apportando iterativamente modifiche al codice, come il perfezionamento della rete di pesi. Questa progressione dell'idea è chiaramente visibile nel documento.

Nonostante l'idea proposta nel documento migliori le prestazioni e la qualità dei campioni generati tramite il modello di diffusione, le ragioni del successo potrebbero non essere esattamente quelle indicate nel documento stesso. In particolare, non emerge un chiaro pregiudizio induttivo, ad eccezione di un livello di upscaling per la suddivisione delle caratteristiche globali o locali. Tuttavia, si osserva una progressione nei pesi (e quindi una preferenza per il ramo globale o locale) attraverso i diversi passaggi temporali della diffusione, suggerendo che stia accadendo qualcosa di non banale. Un'interpretazione alternativa è che la rete implementata dall'AI Scientist assomigli a una struttura di tipo mixture-of-expert (MoE), come quelle descritte da Fedus et al. (2022) e Yuksel et al. (2012), che sono comuni nei modelli di linguaggio di grandi dimensioni. Un MoE potrebbe effettivamente portare il modello di diffusione a imparare rami separati per le caratteristiche globali e locali, come affermato nel documento, ma questa ipotesi richiede un'indagine più rigorosa.

È interessante osservare come le vere lacune del documento richiedano effettivamente una certa competenza specifica per essere individuate e siano state solo parzialmente rilevate dal revisore automatico (ad esempio, quando ha richiesto maggiori informazioni sul livello di upscaling). Con le attuali capacità dell'AI Scientist, tali problematiche possono essere risolte grazie all'intervento umano. Tuttavia, in futuro, modelli di intelligenza artificiale più avanzati potrebbero proporre soluzioni che risulterebbero difficili da comprendere e valutare per gli esseri umani. Questo fenomeno si collega al concetto di "superallineamento" (Burns et al., 2023), ovvero la supervisione di sistemi di intelligenza artificiale potenzialmente superiori alle capacità umane, un'area di ricerca in continua evoluzione.

In conclusione, la performance dell'AI Scientist è assimilabile a quella di un ricercatore di machine learning alle prime fasi della carriera: in grado di eseguire in modo competente un'idea, ma con una comprensione ancora limitata delle motivazioni profonde dietro il successo di un algoritmo. Se questi risultati fossero sottoposti a un supervisore umano, potrebbe suggerire all'AI Scientist di riorientare il progetto per approfondire ulteriormente l'indagine sulle MoE nel contesto della diffusione. È lecito attendersi, infine, che molte delle attuali limitazioni dell'AI Scientist possano essere mitigate o superate con il continuo e significativo progresso dei modelli fondamentali.

The AI Scientist: Analisi delle ricerche generate

Sono state effettuate valutazioni approfondite su The AI Scientist, applicandolo a diversi modelli di generazione che includono Claude Sonnet 3.5 (Anthropic, 2024), GPT-4o (OpenAI, 2023), DeepSeek Coder (Zhu et al., 2024) e Llama-3.1 405b (Llama Team, 2024). I primi due modelli sono accessibili tramite API pubbliche, mentre gli altri due sono modelli a pesi aperti, ossia il codice sorgente è disponibile pubblicamente, permettendo agli utenti di modificarli e utilizzarli liberamente.

Durante i test, è stato fornito a ciascun modello un numero ridotto di idee iniziali (da una a due, come modificare il tasso di apprendimento o la dimensione del lotto) e ciascuno ha generato circa cinquanta nuove idee. Ciascuna esecuzione ha richiesto circa dodici ore, utilizzando otto unità di calcolo avanzate (NVIDIA H100). Il processo è stato monitorato in base al numero di idee che superano un controllo automatico di novità, che completano con successo gli esperimenti e che producono manoscritti validi e compilabili. Il controllo della novità viene eseguito autonomamente da ciascun modello sulle proprie idee, rendendo i confronti relativi di "novità" più complessi.

Sono stati inoltre riportati la media e il punteggio massimo assegnati dai revisori ai documenti generati, insieme al costo totale per esecuzione. Sono stati selezionati e analizzati alcuni documenti generati, con una lista di dieci di questi riportata in dettaglio. È stata utilizzata una strategia per ottimizzare i tempi di esecuzione, generando idee senza attendere la valutazione dei documenti precedenti, così da parallelizzare il processo. Questa modifica ha permesso di ridurre il tempo complessivo di generazione delle idee senza influire negativamente sulla qualità dei documenti generati, come indicato dai punteggi medi delle recensioni.

È stato inoltre osservato che Claude Sonnet 3.5 ha prodotto i documenti di qualità più elevata, seguito da GPT-4o. I dettagli sui documenti e i log di esecuzione sono stati caricati su un repository GitHub, con particolare enfasi sui documenti generati da Claude, raccomandati per un'analisi qualitativa. Il costo per documento generato si è attestato attorno ai 10-15 dollari. GPT-4o ha mostrato difficoltà nel gestire LaTeX, causando il mancato completamento di molti documenti, mentre DeepSeek Coder, sebbene significativamente più economico, ha spesso fallito nel richiamare correttamente gli strumenti Aider. Llama-3.1 405b ha ottenuto i risultati peggiori in termini di prestazioni complessive, ma è stato il modello più facile da utilizzare, poiché meno soggetto a limitazioni di accesso rispetto agli altri. Tuttavia, sia DeepSeek Coder sia Llama-3.1 405b hanno prodotto spesso documenti incompleti, con sezioni e risultati mancanti.

Nella tabella dei dieci documenti selezionati si trovano titoli e punteggi che variano da argomenti legati alla diffusione 2D, ai modelli NanoGPT e alle strategie di miglioramento per i modelli transformer. Per esempio, uno dei documenti più apprezzati, con un punteggio di 5, ha trattato un metodo chiamato DualScale Diffusion, che equilibra le caratteristiche adattive per modelli generativi in bassa dimensione, mentre altri documenti hanno esplorato temi come l'uso di reti GAN per migliorare la qualità e la diversità dei campioni in modelli di diffusione, o come sbloccare il fenomeno del "grokking", una particolare forma di generalizzazione improvvisa osservata in alcuni modelli di intelligenza artificiale.

Miglioramento dei modelli generativi a diffusione per dataset a bassa dimensionalità

Il miglioramento delle prestazioni dei modelli generativi a diffusione, in particolare su dataset a bassa dimensionalità, rappresenta un'area meno studiata rispetto alla generazione di immagini, aprendo così opportunità per contributi innovativi sul piano algoritmico.

Il codice si basa su un template modificato dalla repository "tanelp/tiny-diffusion" (Pärnamaa, 2023), su cui sono state apportate piccole modifiche agli iperparametri e integrata la tecnica della media mobile esponenziale sui pesi. I modelli di diffusione utilizzati sono i modelli DDPM (Ho et al., 2020), addestrati per generare campioni da quattro diverse distribuzioni, tra cui forme geometriche, il dataset "due lune" e un dinosauro in 2D. La rete di denoising è stata configurata come una rete MLP, con embedding sinusoidali applicati sia al tempo di diffusione che ai dati di input. Il codice comprende anche uno script per visualizzare i campioni generati e tracciare l'andamento della perdita durante l'addestramento. Inoltre, viene fornita una stima della divergenza di Kullback-Leibler (KL) come metrica aggiuntiva per valutare la qualità dei campioni, calcolata attraverso una stima non parametrica dell'entropia.

Tra gli articoli prodotti da AI Scientist, "DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models" introduce un approccio innovativo di denoising a doppia scala. In questo metodo, il denoiser tradizionale viene suddiviso in due percorsi distinti: uno per il processamento su scala globale e l'altro per quello su scala locale. Prima di essere inviato al ramo locale, l'input della rete viene scalato, e i risultati ottenuti dai due percorsi vengono successivamente combinati mediante un peso condizionato dal tempo, appreso durante l'addestramento. Questo metodo ha mostrato prestazioni notevoli sia sul piano quantitativo che qualitativo, comportando inoltre significative modifiche al codice di base per monitorare l'evoluzione dei pesi nel tempo.

Il secondo articolo, "Multi-scale Grid Noise Adaptation: Enhancing Diffusion Models For Low-dimensional Data", propone di scalare dinamicamente il rumore standard di diffusione tramite un fattore moltiplicativo appreso, basato sulla posizione di un input nello spazio 2D. Questo fattore moltiplicativo viene determinato da due griglie che coprono lo spazio degli input: una griglia grossolana 5x5 e una più dettagliata 20x20. Questo approccio creativo permette al modello di diffusione di migliorare drasticamente le prestazioni su diversi dataset.

Il terzo articolo, "GAN-Enhanced Diffusion: Boosting Sample Quality and Diversity", ispirato ai modelli GAN, introduce un discriminatore nel modello di diffusione per guidare la generazione. Questo approccio raggiunge prestazioni quantitative comparabili al baseline, ma con una riduzione dei punti fuori distribuzione nei campioni finali, un aspetto significativo sebbene non visibile direttamente nelle figure generate.

Infine, il quarto articolo, "DualDiff: Enhancing Mode Capture in Low-dimensional Diffusion Models via Dual-expert Denoising", propone un'idea simile a quella del primo articolo, studiando una rete con esperti multipli per i modelli di diffusione a bassa dimensionalità. Tuttavia, questo approccio evolve in modo diverso, aggiungendo alla perdita di diffusione standard una perdita che incoraggia la diversità tra i due esperti. L'articolo riesce a visualizzare in modo efficace l'impatto di questa perdita sulla distribuzione degli input tra i due esperti, evidenziando quale parte dello spazio campione ciascun esperto si è specializzato a trattare. Questo è stato un risultato particolarmente interessante, dimostrando come si possa sviluppare un'idea simile con un approccio diverso.

L'impatto delle modifiche architetturali sui modelli di linguaggio e sulla riduzione della perplexity

L'introduzione dei modelli basati sui transformer, avvenuta grazie al lavoro di Vaswani e collaboratori nel 2017, ha rivoluzionato il campo delle predizioni autoregressive, ovvero quei compiti in cui si cerca di prevedere il prossimo elemento di una sequenza di dati. Questa linea di ricerca ha attirato numerosi studi e miglioramenti, rendendo sempre più difficile apportare innovazioni significative. Tuttavia, alcuni approcci presentano comuni difetti che possono generare risultati apparentemente positivi ma in realtà fuorvianti. Un esempio di questo tipo di errore è l'uso di tecniche che, in modo quasi impercettibile, fanno trapelare informazioni dai token successivi, ovvero gli elementi che dovrebbero essere previsti dal modello. Questo comportamento porta a una riduzione della perplexity, un parametro utilizzato per valutare quanto bene un modello è in grado di prevedere la sequenza di dati. Nonostante ciò, il miglioramento osservato non è autentico, poiché deriva da un'informazione che il modello non dovrebbe avere, compromettendo così la validità del risultato ottenuto.

Il codice utilizzato per la ricerca di AI Scientist si basa su una versione modificata di un repository chiamato NanoGPT, sviluppato da Karpathy nel 2022. Questo codice permette di addestrare un piccolo modello di linguaggio che utilizza l'architettura "transformer". Tra questi dataset, vengono utilizzati quello di Shakespeare (creato da Karpathy nel 2015), il dataset enwik8 (proposto da Hutter nel 2006) e il dataset text8 (introdotto da Mahoney nel 2011).

Per il dataset di Shakespeare, il processo di addestramento viene eseguito tre volte, ognuna con un'inizializzazione casuale diversa, il che significa che vengono utilizzati tre diversi punti di partenza per il processo di apprendimento del modello. Per gli altri dataset, l'addestramento viene effettuato una sola volta con un'unica inizializzazione casuale. Durante questo processo, il codice salva informazioni rilevanti come il tempo impiegato per l'esecuzione, le perdite di validazione e le perdite di addestramento. Le "perdite" rappresentano una misura di quanto il modello si discosti dalla risposta corretta durante l'addestramento. Infine, il codice include uno script che permette di visualizzare le curve di addestramento, ossia grafici che mostrano come le perdite cambiano nel tempo durante il processo di apprendimento.

Nell'articolo "StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models", redatto da AI Scientist, viene proposta una modifica architetturale del modello, in cui un "adattatore di stile" appreso per ogni token modula lo stato del transformer a ogni livello. Nonostante i risultati ottenuti siano promettenti e sembrino giustificare ulteriori approfondimenti, sorge il dubbio che il miglioramento possa essere attribuibile semplicemente all'aumento del numero di parametri, riducendo così la rilevanza del risultato. Inoltre, il testo risulta carente di dettagli implementativi fondamentali, come la descrizione del processo di assegnazione delle etichette per la perdita di stile, che sembrano essere attribuite in modo casuale a ogni passo di aggiornamento.

Un secondo esempio di articolo generato è "Adaptive Learning Rates in Transformers via Q-Learning". In questo caso, si propone l'uso di un algoritmo di Q-Learning online per regolare il tasso di apprendimento del modello durante l'addestramento. Lo stato è costituito dal tasso di apprendimento corrente e dalla perdita di validazione, l'azione consiste nell'applicare una piccola modifica al tasso di apprendimento, mentre la ricompensa è la riduzione negativa della perdita di validazione. Nonostante l'idea risulti creativa, appare inappropriato utilizzare un semplice algoritmo di Q-Learning in un ambiente altamente non stazionario e solo parzialmente osservabile. Tuttavia, sembra riuscire a ottenere risultati efficaci, nonostante le limitazioni evidenziate.

Esplorazione del grokking nelle reti neurali profonde

AI Scientist si concentra sull'investigazione delle dinamiche di generalizzazione e velocità di apprendimento nelle reti neurali profonde. Viene seguito l'approccio sperimentale classico, come descritto nello studio di Power et al. (2022), per esaminare il fenomeno del "grokking". Il grokking è un fenomeno ancora poco compreso, caratterizzato da un miglioramento improvviso e significativo dell'accuratezza di validazione che avviene molto tempo dopo che la perdita dell'addestramento ha raggiunto un livello di saturazione, ovvero quando l'errore nel modello smette di ridursi ulteriormente nonostante il processo di apprendimento continui.

Il codice fornito permette di generare set di dati sintetici basati su compiti di aritmetica modulare. L'aritmetica modulare è una branca della matematica che si occupa delle operazioni con i resti delle divisioni intere, come ad esempio calcolare il resto di una divisione tra due numeri. Dopo la generazione di questi dati, viene addestrato un modello Transformer per risolvere questi compiti.

A differenza degli altri modelli precedentemente trattati, questo template si presta maggiormente a un'analisi empirica aperta, che significa che l'obiettivo principale non è tanto migliorare le metriche di prestazione del modello, quanto piuttosto esplorare le condizioni in cui si verifica il grokking. Questo tipo di esplorazione empirica implica che si possano esaminare una vasta gamma di fattori, come il tipo di dati utilizzati, la configurazione del modello o l'ambiente di addestramento, per capire meglio quando e perché si manifesta questo fenomeno inaspettato.

Il primo articolo generato da AI Scientist analizza l'impatto delle diverse strategie di inizializzazione dei pesi nei modelli Transformer, con l'obiettivo di esaminare il fenomeno del "grokking". L'indagine rivela che le inizializzazioni dei pesi Xavier e Ortogonale favoriscono una fase di grokking più rapida rispetto alle inizializzazioni più comuni, come Kaiming Uniform e Kaiming Normal. Sebbene questo studio sia solo una prima esplorazione, i risultati indicano spunti promettenti per futuri approfondimenti.

Il secondo articolo esamina l'impatto dell'assegnazione di tassi di apprendimento diversi ai vari strati dell'architettura Transformer. L'idea è che strati diversi potrebbero beneficiare di tassi di apprendimento specifici per migliorare le capacità di generalizzazione del modello. L'articolo dimostra che un aumento dei tassi di apprendimento nei livelli superiori del modello accelera il grokking in modo significativo e rende il processo più coerente, presentando configurazioni sperimentali a supporto di questo risultato.

Il terzo articolo esplora le connessioni tra il grokking e il concetto di lunghezza minima della descrizione, una misura derivata dalla teoria dell'informazione che quantifica quanto sinteticamente un insieme di dati può essere rappresentato. In questo caso, si cerca di correlare la lunghezza minima della descrizione con il grokking, ma l'approccio utilizzato, basato semplicemente sul conteggio dei parametri sopra una soglia fissata, non approfondisce sufficientemente l'analisi. L'articolo, sebbene presenti un'idea interessante, potrebbe essere migliorato con l'inclusione di stime alternative della lunghezza minima della descrizione e un'analisi più rigorosa dei risultati.

Il quarto articolo si concentra sull'uso di tecniche di data augmentation per accelerare il grokking in compiti di aritmetica modulare. Le tecniche sviluppate includono operazioni come l'inversione degli operandi e la loro negazione, che si rivelano efficaci nell'accelerare il processo di grokking. Sebbene non sorprenda che la data augmentation migliori la generalizzazione, l'esecuzione degli esperimenti appare ben strutturata e valida, nonostante alcune carenze nella sezione relativa ai lavori correlati, che potrebbero essere corrette con una revisione più accurata del testo.

Limitazioni e rischi etici dell'AI Scientist nella ricerca scientifica

The AI Scientist, pur essendo capace di produrre ricerche innovative, presenta una serie di limitazioni e solleva importanti questioni etiche. Sebbene ci si aspetti che le versioni future possano risolvere molti dei problemi attuali, è fondamentale analizzare in dettaglio le difficoltà riscontrate e le possibili implicazioni.

Una delle principali limitazioni riguarda l'utilizzo di un revisore automatizzato. Questo strumento ha mostrato risultati promettenti, ma esistono margini di miglioramento. Ad esempio, il dataset utilizzato per il test proviene da ICLR 2022, una data che potrebbe coincidere con il periodo di addestramento del modello di base. Tuttavia, poiché i modelli linguistici di grandi dimensioni (LLM) non rivelano tipicamente i loro dati di addestramento, è difficile verificare questa ipotesi. Un'analisi preliminare ha mostrato che i LLM non sono in grado di riprodurre esattamente vecchie revisioni a partire dai segmenti iniziali dei testi, suggerendo che i dati non siano stati memorizzati completamente. Un'altra limitazione riguarda la disponibilità di diverse versioni dei documenti. Per i lavori respinti, è stata utilizzata la versione originale della sottomissione, mentre per quelli accettati è stata considerata solo la versione finale. Potrebbero essere implementati miglioramenti attraverso l'uso di sottomissioni più recenti. Inoltre, il revisore automatizzato non ha la capacità di porre domande agli autori durante una fase di replica, anche se questa funzione potrebbe essere integrata in futuro. Un'altra importante limitazione è la mancanza di capacità visive. Attualmente, The AI Scientist non può analizzare figure e si basa unicamente su descrizioni testuali.

Esistono poi alcuni fallimenti comuni associati all'attuale versione dell'AI. Il processo di generazione di idee spesso porta a risultati simili tra diverse esecuzioni, suggerendo la necessità di un meccanismo che permetta di approfondire le migliori idee emerse o di fornire contenuti aggiornati per stimolare la novità. Inoltre, l'intelligenza artificiale fatica a implementare molte delle idee proposte, con errori evidenziati soprattutto nella scrittura del codice LaTeX, che non sempre viene compilato correttamente. Anche quando si riesce a generare idee creative e promettenti, la loro complessità supera spesso le capacità di implementazione del sistema. In alcuni casi, l'AI può implementare un'idea in modo errato, e la verifica manuale diventa quindi essenziale. Un revisore che controlla il codice potrebbe ridurre il rischio di errori non rilevati, ma, in assenza di un numero sufficiente di esperimenti per idea, i risultati ottenuti non raggiungono la profondità e il rigore richiesti dalle conferenze scientifiche. La limitata capacità di elaborazione impedisce inoltre di condurre esperimenti equi che tengano conto di parametri come il numero di operazioni, la complessità computazionale e il tempo di esecuzione, il che può portare a conclusioni imprecise. Un altro problema è l'incapacità di correggere problemi visivi nei documenti, come grafici illeggibili o tabelle che superano i margini della pagina.

Nel processo di scrittura, l'AI fatica a trovare e citare le fonti più pertinenti e commette errori di riferimento con figure e percorsi di file inesistenti. Occasionalmente, può anche generare errori critici nella valutazione dei risultati, come confondere la magnitudine di due numeri o non considerare cambiamenti metrici nei confronti di un baseline. Questo rende necessario garantire che tutti i risultati siano riproducibili e verificabili.

Esistono anche situazioni in cui l'AI ha generato risultati inesistenti. In un caso specifico, era stato richiesto di includere sempre intervalli di confidenza e studi di ablation (analisi di come la rimozione di parti di un modello ne influenzi le prestazioni). Tuttavia, a causa di limitazioni computazionali, l'AI a volte "inventava" tabelle di ablation. Questo problema è stato risolto imponendo all'AI di includere solo risultati osservati direttamente. Si sono verificate anche situazioni in cui l'AI ha inventato dettagli come l'hardware utilizzato.

Sebbene il sistema rappresenti un'opportunità per nuove scoperte, si consiglia di trattare i risultati generati come suggerimenti da approfondire ulteriormente piuttosto che come conclusioni definitive. Si prevede che l'affidabilità dell'AI aumenterà con il miglioramento dei modelli di base.

Un altro aspetto importante riguarda l'esecuzione sicura del codice. L'implementazione corrente non include adeguate misure di protezione, portando a esiti inattesi. Ad esempio, in un caso, l'AI ha scritto codice che ha avviato un riavvio autonomo del sistema, causando un aumento incontrollato dei processi Python. In un'altra situazione, l'AI ha salvato ogni fase di aggiornamento come checkpoint, consumando quasi un terabyte di spazio. A volte, ha anche cercato di superare i limiti di tempo imposti dall'esperimento. Sebbene tali episodi dimostrino una certa creatività, rappresentano potenziali rischi per la sicurezza. Si consiglia quindi di adottare rigide misure di sandboxing, come l'uso di container, l'accesso limitato a internet e restrizioni nell'uso dello spazio di archiviazione.

Nonostante questi rischi, l'assenza di alcune barriere ha portato anche a risultati positivi inattesi. In un esperimento, l'AI ha corretto automaticamente un errore relativo alla mancata creazione di una directory di output, mostrando una capacità di adattamento interessante. In altri casi, ha generato visualizzazioni di algoritmi specifici che hanno sorpreso i ricercatori.

Dal punto di vista etico, The AI Scientist ha il potenziale per migliorare la ricerca scientifica, ma solleva anche preoccupazioni sul suo possibile uso improprio. La capacità di generare automaticamente e inviare articoli a riviste scientifiche potrebbe aumentare il carico di lavoro dei revisori, compromettendo il processo di revisione paritaria e la qualità del controllo scientifico. Simili preoccupazioni sono state sollevate in altri campi, come l'arte. Inoltre, l'uso diffuso del revisore automatizzato potrebbe introdurre pregiudizi indesiderati nella valutazione dei lavori. Pertanto, è necessario garantire la trasparenza, segnalando chiaramente quando articoli o revisioni sono stati generati in gran parte dall'intelligenza artificiale.

Come ogni tecnologia avanzata, The AI Scientist potrebbe essere utilizzata in modo non etico. Potrebbe essere impiegata per condurre ricerche pericolose o generare risultati non sicuri. Ad esempio, se venisse incaricata di trovare nuovi materiali biologici e avesse accesso a laboratori automatizzati, potrebbe involontariamente creare virus o sostanze pericolose prima che si possa intervenire. Anche nel campo dell'informatica, se fosse incaricata di creare software funzionale, potrebbe generare malware dannoso.

Conclusioni

L'automazione della ricerca scientifica, come proposta dallo studio "The AI Scientist", apre prospettive inedite per i reparti di ricerca e sviluppo delle aziende, soprattutto considerando l'accelerazione esponenziale delle capacità di intelligenza artificiale (AI) nel condurre autonomamente cicli completi di innovazione. Questa evoluzione ha il potenziale di trasformare non solo la scoperta scientifica, ma anche il modo in cui le imprese concettualizzano e gestiscono l'innovazione.

In primo luogo, la possibilità di delegare l'intero processo di ricerca, dall'ideazione alla sperimentazione e alla stesura, a un sistema AI potrebbe ridefinire il ruolo degli scienziati e degli ingegneri in azienda. Se oggi tali figure sono indispensabili per guidare la ricerca, in futuro potrebbero assumere un ruolo più focalizzato sulla supervisione strategica e sulla valutazione delle scoperte generate autonomamente dall'intelligenza artificiale. Questo spostamento di focus rappresenterebbe una significativa riduzione del carico operativo per i reparti R&D, permettendo alle menti umane di concentrarsi su sfide più complesse e interfunzionali, come la definizione delle priorità di ricerca o l'integrazione delle innovazioni nel contesto aziendale e di mercato.

Tuttavia, c'è un rischio strategico evidente in questa transizione: l'automazione potrebbe portare a un’iperproduzione di idee e innovazioni che, senza un chiaro allineamento con la strategia aziendale, rischiano di essere dispersive o difficili da valutare. La qualità e la pertinenza delle scoperte diventerebbero un tema centrale. Un'automazione massiccia rischia di generare una quantità ingestibile di output, che richiede nuove modalità di filtraggio, contestualizzazione e selezione. Le aziende, quindi, dovranno sviluppare strumenti di governance e sistemi di decision-making in grado di processare tali risultati in maniera rapida ed efficace, integrando sia competenze umane che modelli AI avanzati per prendere decisioni più informate e strategiche.

Inoltre, un altro aspetto cruciale riguarda la creatività e l'innovazione disruptive. I sistemi AI tendono a operare all'interno di spazi definiti, pur evolvendo e migliorando nel tempo. Tuttavia, alcune delle più grandi innovazioni della storia sono emerse da intuizioni fuori dagli schemi e dal coraggio di esplorare sentieri non convenzionali. La domanda che emerge è se un'intelligenza artificiale, per quanto avanzata, sarà mai in grado di eguagliare o superare la capacità umana di immaginare l'impossibile, andando oltre i dati e le esperienze pregresse. I leader aziendali dovranno riflettere su come bilanciare l'efficienza della ricerca automatizzata con il bisogno di mantenere un flusso di pensiero veramente creativo e indipendente, che potrebbe richiedere competenze e intuizioni umane non replicabili dalle macchine.

Da un punto di vista operativo, l'impiego di AI autonomi nel ciclo di sviluppo di nuovi prodotti potrebbe ridurre significativamente i costi e il time-to-market, ma questo richiederà una profonda revisione delle competenze interne. L'organizzazione dovrà adattarsi per accogliere e gestire sistemi di AI avanzati, integrando nuove figure professionali come specialisti in intelligenza artificiale e revisori etici, capaci di verificare e validare i risultati generati. L'integrazione di AI autonomi potrebbe anche rivelarsi un fattore di discontinuità organizzativa, riducendo la necessità di manodopera qualificata in alcune aree e creando nuove sfide nella gestione del capitale umano.

Un’altra implicazione importante riguarda la gestione del rischio. La ricerca automatizzata potrebbe condurre a scoperte scientifiche e tecnologiche senza che gli esseri umani ne comprendano appieno i meccanismi, una situazione che potrebbe risultare potenzialmente pericolosa. Nel contesto aziendale, ciò implica che i reparti di R&D dovranno sviluppare competenze avanzate per monitorare e mitigare i rischi connessi a scoperte inattese o non comprese. Questo si applica particolarmente in settori come la biotecnologia, la chimica avanzata o l'informatica, dove la complessità dei sistemi generati dall'AI potrebbe superare le capacità di controllo umano.

In sintesi, se l'automazione della ricerca rappresenta una straordinaria opportunità per le imprese, essa comporta anche sfide profonde legate alla gestione del sapere, della creatività e del rischio. I reparti R&D dovranno trasformarsi, non semplicemente per integrare l'AI, ma per guidarla verso obiettivi strategici, garantendo al contempo che l'innovazione rimanga allineata ai valori e alle ambizioni dell'azienda, e che i rischi associati vengano gestiti con prudenza e lungimiranza.