LLM e la comprensione semantica del codice

Charles Jin e Martin Rinard, nel loro studio "Emergent Representations of Program Semantics in Language Models Trained on Programs", dimostrano che i modelli linguistici (LMs) possono sviluppare una comprensione semantica formale dei programmi, nonostante siano addestrati solo per la previsione del token successivo. Utilizzando un modello di Transformer addestrato su programmi che navigano ambienti a griglia bidimensionale, gli autori esplorano se il modello possa apprendere gli stati intermedi del programma, anche se questi non sono esplicitamente forniti durante l'addestramento.

Il risultato è sorprendente: i LMs sviluppano rappresentazioni emergenti degli stati semantici del programma, suggerendo una capacità di interpretazione astratta. Questa scoperta sfida l'ipotesi che i LMs producano solo correlazioni statistiche superficiali, supportando invece l'idea che possano acquisire una comprensione semantica profonda. Gli autori introducono anche una tecnica innovativa di intervento per distinguere tra ciò che il modello rappresenta effettivamente e ciò che viene appreso dai classificatori (probe), dimostrando che le rappresentazioni semantiche emergenti sono intrinsecamente parte del modello.

Questo lavoro apre nuove prospettive sull'uso dei LMs in applicazioni complesse, suggerendo che i modelli di linguaggio potrebbero essere in grado di comprendere e generare codice con una precisione semantica molto maggiore di quanto finora ritenuto possibile. Se i LMs possono apprendere significati formali tramite la sola previsione del prossimo token, si potrebbe estendere questa capacità ad altri domini complessi, rendendo questi strumenti ancora più potenti e versatili.

LLM e l'evoluzione dell'automazione del software verso una comprensione semantica del codice

I modelli linguistici hanno compiuto notevoli progressi nel migliorare le loro capacità in una vasta gamma di compiti applicativi, con un'attenzione particolare alle competenze nei linguaggi di programmazione. L'evoluzione di modelli recenti come GPT-4, Code Llama, Gemini e Claude 3 ha reso possibile l'adozione diffusa dei modelli linguistici nei flussi di lavoro degli sviluppatori, grazie a prodotti commerciali accessibili a un vasto pubblico. Questi modelli offrono funzionalità avanzate, come il completamento automatico del codice, l'assistenza nel debugging, la generazione di documentazione e messaggi di commit, che sono brevi descrizioni delle modifiche apportate al codice durante lo sviluppo. Inoltre, supportano la scrittura di casi di test, ovvero piccoli programmi utilizzati per verificare che il codice funzioni correttamente. Questi strumenti stanno diventando sempre più integrati nei flussi di lavoro quotidiani, migliorando l'efficienza e la qualità del lavoro degli sviluppatori.

Nonostante i risultati ottenuti, una questione cruciale ancora aperta riguarda la capacità degli attuali LMs di comprendere effettivamente le semantiche del testo che analizzano e generano. Una delle ipotesi, che adotta una visione unificata dei domini linguistici naturali e di programmazione, suggerisce che i LMs, addestrati unicamente sulla forma (ad esempio, per modellare la distribuzione condizionale dei token in un corpus di addestramento), producano testo basandosi solo su correlazioni statistiche superficiali derivate dai dati di addestramento. Secondo questa teoria, qualsiasi comportamento apparentemente sofisticato sarebbe imputabile esclusivamente alla scala del modello e alla quantità di dati di addestramento utilizzati.

Nel lavoro di Charles Jin e Martin Rinard si analizza come i Language Models (LMs) specializzati nel codice riescano ad apprendere aspetti semantici quando vengono addestrati utilizzando un pretraining standard basato su testo. L'indagine si concentra sull'ipotesi principale (MH), secondo la quale i LMs focalizzati sul codice, addestrati unicamente con l'obiettivo di prevedere il token successivo nel testo, non sono in grado di catturare le semantiche formali del linguaggio di programmazione sottostante. Questo metodo di addestramento dovrebbe quindi limitare la capacità dei modelli di cogliere le regole semantiche profonde che regolano i linguaggi di programmazione, diminuendo così la loro abilità nel generare o interpretare codice con una comprensione semantica profonda.

Per verificare questa ipotesi, si utilizza il language modeling per generare programmi informatici a partire da una descrizione parziale del loro comportamento, fornita attraverso esempi di input e output. L'obiettivo è determinare se un modello linguistico, addestrato su testi che descrivono solo come i programmi devono comportarsi in base agli input e output, possa anche comprendere gli stati intermedi del programma durante la sua esecuzione, seguendo le regole operative passo dopo passo.

Per monitorare il comportamento interno del modello mentre lavora, si utilizzano strumenti semplici come i classificatori. Questo permette di osservare se il modello è in grado di rappresentare i vari passaggi che un programma compie per arrivare al risultato finale, valutando la sua capacità di seguire l'evoluzione del processo operativo durante l'esecuzione.

Nonostante il testo del corpus di addestramento codifichi unicamente il comportamento input-output, si osserva che la capacità del classificatore di estrarre stati intermedi subisce una transizione di fase durante l'addestramento. Questa transizione di fase risulta fortemente correlata con la capacità del LM di generare un programma corretto in risposta a specifiche mai viste prima. Inoltre, vengono presentati i risultati di un esperimento d'intervento innovativo, che indicano che le semantiche sono effettivamente rappresentate dal LM stesso, piuttosto che apprese dal classificatore.

Semantica formale e tracciamento nel coding: dall'analisi alla sintesi dei programmi

La semantica formale è un tema fondamentale nella teoria dei linguaggi di programmazione e riguarda lo studio di come specificare formalmente il significato dei programmi. In questo contesto, si utilizza la semantica a piccoli passi (Plotkin, 1981) per generare tracce di programmi (Cousot, 2002). Una traccia, data un'assegnazione di valori alle variabili di input, è la sequenza di stati intermedi attraversati dal programma durante la sua esecuzione. Pertanto, a un programma (sintattico) può essere formalmente assegnato un significato (semantico), definito dall'insieme di tutte le sue tracce.

Il tracciamento come modello di semantica dei programmi è particolarmente utile perché si presta bene all'analisi formale ed è strettamente collegato alla comprensione del codice, specialmente per i programmatori alle prime armi. La capacità di tracciare accuratamente un codice è stata associata direttamente alla capacità di spiegare il codice stesso (Lopez et al., 2008; Lister et al., 2009). Inoltre, l'educazione in informatica ha enfatizzato il tracciamento come metodo per sviluppare la comprensione dei programmi e individuare errori di ragionamento (Hertz & Jump, 2013; Sorva, 2013). Anche i programmatori esperti si affidano al tracciamento, sia come processo mentale (Letovsky, 1987) che tramite debugger basati sulle tracce.

L'interpretazione astratta (Cousot & Cousot, 1977) è una tecnica utilizzata per produrre approssimazioni corrette della semantica concreta dei programmi. Ad esempio, per l'operatore di moltiplicazione × sui numeri interi Z, si potrebbe definire un'interpretazione astratta α che mappa ogni numero intero al suo segno: α : Z → {−, 0, +}. In questo lavoro, l'interpretazione astratta viene utilizzata per stabilire un collegamento preciso e formale tra gli stati concreti del programma e quelli astratti misurati negli esperimenti.

Per comprendere meglio il concetto, si può immaginare di osservare un paesaggio attraverso una finestra colorata. La finestra, con i suoi vetri di diversi colori, rappresenta l'interpretazione astratta: essa non ci mostra i dettagli precisi di ogni singolo elemento del paesaggio, ma ci offre una visione d'insieme, evidenziando solo le caratteristiche principali, come i contorni delle montagne o le aree di luce e ombra. Analogamente, l'interpretazione astratta non si preoccupa dei valori numerici esatti, ma si concentra sulle proprietà fondamentali di questi, come il segno di un numero. In questo modo, il concetto complesso della semantica concreta viene semplificato, permettendo di analizzare il programma in modo più efficiente e comprensibile, mantenendo comunque un legame preciso con la realtà del codice esaminato.

Addestramento di modelli transformer per la sintesi di programmi nel dominio Karel

Il dominio Karel è un ambiente di programmazione educativa sviluppato a Stanford negli anni '70 (Pattis, 1994), ancora oggi impiegato nei corsi introduttivi di programmazione (Piech & Roberts, gennaio 2019; CS106A, 2023). In questo contesto, un robot chiamato Karel si muove in un mondo bidimensionale a griglia, interagendo con ostacoli e raccogliendo o posizionando segnalini. Dal lavoro di Devlin et al. (2017), Karel è stato adottato come benchmark standard dalla comunità di sintesi di programmi (Bunel et al., 2018; Shin et al., 2018; Sun et al., 2018; Chen et al., 2019; 2021b). In tale ambito, vengono forniti esempi di input-output, e il compito consiste nel generare un programma che mappi correttamente ogni griglia di input alla sua corrispondente griglia di output.

Il mondo di Karel è costituito da una griglia 8x8 con quattro tipi di token: il robot, rappresentato graficamente da una freccia che indica la direzione verso cui è rivolto (rosso); i segnalini (blu); gli ostacoli (marrone); e gli spazi vuoti (grigio). Il linguaggio di programmazione prevede cinque operazioni: "move", che sposta il robot di uno spazio nella direzione in cui è rivolto, se non ci sono ostacoli; "turnRight" e "turnLeft", che fanno girare il robot rispettivamente a destra e a sinistra; "putMarker" e "pickMarker", che aumentano o diminuiscono il numero di segnalini nello spazio occupato dal robot (senza effetto se i segnalini sono già al massimo di 10 o al minimo di 0). Il robot copre i segnalini nello spazio che occupa, senza che ciò influenzi la correttezza del programma. I programmi sono costituiti esclusivamente da sequenze lineari di operazioni, poiché non è previsto il controllo del flusso, e ogni operazione produce un unico stato del programma.

Per la creazione del set di dati sintetici, il set di addestramento comprende 500.000 programmi Karel campionati casualmente, con lunghezze variabili tra 6 e 10 operazioni. Per ogni programma, vengono generate casualmente 5 griglie come input e il programma viene eseguito per produrre le corrispondenti 5 griglie di output. Le rappresentazioni testuali delle griglie sono create scansionando la griglia riga per riga, con un token per ciascun spazio della griglia. Ogni campione di addestramento consiste nella concatenazione degli stati di input-output delle 5 griglie (la specifica), seguita dal programma di riferimento. Il compito di modellazione del linguaggio consiste nel prevedere un programma a partire da una specifica (parziale) espressa come stati di input-output delle griglie. È importante sottolineare che (1) il set di addestramento include solo programmi che soddisfano correttamente le specifiche fornite e (2) gli stati intermedi della traccia del programma non sono visibili nei dati di addestramento. È inoltre generato un set di test composto da 10.000 specifiche nello stesso modo, con programmi di riferimento aventi lunghezze da 1 a 10 operazioni.

Per addestrare un modello di linguaggio (LM) per la sintesi di programmi, è stato utilizzato un Transformer standard (Vaswani et al., 2017) per la previsione del token successivo sul set di dati. In particolare, è stata addestrata una variante del modello CodeGen con 350 milioni di parametri (Nijkamp et al., 2023) disponibile nella libreria HuggingFace Transformers (Wolf et al., 2020), partendo dall'inizializzazione su un totale di circa 2,5 miliardi di token.

Acquisizione di sintassi e semantica nei LLM per la sintesi di codice

Per valutare la capacità del modello linguistico di sintetizzare programmi, l’LM è utilizzato per generare testo a partire da una specifica, impiegando una decodifica greedy vincolata ai token di programma, garantendo così che il testo generato sia un programma sintatticamente corretto. Un programma è considerato corretto se per ogni input della specifica restituisce l'output corrispondente; l'accuratezza generativa è definita come la percentuale di programmi corretti sul set di test. Al termine dell'addestramento, l’LM raggiunge un'accuratezza generativa del 92,4% dimostrando la robustezza del modello.

Oltre alle metriche standard, vengono monitorate due metriche aggiuntive legate alla sintassi degli output del modello linguistico: il numero di programmi unici generati dal modello sul set di test e la perplexity, che misura l'incertezza del modello nel prevedere i prossimi token, su diversi sottoinsiemi di token nel set di test. Dai test emerge che la perplexity complessiva migliora nel corso dell'intero ciclo di addestramento, segnalando che le dinamiche di apprendimento rimangono stabili.

Sono state osservate tre fasi distinte durante l'addestramento: nella fase iniziale (fino al 50% dell'addestramento), i programmi generati risultano spesso altamente ripetitivi, con un plateau della perplexity sui programmi di riferimento che inizia intorno al 20%. L'accuratezza generativa rimane costante intorno al 10%. La fase successiva (dal 50% al 75% dell'addestramento) mostra un netto aumento nella diversità degli output generati, con una corrispondente diminuzione della perplexity sui programmi di riferimento, indicando che il LM inizia a modellare i token del programma, con un modesto incremento dell'accuratezza generativa (dal 10% al 25%). Nella fase finale (dal 75% fino al termine dell'addestramento), la diversità dei programmi generati rimane approssimativamente costante, mentre la perplexity sui programmi di riferimento continua a migliorare al ritmo precedente. Al contrario, l'accuratezza generativa del LM aumenta rapidamente, passando dal 25% a oltre il 90%. Pertanto, la fase intermedia è caratterizzata dal cambiamento più significativo nelle proprietà sintattiche delle generazioni del LM, mentre la fase finale è contraddistinta da un rapido miglioramento nella capacità del LM di generare output semanticamente corretti. Queste due fasi sono quindi identificate rispettivamente con l'acquisizione della sintassi e l'acquisizione della semantica.

Infine, è ragionevole che la perplexity dei programmi generati risulti inferiore rispetto a quella dei programmi di riferimento, in quanto viene utilizzata una decodifica greedy che guida la generazione verso token specifici del programma, garantendo così la correttezza sintattica. Tuttavia, la presenza di una differenza stabile e continuativa tra la perplexity dei programmi generati e quella dei programmi di riferimento rivela che il modello linguistico non sfrutta appieno i token dei programmi presenti nei dati di addestramento. Questa discrepanza costante, nonostante un incremento nell'accuratezza con cui il modello produce programmi corretti, indica che l'efficacia del modello nel rappresentare la varietà e la distribuzione completa dei token di programma non è l'unico fattore che contribuisce al miglioramento delle sue prestazioni generative.

Come i LLM e la comprensione semantica del codice

Per esplorare la rappresentazione della semantica nei modelli linguistici (LM), vengono addestrati piccoli classificatori, detti "probes", per estrarre informazioni sullo stato del programma a partire dagli stati nascosti del modello. L'approccio consiste nell’indurre il modello a generare un programma dato un insieme di input, e successivamente verificare se gli stati del modello contengono una rappresentazione degli stati intermedi del programma durante la generazione. Un risultato positivo suggerirebbe che il modello ha appreso a rappresentare la semantica sottostante dei programmi che genera, fornendo quindi un'indicazione contro l'ipotesi che il modello non comprenda tali semantiche.

Per verificare la presenza di rappresentazioni dello stato del programma, è stata costruita una traccia di dati ogni 4000 passi di addestramento, pari circa al 5% del totale. In ogni snapshot, vengono catturati (1) gli stati nascosti del modello mentre genera programmi utilizzando la previsione del token successivo e (2) gli stati corrispondenti del programma ottenuti valutando il programma parziale su ognuno dei cinque input specificati. Questo processo parte da una specifica input-output e segue un ciclo autoregressivo standard. Durante questo ciclo: ogni stato del modello linguistico viene aggiornato in base all'input, all'output e agli stati precedenti; il modello genera quindi un nuovo token attraverso una procedura di decodifica greedy (che sceglie il token con la probabilità più alta), e infine, il token generato viene eseguito sullo stato corrente del programma. Questo ciclo si ripete fino a un massimo di 14 token o fino a quando il modello non produce un token speciale di fine sequenza,

Per semplificare l'analisi, si calcola la media degli stati nascosti lungo la dimensione dei layer del modello, ottenendo così uno stato rappresentato da un vettore unidimensionale di dimensione 1024, definito come "stato del modello". Questo processo viene ripetuto sia per il set di addestramento che per il set di test, producendo due dataset di tracce contenenti coppie allineate di stati del modello e stati del programma, provenienti dai programmi generati dalle specifiche nei rispettivi set.

Per ogni dataset di addestramento delle tracce, vengono addestrati una serie di probes, che possono variare da semplici modelli lineari a reti neurali con 2 layer, per prevedere alcune caratteristiche dello stato del programma a partire dallo stato del modello, utilizzando l'apprendimento supervisionato standard. Le caratteristiche considerate includono (1) la direzione verso cui è rivolto un robot, (2) la posizione del robot come scostamento dalla posizione di partenza, e (3) la presenza o meno di un ostacolo di fronte al robot. Queste caratteristiche sono un'astrazione dello stato completo del programma e vengono definite collettivamente come "stato astratto". Successivamente, l'accuratezza dei probes viene valutata sul dataset di test corrispondente, e il contenuto semantico viene definito come la media geometrica delle accuratezze sui tre attributi. Questo metodo misura, in maniera precisa, il grado in cui gli stati del modello codificano un'interpretazione astratta delle semantiche formali dei programmi.

Il processo descritto può essere paragonato a un detective che cerca di ricostruire i pensieri di un autore mentre scrive un libro. Immagina che l'autore stia scrivendo una storia passo dopo passo, scegliendo le parole e le frasi in base a ciò che ha già scritto e a dove vuole portare la trama. Ogni parola scelta rappresenta un passo nel pensiero dell'autore. Il detective, per capire se l'autore ha una chiara idea della trama, osserva ogni parola che viene scritta e cerca di indovinare quale sarà il prossimo passo nella storia e quale sarà lo stato d'animo del protagonista in quel momento.

Allo stesso modo, il modello linguistico genera un programma token per token, e i probes agiscono come il detective: cercano di estrarre dai passaggi del modello (gli stati nascosti) indizi che possano rivelare il pensiero del modello (la semantica del programma) mentre lo sta generando. Se il detective riesce a ricostruire correttamente il pensiero dell'autore dalla storia, si può concludere che l'autore aveva un piano ben definito e una comprensione chiara della trama. Analogamente, se i probes riescono a prevedere accuratamente gli stati del programma dai passaggi del modello, si può dedurre che il modello linguistico comprende davvero la semantica dei programmi che sta generando, piuttosto che limitarsi a generare sequenze di parole senza un significato sottostante.

Dalla sintassi alla semantica nei modelli linguistici con probing avanzato

Analizzando i risultati e prendendo in considerazione diverse ipotesi aggiuntive, inclusa quella che il contenuto semantico prodotto dal modello linguistico derivi da un processo di recupero di informazioni, ovvero che il modello stia richiamando stati astratti dai dati osservati in precedenza, si evidenzia che l'emergere della semantica è strettamente legato all'accuratezza generativa, come confermato dai risultati degli esperimenti di probing.

Una prima osservazione evidenzia che il contenuto semantico durante la fase iniziale, detta fase di "babbling", è estremamente rumoroso. Questo rumore può essere attribuito alla mancanza di diversità negli output del modello, per cui il probing deve adattarsi solo a un insieme triviale di semantica. Ad esempio, circa al 20% del percorso di addestramento, il modello tende a degenerare generando un unico programma composto da 9 token "PICKMARKER", indipendentemente dalla specifica. Al contrario, tutti e tre i probes raggiungono un minimo durante la fase di acquisizione della sintassi (quando gli output del modello diventano più vari) e aumentano progressivamente durante la fase di acquisizione della semantica. Questo risultato è coerente con la proposta che gli stati nascosti del modello contengano effettivamente codifiche, seppur relativamente superficiali, dello stato astratto, e che queste rappresentazioni emergano all'interno di un modello addestrato esclusivamente per la previsione del token successivo in un testo. La regressione dell'accuratezza generativa rispetto al contenuto semantico durante la seconda metà dell'addestramento mostra correlazioni lineari forti e statisticamente significative (con un R² di 0,904, 0,886 e 0,821 rispettivamente per i probes lineare, a 1 layer MLP e a 2 layer MLP, con p < 0,001).

Le rappresentazioni sono predittive degli stati futuri del programma. Successivamente, si esplora se il modello addestrato codifichi la semantica di testo non ancora generato. In particolare, vengono addestrati probes per predire stati astratti futuri a partire dagli stati del modello. Viene mostrato quanto un MLP a 1 layer sia in grado di predire stati astratti a 1 e 2 passi nel futuro. Come nei risultati precedenti, la performance del probe raggiunge un minimo durante l'acquisizione della sintassi, per poi aumentare nel resto dell'addestramento. Si riscontra inoltre una forte correlazione tra il contenuto semantico degli stati futuri e l'accuratezza generativa nella seconda metà dell'addestramento; la regressione del contenuto semantico rispetto all'accuratezza generativa mostra un R² di 0,878 e 0,874 (p < 0,001) rispettivamente per 1 e 2 stati astratti nel futuro.

I risultati del probing alla fine dell'addestramento vengono confrontati con una baseline che semplicemente predice lo stato astratto corrente per tutti gli stati futuri astratti (il che rappresenta il predittore ottimale bayesiano in assenza di informazioni sugli stati futuri). Si osserva che (1) l'accuratezza della baseline si degrada più rapidamente rispetto al probe, il che suggerisce che i probes non stiano semplicemente utilizzando le codifiche dello stato corrente per predire gli stati futuri, e (2) l'accuratezza assoluta a 2 stati nel futuro è maggiore utilizzando il probe a 2 layer MLP rispetto alla baseline. Questi risultati suggeriscono che il modello codifichi informazioni su ciò che intende generare prima che la generazione avvenga.

I risultati ottenuti possono essere paragonati al processo di apprendimento di un bambino che inizia a parlare. All'inizio, il modello è come un bambino nella fase di "babbling", in cui i suoni emessi sono confusi e privi di significato chiaro, simili a parole sconnesse che non seguono una logica precisa. Questa fase è caratterizzata da una produzione semantica estremamente rumorosa, dove le uscite del modello sono poco diversificate e si concentrano su risposte ripetitive e poco articolate, come il modello che ripete insistentemente un singolo programma con token identici.

Con il progredire dell'addestramento, il modello entra in una fase paragonabile all'acquisizione del linguaggio del bambino: inizia a distinguere le parole, apprende la sintassi, e le sue uscite diventano progressivamente più diversificate e articolate. È come se il bambino iniziasse a comprendere non solo come formare le frasi, ma anche come utilizzarle per esprimere idee più complesse e specifiche. In questa fase, i probes mostrano un miglioramento significativo nel rilevare codifiche semantiche negli stati del modello, riflettendo una crescita nella capacità di rappresentare stati astratti che va oltre la semplice ripetizione meccanica.

Alla fine, il modello raggiunge una maturità paragonabile a quella di un bambino che ha appreso non solo a parlare, ma anche a prevedere ciò che dirà successivamente in base al contesto. Come un bambino che inizia a prevedere le proprie parole e a formulare frasi complete prima ancora di pronunciarle, il modello riesce a codificare informazioni sugli stati futuri e ad anticipare il contenuto delle sue uscite. Questa capacità predittiva si manifesta chiaramente nel fatto che i probes non si limitano a utilizzare lo stato attuale per predire il futuro, ma mostrano una comprensione più profonda delle sequenze che devono ancora essere generate.

In sintesi, proprio come un bambino che apprende ed evolve nella sua capacità di comunicare in modo sempre più sofisticato, il modello linguistico dimostra una crescita nell'acquisizione della semantica e della sintassi, passando da una fase iniziale di esplorazione disordinata a una fase finale di previsione e codifica precisa delle informazioni.

Esperimento innovativo su apprendimento semantico con probes nei LLM

Si considera la possibilità che il significato semantico non sia appreso dal modello linguistico (LM), ma piuttosto dal meccanismo di analisi (probe). Ad esempio, poiché il probe viene esplicitamente addestrato su stati intermedi, è plausibile che gli stati del modello codifichino gli input e mantengano una traccia dei token del programma generato, consentendo al probe di interpretare i token singolarmente. In un senso più ampio, il contenuto semantico potrebbe essere attribuito a (1) il modello linguistico che codifica unicamente la struttura lessicale e sintattica, mentre (2) il probe apprende a derivare la semantica a partire dalla struttura lessicale e sintattica codificata nello stato del modello, essendo supervisionato esplicitamente per prevedere la semantica dallo stato del modello stesso. Questa idea è definita come l'ipotesi del "registro sintattico", la quale fornisce una spiegazione coerente con i risultati ottenuti, allineati con il quadro teorico MH.

Per testare questa ipotesi, è stato progettato un esperimento innovativo che preserva la struttura lessicale e sintattica del linguaggio, intervenendo esclusivamente sulla semantica. Successivamente, si riesegue il programma con le nuove impostazioni semantiche per ottenere una nuova traccia con nuovi stati astratti, e si addestra un nuovo probe per prevedere questi nuovi stati astratti utilizzando gli stati originali del modello. L'intuizione chiave alla base di questo esperimento è che, se gli stati del modello codificano esclusivamente informazioni sintattiche, allora il nuovo probe dovrebbe essere in grado di estrarre le nuove informazioni semantiche dal registro sintattico originale con la stessa efficacia, lasciando inalterato il contenuto semantico.

Validazione dell'ipotesi del record sintattico tramite semantiche modificate

Vengono definite due semantiche alternative riassegnando la semantica delle singole operazioni come segue:

originale → avversaria

pickMarker → pickMarker → turnRight

putMarker → putMarker → turnLeft

turnRight → turnLeft → move

turnLeft → turnRight → turnRight

move → move → turnLeft

Ad esempio, nella semantica originale, exec(turnRight, ·) fa ruotare il robot di 90 gradi in senso orario, mentre exec_avversaria(turnRight, ·) fa avanzare il robot di uno spazio (secondo la semantica originale di move). Successivamente, per ogni sequenza di token di programma nell'Equazione (1) derivata dalla costruzione del dataset di tracce originali, si utilizzano gli stessi token per definire una traccia alternativa corrispondente:

(state'_prog)_i = exec_alt(token_i, (state'_prog)_(i-1)),

dove si parte dallo stesso stato iniziale del programma:

(state_prog)'_0 = (state_prog)_0 (cioè gli input di specifica).

Infine, con le nuove tracce dall'Equazione e lo stato originale LM dall'Equazione, viene addestrata una nuova probe:

probe_alt : state_LM → state'_prog,

e si confronta la sua accuratezza con quella della probe originale:

probe_orig : state_LM → state_prog.

Perché un intervento sia considerato un controllo adeguato, vengono identificate due proprietà critiche: (1) la semantica alternativa deve limitarsi a riassegnare la semantica delle singole operazioni nel linguaggio (evitando di inventare semantiche completamente nuove, come "saltare tre spazi in diagonale") e (2) l'intervento deve preservare la struttura sintattica dei programmi (ovvero, come le singole operazioni sono composte nell'interpretazione di un programma completo). Pertanto, assumendo valida l'ipotesi del record sintattico, probe_alt dovrebbe essere in grado di interpretare il record secondo una procedura analoga a probe_orig, producendo misurazioni comparabili del contenuto semantico. Di conseguenza, la confutazione dell'ipotesi del record sintattico si riduce alla misurazione di un degrado statisticamente significativo nel contenuto semantico alternativo rispetto al contenuto semantico originale.

I probes dimostrano la capacità di apprendere semantiche confutando l'ipotesi MH

Dai risultati dell'intervento emerge un confronto tra la semantica originale e quella alternativa, in cui sono stati addestrati dei probe per prevedere fino a due stati astratti nel passato e nel futuro. In tutti i 5 casi analizzati, il contenuto semantico della semantica alternativa risulta significativamente ridotto rispetto a quello della semantica originale. Questo dato supporta il rifiuto dell'ipotesi secondo cui gli stati del modello codificherebbero esclusivamente un registro sintattico (ovvero, solo informazioni lessicali e sintattiche), mentre il probe imparerebbe a interpretare tale registro in termini semantici.

Si rileva inoltre che le semantiche ribaltate sono strettamente correlate a quelle originali: in assenza di ostacoli nel percorso del robot, esse richiedono semplicemente di riflettere il percorso originale del robot lungo un asse. Al contrario, le semantiche avversarie modificano completamente la semantica di ciascun operatore. Pertanto, se l'ipotesi del registro sintattico fosse falsa, ci si aspetterebbe un contenuto semantico inferiore per le semantiche avversarie rispetto a quelle ribaltate, poiché risulterebbe più difficile mappare dalla semantica originale a quella avversaria; i risultati ottenuti supportano questa interpretazione.

Inoltre, è stato tracciato l'eccesso del contenuto semantico originale rispetto a quello ribaltato. Si nota che l'apparente alto contenuto semantico della fase di esplorazione, osservato prima dell'intervento e attribuito alla capacità del probe di apprendere la semantica di un numero limitato di programmi unici generati, scompare dopo l'intervento. Questo è coerente con un apprendimento simile da parte del probe delle semantiche originali e ribaltate durante la fase di esplorazione, dimostrando la capacità dell'intervento semantico di controllare l'abilità del probe nell'apprendimento delle semantiche.

Per comprendere meglio i risultati dell'intervento descritto, si può fare un'analogia con l'apprendimento di una nuova lingua da parte di un musicista. Immagina un musicista che impara una nuova canzone ascoltandola diverse volte. La canzone originale ha una melodia ben definita e facile da seguire. Ora, immagina che la stessa canzone venga riprodotta, ma con le note riorganizzate in modo da sembrare completamente diverse, pur mantenendo lo stesso ritmo e la struttura complessiva. Anche se le note sono cambiate, il musicista potrebbe ancora riconoscere la struttura ritmica e alcune caratteristiche familiari della canzone, ma faticherebbe molto di più a riconoscere la melodia originale.

Nel contesto dell'esperimento, il modello linguistico (LM) e il probe funzionano in modo simile. Inizialmente, i probes sono addestrati a riconoscere le semantiche originali, che rappresentano la melodia originale della canzone. Quando la semantica viene alterata (come riorganizzare le note), i probes devono cercare di interpretare queste nuove semantiche alternative. Dai risultati dell'intervento emerge che i probes hanno più difficoltà a riconoscere le semantiche alterate rispetto alle originali, proprio come il musicista avrebbe difficoltà con una melodia alterata. Questo suggerisce che il probe non stia semplicemente decodificando una struttura fissa e sintattica (cioè, le note e il ritmo), ma stia cercando di capire una rappresentazione semantica più profonda (cioè, la melodia).

Inoltre, le semantiche ribaltate, che richiedono solo di riflettere il percorso originale del robot lungo un asse, sono più semplici da mappare rispetto alle semantiche avversarie, che cambiano completamente il significato di ciascun operatore, come se le note fossero cambiate in modo radicale rendendo la melodia irriconoscibile. Il fatto che i probes abbiano più difficoltà con le semantiche avversarie supporta l'idea che il probe non stia semplicemente rilevando le informazioni sintattiche, ma stia effettivamente imparando a interpretare le semantiche in modo significativo.

Questa analogia aiuta a capire come il modello linguistico e i probes lavorano insieme per comprendere e rappresentare le semantiche: non si limitano a un semplice "registro sintattico" (come il ritmo di una canzone), ma tentano di cogliere qualcosa di più complesso, che si perde quando le semantiche vengono alterate in modo significativo. Di conseguenza, l'esperimento confuta l'ipotesi che i probes interpretino solo la struttura sintattica senza una comprensione semantica più profonda, dimostrando che almeno una parte del contenuto semantico osservato è veramente compresa dal modello e non solo appresa dai probes.

Si conclude che una parte statisticamente significativa del contenuto semantico osservato può essere spiegata come il probe che apprende la semantica, confutando l'ipotesi MH.

Conclusioni

Il lavoro di Charles Jin e Martin Rinard rappresenta una svolta significativa nella comprensione delle capacità dei modelli linguistici (LMs) di apprendere e rappresentare la semantica del codice. La scoperta che tali modelli possano sviluppare rappresentazioni semantiche emergenti, nonostante siano addestrati unicamente sulla previsione del token successivo solleva questioni cruciali per l'industria del software e l'automazione del codice.

Innanzitutto, questa ricerca ridefinisce il concetto di automazione nell'ambito della programmazione. Fino ad oggi, l'uso dei LMs è stato per lo più limitato a compiti relativamente semplici, come il completamento del codice o l'assistenza nel debugging. Tuttavia, la capacità dei modelli di comprendere gli stati intermedi di un programma apre nuove possibilità per l'automazione avanzata. Immaginiamo un futuro in cui i LMs non solo generano codice, ma comprendono realmente il contesto operativo in cui il codice verrà eseguito. Questo potrebbe rivoluzionare il ciclo di sviluppo software, rendendo gli strumenti di intelligenza artificiale non solo dei facilitatori, ma veri e propri partner creativi per gli sviluppatori.

Inoltre, la capacità dei LMs di rappresentare le semantiche suggerisce un potenziale per l'espansione di questi modelli in domini ancora più complessi. Se un LM può acquisire una comprensione semantica profonda semplicemente prevedendo token in un ambiente di programmazione, allora possiamo ipotizzare che lo stesso approccio possa essere applicato in campi come la scienza dei materiali, la chimica computazionale o l'analisi finanziaria, dove la comprensione dei processi e delle interazioni è fondamentale. Questo porta a una visione di LMs come strumenti di scoperta e innovazione, in grado di generare non solo codice, ma anche nuove conoscenze e soluzioni creative in una vasta gamma di discipline.

Un'altra implicazione strategica riguarda la formazione e lo sviluppo delle competenze nell'industria tecnologica. Se i LMs possono apprendere la semantica dei programmi in modo autonomo, ciò potrebbe ridurre la necessità di programmatori esperti in compiti ripetitivi e di basso livello, spostando l'attenzione verso competenze più elevate e creative. Le aziende potrebbero investire maggiormente in strumenti di intelligenza artificiale che integrino la comprensione semantica nei loro flussi di lavoro, riducendo i costi operativi e aumentando l'efficienza.

L'emergere di LMs capaci di comprendere la semantica del codice non solo trasforma i flussi di lavoro, ma ridefinisce anche il modo in cui le aziende dovranno pensare alla proprietà intellettuale e all'innovazione. Se questi modelli diventano in grado di generare soluzioni creative, le imprese dovranno confrontarsi con una nuova forma di competizione basata sulla velocità e qualità dell'adozione dell'intelligenza artificiale. La vera sfida non sarà solo implementare questi strumenti, ma farlo in modo da sfruttare appieno il loro potenziale trasformativo, anticipando le mosse dei competitor. Sarà fondamentale, quindi, costruire un vantaggio competitivo non solo attraverso la tecnologia, ma anche tramite l'integrazione intelligente di questi modelli nei processi decisionali, ridisegnando ruoli e competenze all'interno dell'organizzazione.

Questa prospettiva impone di ripensare alla strategia aziendale in chiave più dinamica e adattiva, dove il valore non deriva solo dal prodotto finale, ma dalla capacità di innovare continuamente i processi con l'intelligenza artificiale, trasformando le competenze in tempo reale e allineando costantemente le tecnologie emergenti agli obiettivi di business.

In conclusione, la capacità dei modelli linguistici di apprendere la semantica del codice non è solo un progresso tecnico, ma una rivoluzione potenziale nell'automazione del software e nella comprensione dei sistemi complessi.

LLM e l'evoluzione dell'automazione del software verso una comprensione semantica del codice