2 agoTempo di lettura: 32 min

MAIA del MIT migliora l'interpretabilità dei modelli di intelligenza artificiale

I modelli di intelligenza artificiale (AI) sono sempre più integrati in vari settori, dalla sanità all'intrattenimento, rendendo essenziale comprendere il loro funzionamento interno per garantire sicurezza e ridurre i bias. Al MIT CSAIL, un team di ricercatori, tra cui Tamar Rott Shaham e Sarah Schwettmann, ha sviluppato MAIA (Multimodal Automated Interpretability Agent), un sistema che automatizza l'interpretazione dei modelli di visione artificiale. MAIA analizza le reti neurali artificiali in modo simile allo studio del cervello umano, ma senza la necessità di interventi diretti o procedure che possano alterare il sistema stesso. Utilizzando un modello di linguaggio visivo e una libreria di strumenti di interpretazione, MAIA è in grado di generare ipotesi e progettare esperimenti per verificarle, migliorando continuamente le sue metodologie. Il sistema identifica e descrive i concetti che attivano i neuroni, migliora la robustezza dei classificatori di immagini eliminando elementi non pertinenti e scopre pregiudizi nascosti, ossia eventuali tendenze discriminatorie nei dati. Questo approccio facilita la comprensione delle sfide inerenti ai modelli di AI, fornendo spiegazioni dettagliate che possono essere confrontate con quelle umane, permettendo così di rendere i sistemi di intelligenza artificiale più sicuri, affidabili e privi di distorsioni prima della loro applicazione pratica.

La comprensione di un modello neurale digitale può manifestarsi in diverse modalità. Un esempio di applicazione di un modello neurale è un classificatore di immagini, un programma che riconosce e categorizza automaticamente le immagini. In questo contesto, può essere importante capire in che modo e in quale misura il modello fa affidamento su caratteristiche sensibili come la razza o il genere, oltre a individuare eventuali errori sistematici nelle sue previsioni. Un'altra necessità è capire come modificare i dati di addestramento e l'architettura del modello per ottenere una maggiore precisione e robustezza. Attualmente, per raggiungere questi obiettivi, è necessario un considerevole impegno da parte dei ricercatori. Questo processo include analisi esplorative dei dati, la formulazione di ipotesi e la realizzazione di esperimenti controllati. Queste attività richiedono tempo e risorse significative, rendendo l'approfondimento della comprensione dei modelli un percorso lento e costoso.

Negli ultimi tempi, la ricerca sull'interpretabilità automatizzata ha iniziato a superare alcune di queste limitazioni attraverso l'uso di modelli appresi che aiutano nella comprensione del funzionamento dei modelli. Un modello appreso è un sistema che, attraverso l'analisi di grandi quantità di dati, impara a eseguire compiti specifici senza essere programmato esplicitamente per ogni singolo compito. Un esempio è l'assegnazione di descrizioni in linguaggio naturale alle rappresentazioni apprese dal modello. Queste descrizioni possono essere utilizzate per mettere in evidenza caratteristiche di interesse all'interno del modello, facilitando così la comprensione del suo comportamento. Tuttavia, i metodi attuali sono prevalentemente utili come strumenti per la generazione di ipotesi. Ciò significa che essi descrivono il comportamento del modello solo su un insieme limitato di input e spesso lo fanno con un grado di precisione non elevato.

La questione che si pone è come sviluppare strumenti che aiutino gli utenti a comprendere i modelli combinando la flessibilità della sperimentazione umana con la scalabilità delle tecniche automatizzate. La sperimentazione umana permette di adattare e modificare il modello basandosi su osservazioni e intuizioni specifiche, mentre le tecniche automatizzate consentono di elaborare grandi quantità di dati rapidamente e con meno risorse. Un esempio pratico di questa combinazione è l'uso di sistemi di apprendimento automatico che generano spiegazioni in linguaggio naturale per i risultati ottenuti, aiutando a comprendere meglio il comportamento del modello.

Il prototipo MAIA, acronimo di Multimodal Automated Interpretability Agent, integra un modello pre-addestrato in grado di comprendere sia immagini che testo con un'API (Interfaccia di Programmazione delle Applicazioni) dotata di strumenti specificamente progettati per condurre esperimenti su reti neurali profonde. Questi strumenti sono utilizzati per analizzare il comportamento di modelli complessi di intelligenza artificiale e fornire spiegazioni dettagliate delle loro operazioni. Ad esempio, MAIA può essere utilizzato per spiegare il comportamento di un'unità specifica all'interno di un modello come CLIP, un sistema che elabora e comprende immagini e testo, oppure per identificare in quali situazioni un modello di riconoscimento di immagini fallisce nel classificare correttamente una determinata razza di cane, come i labrador. Per rispondere a queste domande, MAIA progetta esperimenti di interpretabilità utilizzando moduli sperimentali, ovvero componenti flessibili che possono essere combinati in vari modi. Questo design modulare permette a MAIA di valutare in maniera versatile sistemi diversi e integrare facilmente nuovi strumenti sperimentali.

L'API di MAIA offre una serie di strumenti, tra cui moduli in grado di generare e modificare nuove immagini di test. Queste funzionalità permettono di verificare direttamente le ipotesi formulate durante il processo di interpretazione dei modelli.

MAIA è uno strumento di valutazione innovativo nel campo dell'intelligenza artificiale, progettato per migliorare la comprensione del funzionamento dei componenti dei sistemi di visione artificiale. Alla base di MAIA c'è il "paradigma della descrizione del neurone", un metodo che descrive il comportamento di un singolo neurone all'interno di una rete neurale. In questo contesto, un neurone è un'unità di calcolo che emula le funzioni di un neurone biologico, elaborando informazioni in modelli di intelligenza artificiale.

Questo approccio, proposto in numerosi studi, rappresenta un componente essenziale in molte procedure volte a rendere più comprensibile il funzionamento dei modelli di AI. Tali procedure si concentrano nel chiarire le motivazioni che guidano le decisioni dei modelli di intelligenza artificiale, offrendo trasparenza e comprensibilità agli utenti.

MAIA arricchisce questo campo introducendo un nuovo set di dati costituito da neuroni sintetici di visione, creati tramite un rilevatore di concetti a set aperto. Nel contesto dell'intelligenza artificiale, un concetto può essere definito come una rappresentazione astratta di un oggetto, idea o caratteristica, che un sistema di AI è in grado di riconoscere e classificare. Per esempio, un concetto potrebbe essere la forma di un animale, il colore di un oggetto o un'emozione espressa in un volto umano. Un rilevatore di concetti è uno strumento che identifica e classifica automaticamente questi concetti, mentre l'espressione "set aperto" si riferisce alla capacità di lavorare con categorie non predefinite, consentendo al sistema di identificare nuovi concetti in modo dinamico.

Un aspetto distintivo di MAIA è l'uso di una guida testuale che spiega come i neuroni sintetici devono comportarsi. In parole semplici, questa guida fornisce delle istruzioni scritte su come i neuroni dovrebbero reagire a diversi stimoli o input. È come avere un manuale che dice al sistema cosa aspettarsi e come rispondere in determinate situazioni. Questo permette di avere un maggiore controllo e precisione su come il sistema opera, assicurandosi che i neuroni agiscano in modo prevedibile e coerente.

Le descrizioni fornite da MAIA per i neuroni risultano più predittive, ovvero più capaci di anticipare correttamente il comportamento del modello rispetto ai metodi descrittivi tradizionali. In alcuni casi, le descrizioni generate da MAIA sono comparabili alle etichette assegnate da esperti umani, che rappresentano il massimo livello di qualità nelle valutazioni.

Una serie di esperimenti ha dimostrato che l'approccio sperimentale iterativo di MAIA può essere applicato efficacemente a compiti di verifica e modifica dei modelli. Tra questi compiti vi sono la rimozione di caratteristiche spurie, ossia elementi non rilevanti o fuorvianti che il modello utilizza per prendere decisioni, e l'identificazione di bias, ovvero pregiudizi o distorsioni che possono influenzare negativamente le prestazioni di un modello.

Il framework MAIA è dotato di una struttura adattabile, che lo rende idoneo a essere utilizzato in contesti sperimentali diversi. Le applicazioni pratiche vengono definite dall'utente tramite un prompt, ovvero un comando o una richiesta data all'agente, il quale utilizza poi l'API per comporre ed eseguire esperimenti specifici. Sebbene queste applicazioni dimostrino il potenziale di MAIA nel migliorare i processi di interpretabilità, è importante notare che l'intervento umano è ancora necessario per evitare errori. Tra questi errori vi sono il bias di conferma, che è la tendenza a interpretare le nuove informazioni in modo da confermare convinzioni preesistenti, e il rischio di trarre conclusioni affrettate da campioni di dati di dimensioni ridotte. Per automatizzare completamente il processo di interpretazione dei sistemi complessi, sarà necessario non solo sviluppare strumenti più avanzati, ma anche creare agenti con capacità di ragionamento più sofisticate, in grado di determinare come utilizzare questi strumenti in modo efficace.

Come l'analisi delle reti neurali profonde rivela caratteristiche interpretabili

L'analisi delle reti neurali profonde ha rivelato che i singoli neuroni possono mostrare caratteristiche interpretabili dagli esseri umani. Anche se le reti profonde sono estremamente complesse, costituite da migliaia o milioni di connessioni, è possibile individuare elementi specifici del loro comportamento che possono essere compresi. Questo è un risultato significativo, poiché consente di comprendere meglio come funzionano queste reti e di identificare le funzioni dei singoli neuroni al loro interno.

Diversi metodi sono stati sviluppati per descrivere e interpretare le funzioni dei neuroni nelle reti neurali profonde. Un approccio comune è quello di visualizzare le caratteristiche che un neurone specifico è in grado di riconoscere o attivare. Queste tecniche di visualizzazione permettono di vedere quali schemi o elementi visivi attivano un neurone, ossia stimolano la sua attività. Questo non solo facilita la comprensione del comportamento dei neuroni, ma consente anche di migliorare l'interpretabilità delle reti neurali, rendendole più accessibili e trasparenti agli esseri umani.

Numerosi studi hanno utilizzato queste tecniche di visualizzazione per esplorare il funzionamento dei neuroni nelle reti neurali. Zeiler e Fergus (2014), ad esempio, hanno sviluppato metodi per visualizzare le caratteristiche attivate dai neuroni nelle reti convoluzionali, permettendo di capire quali aspetti delle immagini venissero riconosciuti a diversi livelli della rete. Girshick et al. (2014) hanno approfondito l'interpretazione delle reti neurali applicate alla visione artificiale, evidenziando come i neuroni possano essere allenati a riconoscere oggetti specifici in un'immagine.

Karpathy et al. (2015) hanno contribuito ulteriormente alla comprensione delle reti neurali analizzando il modo in cui i neuroni rispondono a sequenze di dati, come il testo scritto, illustrando come la rete riesca a identificare strutture sintattiche e semantiche. Mahendran e Vedaldi (2015) hanno introdotto tecniche per invertire le reti neurali, permettendo di ricostruire le immagini originali a partire dalle attivazioni neuronali, offrendo un ulteriore strumento per comprendere le funzionalità interne delle reti.

Infine, Olah et al. (2017) hanno realizzato studi che hanno portato alla creazione di strumenti avanzati per la visualizzazione delle reti neurali, aiutando a identificare i pattern complessi che vengono riconosciuti dai neuroni. Queste ricerche non solo hanno migliorato la comprensione delle reti neurali profonde, ma hanno anche aperto nuove possibilità per sviluppare sistemi di intelligenza artificiale più intelligibili e controllabili.

L'insieme di queste ricerche dimostra come sia possibile, attraverso tecniche di visualizzazione e interpretazione, rendere più comprensibili le reti neurali profonde, trasformando la complessità in qualcosa di più accessibile e trasparente.

Parallelamente, esistono metodi che si concentrano sulla categorizzazione automatica degli input che attivano un neurone in modo ottimale, partendo da ampi dataset reali. Queste tecniche, descritte nei lavori di Bau et al. (2017, 2020), Oikarinen e Weng (2022), e Dalvi et al. (2019), analizzano gli input per scoprire quali elementi o immagini generano la massima attivazione in specifici neuroni. In questo modo, si possono mappare le attivazioni neurali rispetto a concetti o categorie riconoscibili, creando una sorta di dizionario che associa input visivi a risposte neurali specifiche.

Negli approcci iniziali, si cercava di tradurre queste risposte visive in descrizioni linguistiche utilizzando etichette predefinite. Questo significa che le caratteristiche individuate dai neuroni venivano descritte usando un vocabolario fisso, come evidenziato da Bau et al. nel 2017. Un'evoluzione di questi metodi è rappresentata dalla generazione di descrizioni attraverso programmi più complessi e articolati. Lavori successivi, come quello di Mu e Andreas (2021), hanno infatti sviluppato tecniche che producono descrizioni sotto forma di programmi, offrendo un quadro più dinamico e dettagliato delle capacità interpretative dei neuroni all'interno delle reti profonde.

Queste ricerche forniscono un'importante visione sul funzionamento delle reti neurali profonde, rendendo più chiaro e comprensibile il modo in cui queste elaborano e interpretano dati complessi. Comprendere le caratteristiche selezionate dai neuroni e il loro comportamento di attivazione non solo ci consente di migliorare le reti esistenti, ma anche di sviluppare modelli più affidabili e interpretabili in diversi ambiti applicativi.

Interpretabilità automatizzata

L'interpretabilità automatizzata è un settore in continua crescita che si propone di rendere più trasparenti e comprensibili i modelli di apprendimento automatico. Questo obiettivo viene perseguito attraverso l'uso di descrizioni in linguaggio naturale, che spiegano le caratteristiche apprese dai modelli. Esistono due approcci principali per ottenere queste descrizioni: uno si basa su etichettatori umani, mentre l'altro si affida a descrizioni generate dai modelli stessi. Il lavoro di Schwettmann et al. (2021) ha evidenziato l'importanza del contributo degli etichettatori umani nel fornire descrizioni chiare e dettagliate. In seguito, studi come quelli di Hernandez et al. (2022), Bills et al. (2023) e Gandelsman et al. (2024) hanno ampliato il campo di ricerca, analizzando come i modelli di apprendimento automatico possano autonomamente generare spiegazioni delle proprie decisioni e processi interni.

Tuttavia, nonostante i significativi progressi, le etichette fornite, sia umane sia generate automaticamente, spesso non bastano a spiegare in maniera causale e comprensibile il comportamento dei modelli. Per comprendere appieno le decisioni dei modelli, è necessario condurre ulteriori esperimenti. Huang et al. (2023) hanno sottolineato come l'affidabilità di queste etichette possa essere limitata, il che evidenzia l'esigenza di adottare approcci sperimentali per verificare e approfondire le descrizioni offerte dai modelli.

Per affrontare tali sfide, Schwettmann et al. (2023) hanno sviluppato il protocollo denominato Automated Interpretability Agent. Questo sistema innovativo permette di esplorare i modelli di tipo "black-box" attraverso un agente basato sul linguaggio. Tuttavia, è importante notare che, sebbene questo approccio rappresenti un passo avanti nella comprensione dei modelli complessi, presenta alcune limitazioni, specialmente quando si basa esclusivamente sugli input linguistici. Questi limiti richiedono ulteriori sviluppi per migliorare l'accuratezza e la profondità delle spiegazioni fornite dai modelli stessi, promuovendo una maggiore trasparenza nel campo dell'apprendimento automatico.

MAIA rappresenta un progresso significativo nel campo dell'interpretabilità dei modelli di apprendimento automatico. Diversamente da altri strumenti che si limitano a etichettare le caratteristiche dei modelli in un unico passaggio, MAIA adotta un approccio iterativo, eseguendo esperimenti multipli. Questa metodologia consente una comprensione più profonda e articolata dei modelli, permettendo agli utenti di ottenere una visione più dettagliata delle caratteristiche analizzate.

Uno degli aspetti innovativi di MAIA è la sua capacità di utilizzare una vasta libreria di strumenti di interpretabilità, integrata con funzionalità visive avanzate. Queste caratteristiche forniscono a MAIA un vantaggio significativo rispetto ad altri strumenti, consentendole di offrire un'analisi più completa e visivamente intuitiva. Il design modulare di MAIA è concepito per facilitare esperimenti su diversi livelli di granularità, permettendo sia analisi approfondite delle singole caratteristiche che indagini più ampie su intere reti o sottocomponenti di rete complessi.

Questo approccio modulare non solo consente di comprendere in dettaglio le singole caratteristiche, ma fornisce anche una prospettiva sulle dinamiche più ampie che regolano il funzionamento dei modelli di apprendimento automatico. La possibilità di esaminare le dinamiche interne di un modello offre una visione chiara e stratificata, rendendo evidenti le interazioni tra le diverse componenti del modello stesso.

Agenti di modelli linguistici

I modelli linguistici moderni rappresentano un'innovazione fondamentale nel campo dell'intelligenza artificiale, grazie alle loro avanzate capacità di ragionamento. Non si limitano all'interpretazione del linguaggio naturale, ma possono essere ulteriormente estesi utilizzando il modello linguistico come un agente. In questo contesto, un agente è un sistema che opera sotto la guida di un obiettivo di alto livello e possiede la capacità di utilizzare strumenti esterni per raggiungere tale obiettivo, come calcolatori, motori di ricerca o altri modelli specifici per determinate operazioni.

La forza di un modello linguistico in qualità di agente risiede nella sua abilità di integrare varie fonti di informazioni e strumenti, rendendolo estremamente versatile in una vasta gamma di applicazioni. Quando un modello linguistico viene potenziato con strategie di ragionamento in stile "catena di pensieri", diventa particolarmente efficace nei compiti che richiedono ragionamenti articolati in più fasi, soprattutto in contesti complessi. Questo approccio consente di elaborare una sequenza di azioni ragionate, migliorando significativamente le prestazioni in scenari dove la comprensione e l'analisi dettagliata sono essenziali.

I progressi nei modelli multimodali, come GPT-4V, rappresentano un ulteriore passo avanti. Questi modelli consentono l'uso diretto di strumenti che si basano su immagini, integrando così capacità visive e testuali in un unico sistema. Questo tipo di integrazione è stato fondamentale per lo sviluppo di agenti come MAIA, che è, a oggi, il primo agente multimodale progettato per interpretare reti neurali profonde, sfruttando strumenti avanzati per l'analisi sia testuale che visiva.

L'evoluzione dei modelli linguistici agentici, specialmente quelli in grado di operare in modalità multimodale, segna un punto di svolta nell'interpretazione delle reti neurali e nella loro applicazione in ambiti complessi. La capacità di combinare ragionamenti linguistici con l'elaborazione visiva offre nuove possibilità di interazione con sistemi intelligenti, rendendoli più adattabili e capaci di affrontare sfide sempre più sofisticate. Con il continuo sviluppo di queste tecnologie, si aprono nuove prospettive per l'automazione e l'interpretazione delle informazioni, portando l'intelligenza artificiale verso orizzonti ancora inesplorati.

MAIA Framework

MAIA è un agente autonomo sviluppato per eseguire esperimenti su sistemi di intelligenza artificiale complessi, con l'obiettivo di spiegare il loro comportamento tramite programmi Python. Questa tecnologia si ispira all'idea di utilizzare modelli basati esclusivamente sul linguaggio per compiti di ragionamento visivo in modalità one-shot, sfruttando strumenti esterni. Tale approccio deriva dalle ricerche di Surís et al. (2023) e Gupta & Kembhavi (2023), e dalla necessità di condurre esperimenti iterativi che includano risultati sia visivi che numerici.

MAIA si basa su un modello multimodale pre-addestrato capace di elaborare immagini direttamente. Al centro del sistema vi è il modello vision-language GPT-4V di OpenAI, che consente di gestire compiti visivi e linguistici. Quando viene posta una domanda di interpretabilità, come ad esempio "Quali neuroni nel Layer 4 sono selettivi per sfondi forestali?", MAIA esegue esperimenti per verificare ipotesi specifiche. Può calcolare le risposte dei neuroni a immagini con sfondi modificati, osservare i risultati e aggiornare le ipotesi fino a trovare una risposta soddisfacente.

L'infrastruttura di MAIA permette di progettare ed eseguire esperimenti di interpretabilità tramite un'interfaccia API dedicata. L'API definisce due classi principali: System e Tools, che forniscono al modello gli strumenti necessari per eseguire compiti complessi di interpretabilità.

Per portare a termine i compiti, MAIA utilizza i componenti della sua API per scrivere programmi Python, progettati per eseguire esperimenti sul sistema oggetto di analisi. MAIA può generare definizioni di funzioni come stringhe, che vengono poi eseguite internamente tramite l'interprete Python. Questa implementazione consente una facile integrazione di funzioni incorporate e di pacchetti esistenti. Ad esempio, l'API MAIA sfrutta la libreria PyTorch per caricare modelli di visione pre-addestrati, rendendo il processo di interpretazione più efficace e preciso.

System API MAIA

La classe System all'interno dell'API MAIA è uno strumento potente e versatile per esplorare e analizzare il comportamento dei modelli di intelligenza artificiale. Permette di accedere ai loro sottocomponenti in modo dettagliato e specifico. Per esempio, quando si lavora con reti neurali complesse come ResNet-152, MAIA utilizza la classe System per inizializzare e gestire l'analisi di specifici neuroni. Questo avviene attraverso l'uso di parametri come l'identificativo del neurone, il livello del layer in cui si trova e il nome del modello, utilizzando una sintassi semplice.

Questa funzionalità consente a MAIA di condurre esperimenti approfonditi che esaminano i valori di attivazione dei neuroni quando vengono esposti a diversi input di immagini. Ad esempio, eseguendo un comando specifico, è possibile ottenere i valori di attivazione dei neuroni per le immagini fornite, insieme alle versioni delle immagini in cui sono evidenziate le regioni di massima attivazione. Gli output visuali risultanti forniscono una chiara rappresentazione delle aree più significative per il neurone in analisi.

Una delle caratteristiche distintive della classe System di MAIA è la sua capacità di supportare l'interpretazione di sistemi di visione artificiale in modo flessibile e senza necessità di riaddestramento. Diversamente dagli approcci tradizionali, che richiedono la creazione di modelli specializzati addestrati su dataset specifici per compiti di interpretabilità, MAIA semplifica questo processo. L'utente può interrogare liberamente vari sistemi di visione, sfruttando al massimo la capacità analitica della classe System per ottenere insight dettagliati sul funzionamento interno dei modelli.

Questa capacità di MAIA di operare su sistemi arbitrari rende il processo di analisi e interpretazione più accessibile e immediato, riducendo significativamente il tempo e le risorse necessarie per comprendere il comportamento di complessi modelli di intelligenza artificiale. Attraverso l'uso della classe System, gli utenti possono esplorare le dinamiche interne delle reti neurali e acquisire una comprensione più profonda delle loro decisioni, aprendo la strada a nuove possibilità di ricerca e applicazioni nel campo dell'intelligenza artificiale.

Tool API MAIA

La classe Tools rappresenta un insieme di funzionalità essenziali per MAIA. Gli strumenti disponibili si basano su tecniche comuni per l'interpretabilità dei modelli di intelligenza artificiale, includendo la caratterizzazione del comportamento neuronale attraverso l'uso di immagini reali. Questo approccio è stato illustrato dallo studio di Bau et al. del 2017, che ha esplorato come i neuroni rispondono a specifiche caratteristiche visive. MAIA va oltre, incorporando interventi causali sugli input delle immagini, come investigato da Hernandez et al. e Casper et al. nel 2022, per costruire esperimenti più sofisticati e complessi.

Una caratteristica distintiva dei programmi creati con MAIA è la loro capacità di essere convertiti in codice Python direttamente all'interno del sistema. Ciò permette alle varie funzioni di interagire agevolmente con altri modelli pre-addestrati per ottenere le elaborazioni desiderate. Un esempio pratico di queste capacità è rappresentato dalla funzione "tools.text2image(prompt_list)", la quale genera immagini sintetiche a partire da descrizioni testuali. Questa funzione utilizza un modello di diffusione basato sul testo per analizzare la risposta di un neurone a concetti visivi specifici, permettendo di visualizzare come queste risposte si manifestano in diverse situazioni.

Il design modulare della libreria di strumenti di MAIA facilita l'integrazione continua di nuovi strumenti in parallelo con l'evoluzione delle tecniche di interpretabilità. Man mano che queste tecniche si fanno più avanzate è possibile arricchire la suite di strumenti mantenendo intatta la struttura esistente. Questo garantisce che MAIA resti aggiornata rispetto ai progressi tecnologici e metodologici nel campo dell'intelligenza artificiale. Tale approccio modulare non solo aumenta la flessibilità e l'efficienza dei programmi, ma promuove anche un miglioramento costante delle capacità di interpretazione e intervento sui modelli, contribuendo così a una comprensione sempre più profonda del funzionamento interno dei sistemi di intelligenza artificiale.

L'analisi del comportamento neuronale attraverso lo studio dei valori di attivazione è un'area di ricerca che ha conosciuto significativi sviluppi grazie a recenti studi. Queste ricerche hanno evidenziato come il comportamento tipico di un neurone possa essere caratterizzato registrando le sue risposte su un ampio dataset di immagini, come dimostrato negli studi di Bau et al. del 2017 e del 2020. MAIA, in quanto sistema avanzato di intelligenza artificiale, è stato concepito per condurre esperimenti sul set di validazione di ImageNet, un ampio database di immagini creato da Deng et al. nel 2009. Inizialmente, MAIA seleziona un insieme di 15 immagini che massimizzano l'attivazione del sistema, utilizzando questo approccio come punto di partenza per molti esperimenti. Questo processo mette in evidenza l'importanza dello strumento "dataset_exemplars" nel contesto degli studi di ablazione, che mirano a chiarire le componenti fondamentali di un modello neurale.

Lo strumento "text2image(prompts)" utilizza la versione 1.5 di Stable Diffusion per generare immagini basate su descrizioni testuali. Questa capacità permette a MAIA di esplorare come il sistema reagisce a sottili variazioni nei concetti visivi o di esaminare la selettività di un concetto visivo in diversi contesti. Il potenziale di questo strumento risiede nella possibilità di testare ipotesi diverse attraverso la creazione di immagini sintetiche che vanno oltre le distribuzioni di dati del mondo reale. Inoltre, MAIA può modificare le immagini esistenti tramite Instruct-Pix2Pix, applicando istruzioni specifiche per alterare le immagini originali. Questo processo consente di esplorare ipotesi su immagini modificate, come l'aggiunta di elementi insoliti, aprendo nuovi scenari di ricerca e analisi.

Per mitigare il bias di conferma nell'interpretazione dei risultati, MAIA adotta un framework multi-agente che le consente di interagire con un'altra istanza di GPT-4V. Questa nuova istanza, priva di conoscenza della storia sperimentale, è in grado di descrivere le regioni evidenziate in immagini individuali o di sintetizzare elementi comuni in un gruppo di immagini. Lo strumento "describe_images(image_list)" fornisce descrizioni dettagliate delle immagini, mentre "summarize_images(image_list)" aiuta a identificare tratti condivisi. Questo approccio si dimostra particolarmente utile quando le ipotesi precedenti non hanno prodotto i risultati sperati o in presenza di combinazioni complesse di contenuti visivi. L'adozione di questa metodologia arricchisce il processo sperimentale e favorisce una comprensione più equilibrata dei risultati ottenuti.

Il processo di documentazione degli esperimenti è un altro elemento essenziale del lavoro svolto da MAIA. Grazie allo strumento "log_experiment", MAIA è in grado di registrare i risultati di ogni esperimento, inclusi dati come immagini e valori di attivazione. Questo registro è fondamentale per l'analisi futura e consente di riferirsi a dati precedenti durante nuovi esperimenti. MAIA ha la possibilità di decidere quali risultati documentare, selezionando i dati che supportano o confutano chiaramente una particolare ipotesi. Questo processo di registrazione sistematica costruisce una base solida di conoscenze, essenziale per migliorare la comprensione e l'efficacia degli esperimenti successivi.

Valutazione framework MAIA

Il framework MAIA è stato creato per essere estremamente versatile e adattabile, permettendo di applicarlo a una vasta gamma di compiti grazie alla possibilità di specificare un obiettivo di interpretabilità nel prompt destinato al Vision Language Model (VLM).

Uno dei principali test per valutare le capacità del framework MAIA riguarda il compito di descrizione dei neuroni black-box. I neuroni black-box sono componenti fondamentali per l'interpretabilità dei modelli, poiché forniscono informazioni critiche per l'auditing e la modifica dei modelli stessi. Nei test condotti, MAIA ha dimostrato di poter fornire descrizioni dettagliate e accurate del comportamento dei neuroni.

Durante gli esperimenti, il prompt dell'utente richiede di specificare chiaramente il compito da svolgere e il formato di output desiderato. Questo output include una descrizione dettagliata del comportamento del neurone, seguita da un'etichetta sintetica che riassume il comportamento osservato. Per raggiungere questi obiettivi, MAIA utilizza la classe System per selezionare un modello di visione specifico, come ad esempio ResNet-152, e identifica un'unità individuale all'interno del modello, come Layer 4 Unit 122. Durante i test, MAIA ha dimostrato di poter prevedere accuratamente i comportamenti dei singoli neuroni in tre diverse architetture addestrate, confermando la sua efficacia anche in un ambiente sintetico dove le selettività dei neuroni erano già note.

Le descrizioni generate attraverso il processo interattivo di MAIA si sono rivelate più efficaci nel predire il comportamento dei neuroni rispetto a quelle ottenute utilizzando un set fisso di esemplari di dataset. Questo è stato particolarmente evidente quando si è confrontato MAIA con il modello MILAN, utilizzato come baseline. MAIA ha superato MILAN in molti aspetti, offrendo descrizioni paragonabili a quelle fornite da esperti umani.

Neuroni nei modelli di visione

MAIA genera descrizioni in linguaggio naturale di neuroni specifici all'interno di varie architetture di visione artificiale. Queste architetture includono modelli avanzati di machine learning, ciascuno con caratteristiche e obiettivi unici.

Uno di questi modelli è ResNet-152, una rete neurale convoluzionale (CNN) progettata per la classificazione supervisionata delle immagini. Questa rete analizza le immagini attraverso una serie di livelli, noti come conv.1 e res.1-4, ciascuno dei quali svolge un ruolo cruciale nella cattura delle caratteristiche visive complesse. Un altro modello è DINO, un Transformer visivo creato per l'apprendimento non supervisionato delle rappresentazioni. Questo modello opera attraverso livelli noti come MLP 1-11, che aiutano nella comprensione delle immagini senza l'ausilio di etichette predefinite. Infine, CLIP è un encoder visivo basato su ResNet-50, addestrato per allineare coppie di immagini e testi, facilitando la comprensione e l'associazione tra elementi visivi e descrizioni testuali.

L'approccio di MAIA si concentra sull'analisi di 100 unità campionate casualmente da ciascun modello. Questa strategia permette di ottenere una comprensione dettagliata del comportamento dei neuroni, fornendo esempi di come il sistema generi etichette finali per i neuroni analizzati. Per avere una panoramica più completa, MAIA viene confrontato con un altro metodo di etichettatura noto come MILAN. A differenza di MAIA, MILAN è un sistema non interattivo che si limita a etichettare i dati comportamentali di ciascun neurone senza coinvolgere un'analisi interattiva con l'analista.

Per garantire un'accuratezza elevata, le descrizioni dei neuroni generate dai modelli MAIA e MILAN sono sottoposte a un attento processo di valutazione che include l'uso di annotazioni umane. In particolare, un gruppo di esperti è incaricato di analizzare un campione casuale, pari al 25%, dei neuroni etichettati. Questo processo avviene attraverso l'uso dell'API di MAIA, che consente di scrivere programmi per condurre analisi interattive e restituire descrizioni dettagliate. Gli esperti partono da un prompt iniziale fornito da MAIA, sulla base del quale sviluppano programmi specifici per eseguire esperimenti sui neuroni. Questi esperimenti portano alla creazione di descrizioni dei neuroni nello stesso formato utilizzato da MAIA, assicurando coerenza nei risultati.

La valutazione dell'accuratezza delle descrizioni prodotte da MAIA, MILAN e dagli esperti umani è fondata sulla loro capacità di prevedere il comportamento dei neuroni su immagini di test non precedentemente viste. Questo metodo di valutazione si avvicina a tecniche utilizzate per produrre esempi contrastivi o controfattuali, che hanno lo scopo di rivelare i confini decisionali del modello. In pratica, le descrizioni dei neuroni vengono impiegate per creare nuove immagini, che si prevede influenzino le attivazioni dei neuroni in modo positivo o neutro. Questo approccio permette di esplorare e comprendere come i neuroni reagiscono a stimoli diversi, garantendo una valutazione approfondita della precisione delle descrizioni fornite dai modelli e dagli esperti.

In questo processo, le descrizioni prodotte da MAIA, MILAN e dagli esperti umani vengono fornite a una nuova istanza di GPT-4V, incaricata di creare prompt per generare sette immagini esemplari positive e sette esemplari neutri. Per esempio, se una descrizione fosse "maschere intricate," GPT-4V potrebbe generare prompt per immagini come "una maschera veneziana" o "una maschera tribale" per gli esemplari positivi, e "un autobus rosso" o "un campo di fiori" per quelli neutri. In totale, per ciascun neurone, vengono creati 42 prompt.

Un'altra istanza di GPT-4V abbina le etichette dei neuroni prodotte da vari metodi di descrizione con i sette prompt più adatti e i sette meno adatti. Successivamente, genera le immagini corrispondenti e misura i valori di attivazione del neurone testato. Questo processo consente di valutare la precisione delle etichette predittive. Un'etichetta predittiva efficace dovrebbe essere associata a esemplari positivi che attivano fortemente il neurone e a esemplari neutrali che lo attivano in modo minimo.

L'obiettivo principale di questo approccio è distinguere tra le diverse procedure di etichettatura, assicurandosi che i metodi utilizzati producano prompt rilevanti. I risultati dimostrano che MAIA supera MILAN in tutti i modelli esaminati ed è spesso comparabile alle previsioni degli esperti umani, confermando la sua efficacia nell'analisi e nella descrizione del comportamento neuronale all'interno di architetture di visione artificiale.

Neuroni sintetici

Per validare le prestazioni dei metodi automatizzati di interpretabilità su sistemi di test sintetici che imitano comportamenti reali, è stato seguito un approccio metodico basato sul lavoro di Schwettmann et al. (2023). L'obiettivo è stato costruire un insieme di neuroni di visione sintetici con selettività nota, simulando la rilevazione di concetti eseguita dai neuroni nei modelli di visione mediante la segmentazione semantica.

I neuroni sintetici sono stati creati utilizzando un rilevatore di concetti open-set, che combina Grounded DINO (Liu et al., 2023) con SAM (Kirillov et al., 2023) per eseguire una segmentazione di immagini guidata dal testo. Il comportamento di ciascun neurone è definito da una descrizione testuale dei concetti a cui il neurone risulta selettivo. Per simulare comportamenti reali, le etichette dei neuroni sono state derivate da MILANNOTATIONS, un dataset che comprende 60.000 annotazioni umane di neuroni, tratte da sette modelli di visione addestrati (Hernandez et al., 2022).

I neuroni presentano una grande varietà di comportamenti: alcuni rispondono a concetti specifici, mentre altri rispondono a combinazioni più complesse di concetti (Bau et al., 2017; Fong & Vedaldi, 2018; Olah et al., 2020; Mu & Andreas, 2021; Gurnee et al., 2023). Per rispecchiare questa diversità, sono stati costruiti tre tipi di neuroni sintetici con livelli di complessità crescenti.

Il primo tipo comprende neuroni monosemantici che riconoscono singoli concetti, come ad esempio "strisce". Il secondo tipo include neuroni polisemantici selettivi per disgiunzioni logiche di concetti, come "treni o strumenti". Infine, i neuroni condizionali rappresentano il terzo tipo, e riconoscono un concetto solo in presenza di un altro, come "cane|guinzaglio".

Questi neuroni sintetici sono stati progettati per accettare input di immagini e restituire un'immagine mascherata che evidenzia il concetto selettivo (se presente) e un valore di attivazione, che corrisponde alla fiducia di Grounded DINO nella presenza del concetto. Gli esemplari di dataset per i neuroni sintetici sono stati ottenuti selezionando 15 immagini con attivazione massima per neurone dal dataset CC3M (Sharma et al., 2018).

Il set di concetti rappresentabili dai neuroni sintetici è limitato ai concetti semplici, a causa della fedeltà del rilevamento di concetti open-set utilizzando i metodi di segmentazione guidata dal testo. È stato verificato che tutti i concetti nel dataset di neuroni sintetici possano essere segmentati da Grounded DINO in combinazione con SAM.

Il sistema MAIA interpreta i neuroni sintetici utilizzando la stessa API e procedura impiegata per i neuroni nei modelli di visione addestrati. Annotazioni comparative di neuroni sintetici sono state raccolte sia da MILAN che da annotatori esperti, utilizzando una procedura in cui esperti umani etichettano manualmente un sottoinsieme del 25% di neuroni con l'API MAIA.

Per valutare l'accordo tra le descrizioni dei neuroni sintetici e le etichette reali, sono stati reclutati giudici umani tramite Amazon Mechanical Turk. Questi giudici hanno partecipato a compiti di scelta forzata a due alternative (2AFC), dove veniva loro mostrata l'etichetta reale del neurone, ad esempio "coda", e due descrizioni prodotte da differenti procedure di etichettatura, come "code di animali soffici e testurizzate" e "oggetti circolari e animali". I giudici dovevano quindi scegliere quale descrizione corrispondeva meglio all'etichetta reale.

I risultati dello studio 2AFC, che misurano la proporzione di prove in cui una procedura è stata preferita rispetto all'altra, con intervalli di confidenza al 95%, hanno mostrato che le etichette MAIA sono meglio allineate con le etichette reali rispetto a quelle di MILAN. Inoltre, le etichette di MAIA sono state leggermente preferite rispetto a quelle degli esperti per il sottoinsieme di neuroni che hanno descritto, mentre le etichette umane sono state ampiamente preferite rispetto a quelle di MILAN.

Oltre a questo, è stato utilizzato un framework di valutazione predittiva per generare set positivi e neutri di immagini esemplari per tutti i neuroni sintetici. Si è riscontrato che le descrizioni fornite da MAIA sono migliori predittori delle attivazioni dei neuroni sintetici rispetto alle descrizioni di MILAN e risultano comparabili alle etichette prodotte dagli esperti umani. Questo approccio metodico conferma l'efficacia dei metodi automatizzati di interpretabilità su sistemi di test sintetici e dimostra come queste soluzioni possano offrire un valido supporto nell'analisi dei modelli di visione addestrati.

Studio sull'ablazione degli strumenti

Lo studio sull'ablazione degli strumenti all'interno del sistema MAIA si concentra sulla capacità di questo design modulare di gestire in modo flessibile e dinamico le funzionalità attraverso la sua API. Questa struttura permette di aggiungere e rimuovere strumenti con facilità, adattando MAIA a diverse esigenze sperimentali e consentendo un'esplorazione approfondita di varie configurazioni operative.

In questo contesto, sono state testate tre diverse configurazioni per osservare come MAIA risponde ai cambiamenti negli strumenti disponibili. La prima configurazione si concentra sull'etichettatura dei neuroni utilizzando unicamente la funzione “dataset_exemplar”, evitando di ricorrere alla capacità di sintesi di immagini. Questo approccio si basa sull'utilizzo diretto dei dati esistenti per identificare e classificare i neuroni, senza l'ausilio di immagini generate artificialmente per arricchire il dataset. L'obiettivo è valutare quanto il sistema possa funzionare efficacemente utilizzando solo dati reali senza arricchimenti esterni.

La seconda configurazione si basa esclusivamente sugli input generati, omettendo l'opzione di calcolare esemplari che massimizzano l'attivazione del dataset. Qui si esplora l'uso di dati sintetici come principale fonte di analisi, valutando il grado in cui questi dati possono sostituire o integrare i dati reali. Si cerca di comprendere se la sintesi di dati possa effettivamente replicare l'accuratezza e la ricchezza dei dati originali.

Nella terza configurazione, si sostituisce il sistema di generazione di immagini Stable Diffusion text2image con DALL-E 3. Quest'ultimo è noto per le sue avanzate capacità di generazione d'immagini e, con questa configurazione, si esplora l'impatto di queste capacità sulla performance complessiva del sistema. L'obiettivo è determinare se l'uso di strumenti di generazione d'immagini più sofisticati possa migliorare l'efficacia e la precisione delle analisi svolte da MAIA.

I risultati dei test hanno mostrato che, sebbene le prime due configurazioni non compromettano completamente le prestazioni di MAIA, nessuna raggiunge la precisione del sistema completo. Questo evidenzia l'importanza di combinare strumenti reali e sintetici per ottenere le migliori performance. In particolare, MAIA offre risultati ottimali quando l'analisi inizia con esemplari del dataset reale, seguiti da test aggiuntivi con immagini sintetiche. Questa combinazione permette di sfruttare al meglio i punti di forza di entrambi i tipi di dati, massimizzando l'accuratezza delle analisi.

L'uso di DALL-E come generatore di immagini ha portato a un miglioramento significativo delle prestazioni, suggerendo che le capacità degli strumenti utilizzati possono influenzare notevolmente i risultati finali. Ciò implica che, man mano che gli strumenti all'interno dell'API di MAIA diventano più sofisticati, anche MAIA sarà in grado di migliorare le proprie performance, sfruttando al massimo le nuove funzionalità disponibili per ottenere risultati sempre più precisi e affidabili. Il futuro dello sviluppo di MAIA dipenderà quindi non solo dalla sua architettura modulare, ma anche dalla continua evoluzione e perfezionamento degli strumenti a sua disposizione.

Modalità di fallimento di MAIA

Il sistema MAIA ha visto un notevole miglioramento delle sue prestazioni grazie all'integrazione con DALL-E 3. Tuttavia, nonostante questi progressi, esistono ancora sfide significative nella generazione e modifica di immagini. Strumenti come SD-v1.5 e InstructPix2Pix, ad esempio, possono occasionalmente non riuscire a generare immagini che rispettino completamente le istruzioni fornite, mettendo in luce una problematica legata alla gestione dei fallimenti di output visivi.

Per affrontare questi problemi, MAIA è stato progettato per privilegiare modifiche che portino a risultati visivi positivi. Questo approccio si concentra su richieste di sostituzione visiva, come cambiare un papillon con una camicia, piuttosto che semplicemente rimuovere un elemento senza rimpiazzarlo. Nonostante questa strategia, gli errori possono ancora verificarsi a causa di vari fattori, tra cui l'incapacità dei modelli di cogliere le sfumature sottili delle istruzioni o di interpretare correttamente il contesto visivo.

Le versioni proprietarie degli strumenti di generazione delle immagini spesso offrono una qualità superiore rispetto alle alternative open-source, ma sono associate a costi elevati e restrizioni economiche relative all'accesso alle loro API. Queste limitazioni economiche influiscono anche sull'architettura di GPT-4V, il cui costo di utilizzo può risultare proibitivo per alcune applicazioni.

La progettazione modulare del sistema MAIA rappresenta una risposta efficace a questi problemi. Questa architettura consente l'integrazione di alternative open-source che migliorano nel tempo, rendendo il sistema adattabile alle evoluzioni tecnologiche. Grazie alla sua struttura modulare, MAIA può incorporare nuove soluzioni man mano che diventano disponibili e mature, offrendo un'opzione più economica e flessibile per la modifica e generazione delle immagini. In questo modo, MAIA può migliorare continuamente le sue capacità in modo adattativo, rispondendo rapidamente ai progressi nel campo dell'intelligenza artificiale, mantenendo elevate le prestazioni complessive e garantendo una maggiore efficienza operativa.

Applicazioni

La caratteristica distintiva di MAIA è la sua flessibilità, che le consente di gestire compiti complessi come l'etichettatura delle caratteristiche di un modello e la diagnosi delle sue modalità di fallimento. Questa capacità di analisi multilivello permette a MAIA di fornire una visione approfondita delle prestazioni e del comportamento del modello, facilitando l'individuazione delle aree che richiedono miglioramenti.

Per dimostrare l'efficacia di MAIA sono stati condotti esperimenti specifici. Questi esperimenti hanno applicato MAIA a due compiti critici nell'ambito dei modelli di intelligenza artificiale: la rimozione delle caratteristiche spurie e l'identificazione del bias in un compito di classificazione. La rimozione delle caratteristiche spurie è essenziale per migliorare l'accuratezza dei modelli, poiché queste caratteristiche possono introdurre rumore e distorcere i risultati. MAIA, attraverso la sua API, è in grado di identificare e rimuovere tali caratteristiche indesiderate, ottimizzando così le prestazioni del modello e garantendo risultati più precisi.

Nel secondo compito, MAIA si occupa dell'identificazione del bias, un elemento cruciale nei processi di classificazione. Il bias può condurre a risultati ingiusti o inaccurati, specialmente quando i modelli vengono applicati a dati sensibili. MAIA analizza i modelli per individuare eventuali pregiudizi, permettendo agli sviluppatori di apportare le modifiche necessarie per garantire equità e precisione nei risultati. L'abilità di identificare e correggere il bias assicura che i modelli siano non solo efficienti ma anche etici nel loro utilizzo.

In entrambe le applicazioni, l'utilizzo dell'API di MAIA si rivela fondamentale. L'API offre un'interfaccia intuitiva per interagire con il sistema, rendendo più semplice e veloce l'implementazione delle sue funzionalità. Questo rende MAIA uno strumento potente non solo per gli esperti di intelligenza artificiale, ma anche per i professionisti di altri settori che desiderano sfruttare l'automazione per una migliore comprensione dei modelli. La capacità di MAIA di adattarsi a diversi contesti e compiti sottolinea il suo valore come strumento versatile e indispensabile nella moderna analisi dei dati, offrendo soluzioni innovative e affidabili per affrontare le sfide più complesse.

Rimozione delle caratteristiche spurie

Le caratteristiche spurie apprese dai modelli di apprendimento automatico sono una sfida significativa quando questi modelli vengono applicati a scenari reali, dove le distribuzioni dei dati di test differiscono da quelle del set di addestramento. Questo fenomeno rappresenta un problema noto e documentato da vari studi nel campo. La difficoltà principale sta nel fatto che i modelli di apprendimento automatico possono apprendere correlazioni spurie, cioè associazioni non causali presenti nei dati di addestramento. Ad esempio, un modello potrebbe notare che le immagini di uccelli nel set di addestramento hanno spesso il cielo blu sullo sfondo e quindi, quando vede un'immagine con un cielo blu, potrebbe erroneamente concludere che si tratta di un uccello, anche se non lo è. Queste associazioni possono derivare da coincidenze o rumori nei dati che non rappresentano un legame reale o significativo tra le variabili.

Quando un modello addestrato su queste correlazioni spurie viene applicato a nuovi dati, specialmente se questi ultimi presentano distribuzioni diverse da quelle su cui è stato addestrato, le sue prestazioni possono risultare inaffidabili. Questo accade perché il modello potrebbe basarsi su caratteristiche irrilevanti o non generalizzabili per fare previsioni, portando a risultati errati o fuorvianti. Pertanto, identificare e mitigare l'influenza di queste caratteristiche spurie è fondamentale per migliorare l'affidabilità e la robustezza dei modelli di apprendimento automatico.

Le ricerche di Storkey et al. (2009), Beery et al. (2018), Bissoto et al. (2020), Xiao et al. (2020), e Singla et al. (2021) hanno esaminato il problema delle discrepanze tra i dati di addestramento e di test, sottolineando l'importanza di affrontare queste sfide per ottenere modelli che possano funzionare efficacemente in situazioni diverse da quelle per cui sono stati inizialmente progettati. La loro ricerca evidenzia la necessità di sviluppare tecniche e approcci che possano aiutare i modelli a concentrarsi sulle caratteristiche realmente rilevanti e causali nei dati, migliorando così la loro capacità di adattarsi a nuovi contesti e situazioni. In questo modo, si mira a creare modelli più robusti e generalizzabili, capaci di fornire prestazioni affidabili anche quando affrontano scenari e distribuzioni di dati inaspettati o non visti durante l'addestramento.

Per affrontare questo problema, si può ricorrere a MAIA. Una delle scoperte principali è che MAIA è in grado di identificare e rimuovere caratteristiche spurie anche senza accesso a esempi non distorti o a specifiche annotazioni di raggruppamento. Questo processo aumenta significativamente la robustezza del modello di fronte a variazioni nella distribuzione dei dati, avvicinando la sua precisione a quella ottenibile tramite addestramento su dati bilanciati. L'approccio di MAIA si distingue per la capacità di operare efficacemente anche in assenza di un set di dati di addestramento perfettamente bilanciato, risultando particolarmente utile in contesti reali dove ottenere tali dati può essere difficile o impossibile.

Gli esperimenti che dimostrano l'efficacia di MAIA sono stati condotti utilizzando la rete ResNet-18 sul dataset Spawrious. Questo dataset è stato generato sinteticamente e include immagini di quattro razze di cani, ciascuna associata a sfondi diversi. Nel set di addestramento, ogni razza di cane è correlata in modo spurio con un certo tipo di sfondo. Tuttavia, nel set di test, queste associazioni tra razza e sfondo sono modificate. MAIA viene impiegato per identificare un sottoinsieme di neuroni dello strato finale della rete che sono in grado di predire una singola razza di cane in modo robusto, indipendentemente dalle caratteristiche spurie presenti. Questa capacità di isolare le caratteristiche rilevanti dalle spurie consente al modello di generalizzare meglio quando si trova ad affrontare dati mai visti prima.

Altri metodi, come quello di Kirichenko et al. (2023), affrontano il problema delle correlazioni spurie riaddestrando l'ultimo strato della rete su dataset bilanciati. Tuttavia, MAIA si distingue perché utilizza solo le immagini più attivanti del set di convalida sbilanciato per eseguire esperimenti e determinare la robustezza. Le caratteristiche selezionate da MAIA vengono poi impiegate per addestrare un modello di regressione logistica non regolarizzato sui dati sbilanciati, dimostrando che il modello può migliorare la precisione anche senza accesso a un set di dati bilanciato.

Per dimostrare l'efficacia di MAIA, vengono selezionati 50 dei neuroni più informativi utilizzando la regolarizzazione ℓ1 sul dataset sbilanciato. MAIA esegue esperimenti su ciascuno di questi neuroni e ne seleziona 22 che ritiene robusti. Addestrare un modello non regolarizzato su questo sottoinsieme porta a un miglioramento significativo della precisione. Questo approccio non solo riduce il numero di parametri necessari, ma migliora anche la capacità del modello di fare previsioni accurate in presenza di dati non visti e potenzialmente distorti.

Per verificare che il miglioramento delle prestazioni non sia dovuto unicamente alla selezione limitata di neuroni, si confrontano le prestazioni di MAIA con l'adattamento regolarizzato ℓ1 su versioni sia sbilanciate che bilanciate del dataset. Sul dataset sbilanciato, l'adattamento regolarizzato ℓ1 mostra un calo delle prestazioni quando il numero di neuroni selezionati si riduce da 50 a 22. Tuttavia, utilizzando un piccolo dataset bilanciato per ottimizzare l'iperparametro ℓ1 e addestrare il modello di regressione logistica su tutti i neuroni, si ottengono prestazioni comparabili a quelle ottenute con il sottoinsieme selezionato da MAIA, anche se MAIA non ha avuto accesso a dati bilanciati. Questo confronto dimostra che MAIA riesce a mantenere la robustezza e l'accuratezza del modello anche quando non ha accesso a dataset bilanciati, evidenziando come l'approccio innovativo di selezionare i neuroni più significativi possa risultare efficace quanto metodi più tradizionali che richiedono dati bilanciati.

Per un confronto equo, vengono testate anche le prestazioni di un modello ℓ1 che riflette la selezione ristretta di MAIA, ma è stato addestrato su un dataset bilanciato. I risultati confermano ulteriormente l'efficacia di MAIA come strumento innovativo per migliorare la robustezza dei modelli di apprendimento automatico, anche in situazioni complesse e sfidanti caratterizzate dalla presenza di caratteristiche spurie e da distribuzioni di dati variabili.

Rivelazione dei bias

Il sistema MAIA è stato sviluppato con l'obiettivo di identificare automaticamente i bias presenti nei modelli di intelligenza artificiale. Un esempio pratico della sua applicazione riguarda l'analisi dei bias nei risultati prodotti da una rete neurale convoluzionale chiamata ResNet-152, che è stata addestrata per eseguire compiti di classificazione delle immagini su ImageNet. MAIA si distingue per la sua capacità di essere applicato facilmente in esperimenti di questo tipo: esso utilizza il logit di output associato a una determinata classe per calcolare la probabilità che un'immagine appartenga effettivamente a quella classe. In pratica, MAIA riceve l'etichetta della classe e viene programmato per individuare situazioni in cui il classificatore assegna probabilità basse alle immagini di una data classe o manifesta una preferenza per un sottoinsieme di essa.

I risultati ottenuti per alcune classi di ImageNet dimostrano l'efficacia di MAIA nel generare dati sintetici che sono fondamentali per identificare le aree della distribuzione degli input dove un modello potrebbe mostrare prestazioni inferiori. Questo approccio rivela che, sebbene l'esperimento evidenzi principalmente le categorie di fallimento più rilevanti, MAIA offre la possibilità di condurre esperimenti più mirati. Tali esperimenti possono essere progettati per affrontare casi d'uso specifici, con l'obiettivo di identificare bias particolari e comprendere meglio le carenze dei modelli di intelligenza artificiale.

Oltre a facilitare il riconoscimento dei bias, il sistema MAIA stimola lo sviluppo di soluzioni per mitigare tali bias, contribuendo così a migliorare l'affidabilità e l'equità dei modelli di intelligenza artificiale. Diventa così uno strumento di grande valore nel campo dell'intelligenza artificiale, agevolando la creazione di modelli più robusti e imparziali. La capacità di MAIA di adattarsi a diversi tipi di dati e contesti applicativi ne aumenta ulteriormente l'utilità, promuovendo una maggiore consapevolezza dei bias nei modelli e incoraggiando una ricerca continua per il miglioramento delle tecnologie AI.

Conclusione

La crescente complessità dei modelli di intelligenza artificiale, in particolare delle reti neurali profonde, ha portato alla necessità di strumenti avanzati per comprendere e interpretare il loro comportamento. Il framework MAIA rappresenta un esempio innovativo di come l'automazione e l'interpretabilità possano essere combinate per facilitare l'analisi di sistemi complessi. MAIA si propone come un agente multimodale in grado di eseguire esperimenti su modelli di visione e linguaggio per ottenere una comprensione più approfondita delle loro dinamiche interne.

La principale difficoltà nell'interpretare i modelli di intelligenza artificiale sta nel loro funzionamento come "scatola nera", il che rende complesso per le persone capire come queste piattaforme prendano le decisioni. Questo è particolarmente critico in applicazioni sensibili dove bias e decisioni errate possono avere conseguenze significative. La capacità di MAIA di generare descrizioni in linguaggio naturale per spiegare il comportamento dei neuroni e identificare bias all'interno dei modelli è un passo importante verso la trasparenza. Ciò si traduce in un vantaggio competitivo per le imprese, che possono utilizzare questi strumenti per migliorare la robustezza e l'affidabilità dei propri sistemi AI.

Uno dei punti di forza di MAIA è la sua struttura modulare e adattabile, che consente di integrare facilmente nuovi strumenti e tecniche man mano che l'interpretabilità avanza. Questa flessibilità è cruciale in un campo in continua evoluzione come l'AI, dove le metodologie e gli strumenti si sviluppano rapidamente. Tuttavia, il successo di MAIA dipende anche dalla qualità degli strumenti di generazione delle immagini e dall'accuratezza delle descrizioni fornite, come evidenziato dai miglioramenti ottenuti utilizzando modelli come DALL-E 3 rispetto ad altre tecniche di generazione.

Dal punto di vista aziendale, l'impiego di strumenti come MAIA offre l'opportunità di affrontare problemi critici legati ai bias e alla trasparenza dei modelli, migliorando così la fiducia e l'accettazione dell'AI da parte degli utenti finali. In un contesto in cui le decisioni automatizzate possono avere implicazioni etiche e legali, la capacità di identificare e mitigare i bias è fondamentale. MAIA non solo aiuta a rilevare pregiudizi esistenti, ma fornisce anche un framework per lo sviluppo di soluzioni mirate che promuovano l'equità nei sistemi di intelligenza artificiale.

Nonostante i progressi significativi, è importante riconoscere che MAIA, come qualsiasi altro strumento di interpretabilità, non è privo di limitazioni. La supervisione umana rimane essenziale per garantire la correttezza delle interpretazioni e per evitare errori come il bias di conferma. Inoltre, l'assenza di evidenze da parte di MAIA non deve essere interpretata come prova di assenza di problemi. La collaborazione tra intelligenza artificiale e supervisione umana è cruciale per sviluppare sistemi AI che siano veramente affidabili e responsabili.

In conclusione, MAIA rappresenta un importante passo avanti verso l'interpretabilità automatizzata dei modelli di intelligenza artificiale. La sua capacità di combinare strumenti avanzati di analisi con la supervisione umana offre un modello per il futuro dello sviluppo di sistemi AI trasparenti ed equi. Per le imprese, l'integrazione di strumenti come MAIA nei processi di sviluppo e auditing dei modelli AI può portare a vantaggi competitivi significativi, migliorando la fiducia degli stakeholder e promuovendo una cultura dell'innovazione responsabile.