22 aprTempo di lettura: 9 min

ScreenAI di Google: Un Modello di Visione-Linguaggio (VLM) per la comprensione di interfacce grafiche e infografiche

Aggiornamento: 11 lug

ScreenAI è una novità nel campo della visione artificiale e dell'elaborazione del linguaggio, frutto del lavoro di un team internazionale di Google Research. Questo modello avanzato è pensato per decodificare e interpretare interfacce utente e infografiche con una grande accuratezza. La tecnologia si appoggia su complesse reti neurali che esaminano elementi visivi e testuali per offrire una comprensione olistica delle interfacce grafiche.

ScreenAI di Google: Un Modello di Visione-Linguaggio (VLM) per la comprensione di interfacce grafiche e infografiche

Le infografiche e le interfacce utente (UI), essenziali per la comunicazione e l'interazione uomo-macchina nell'era digitale, condividono principi di design e linguaggi visivi che facilitano la trasmissione di informazioni complesse in modi visivamente intuitivi. Queste piattaforme, che comprendono grafici, diagrammi, mappe e layout di documenti, presentano notevoli sfide per la creazione di un modello unico che interpreti efficacemente sia le infografiche sia le UI.

Per superare queste sfide, Google introduce ScreenAI, un modello di visione-linguaggio (VLM) progettato per una comprensione completa sia delle UI che delle infografiche.

ScreenAI utilizza due tecnologie principali: l'architettura PaLI e il meccanismo di patching flessibile di Pix2struct. L'architettura PaLI combina il riconoscimento delle immagini con la comprensione del linguaggio, permettendo al modello di processare contemporaneamente testi e immagini. Il meccanismo di Pix2struct aiuta a suddividere le immagini in parti più piccole, facilitando l'analisi di elementi complessi. Grazie a queste tecnologie, ScreenAI può svolgere vari compiti come rispondere a domande su infografiche, annotare e sintetizzare elementi delle UI e assistere nella navigazione, rendendo l'interazione con i contenuti digitali visivi più intelligente e funzionale.

Il lavoro si distingue per diversi contributi significativi: ScreenAI non solo adotta una nuova rappresentazione testuale per le UI, utilizzata durante la fase di pre-addestramento per insegnare al modello la comprensione delle interfacce, ma utilizza anche i grandi modelli di linguaggio per generare automaticamente vasti dataset di addestramento. Il modello proposto copre una vasta gamma di compiti grazie a specifiche miscele di pre-addestramento e di fine-tuning.

ScreenAI, nonostante la sua dimensione relativamente modesta di 4,6 miliardi di parametri, dimostra prestazioni di punta su quattro benchmark pubblici nel campo del question answering su infografiche, superando modelli dieci volte più grandi. Inoltre, il modello mostra risultati eccellenti in altri compiti, posizionandosi tra i migliori. L'analisi delle performance suggerisce un ampio margine di miglioramento incrementando la scala del modello.

Google ha condiviso tre nuovi dataset di valutazione: Screen Annotation, ScreenQA Short e Complex ScreenQA. Questi strumenti permettono alla comunità scientifica di avvalersi di una rappresentazione testuale avanzata e di testare con maggiore efficacia i modelli di question answering basati sull'analisi di schermate. Tali innovazioni consolidano la posizione di ScreenAI come punto di riferimento nel campo della comprensione dei contenuti digitali, ampliando il suo campo di applicazione dalle interfacce utente (UI) fino alle infografiche e oltre.

ScreenAI di Google e l'evoluzione dei modelli di visione-linguaggio

Nello studio dei modelli di visione-linguaggio per l'interpretazione delle interfacce utente e delle infografiche, Google ha riconosciuto tre aree principali di ricerche precedenti che hanno fornito le fondamenta per il sistema ScreenAI.

Modelli UI basati su schermo: Gli studi passati si sono concentrati su compiti specifici e ristretti, come il rilevamento di icone o l'analisi degli elementi dell'UI, con un focus prevalente sulla classificazione e descrizione tramite l'uso di grandi modelli di linguaggio (LLM). Questi sforzi, pur essendo pionieristici, hanno spesso limitato il loro campo d'applicazione a singole funzionalità dell'UI, non cogliendo l'interazione complessiva all'interno delle interfacce.

Modelli multimodali generalisti: La comparsa di modelli generalisti che possono processare immagini e testi ha rappresentato un importante progresso nel campo della comprensione multimodale. Questi modelli, in grado di affrontare diversi tipi di attività tramite il linguaggio naturale, hanno mostrato l'efficacia di approcci più integrati e flessibili, come evidenziato da esempi come UniTAB, OFA, PaLI, e Flamingo.

Modelli efficienti di visione e linguaggio: Focalizzati specificamente sulla comprensione di schermi e documenti, questi modelli hanno introdotto architetture avanzate basate su transformer che incorporano rappresentazioni multimodali e gerarchiche delle UI e dei documenti. Esempi includono LayoutLMv3, Donut, e UDOP, che hanno mostrato come l'uso di rappresentazioni estratte dai dati possa migliorare significativamente la comprensione dei contenuti digitali.

ScreenAI si distingue in questo panorama grazie a una serie di innovazioni, inclusa l'adozione di una rappresentazione testuale per le UI e l'impiego di modelli di linguaggio di grandi dimensioni per generare automaticamente dati di addestramento. Ciò permette a ScreenAI di coprire un ampio spettro di compiti con un alto grado di precisione ed efficienza, spingendo ulteriormente i limiti delle prestazioni in contesti applicativi reali.

Metodologia ScreenAI

ScreenAI si basa su un'architettura avanzata e un processo di apprendimento a livelli, per migliorare l'interpretazione delle interfacce utente e delle infografiche usando una metodologia di visione-linguaggio.

Architettura

L'architettura di ScreenAI si basa sui principi dei modelli PaLI, incorporando un encoder visivo che utilizza il Vision Transformer (ViT) e un encoder linguistico mT5. Questa combinazione è arricchita da un decoder autoregressivo che facilita la gestione di input misti, ovvero immagini e testo, permettendo al modello di generare risposte testuali coerenti e contestualmente appropriate. Un elemento distintivo di questa architettura è l'introduzione di una tecnica di patching avanzata, derivata da Pix2Struct, che rende il modello estremamente adattabile a immagini di varie dimensioni e formati. Questo approccio permette a ScreenAI di operare efficacemente con diversi tipi di schermi, dai dispositivi mobili ai monitor desktop, ottimizzando la comprensione visuale in contesti variabili.

Configurazioni del modello

ScreenAI è stato creato in tre versioni differenti, ciascuna con un numero variabile di parametri: una più piccola da 670 milioni, una media da 2 miliardi e una grande da 5 miliardi di parametri. Le versioni più piccole si basano su tecnologie già sviluppate per specifici compiti, mentre la versione più grande, quella da 5 miliardi di parametri, utilizza una tecnologia avanzata che combina più tipi di apprendimento, incluso quello visivo e quello linguistico. Questa varietà nelle dimensioni e nelle tecnologie permette a ScreenAI di essere più versatile e di adattarsi meglio alle diverse esigenze, bilanciando efficacemente le prestazioni con il consumo delle risorse di calcolo

Fasi di addestramento di ScreenAI

Il processo di allenamento si divide in pre-addestramento e fine-tuning.

Pre-addestramento: Il pre-addestramento inizia addestrando i sistemi su insiemi di dati creati automaticamente, grazie a un processo chiamato auto-supervisione, che diminuisce la necessità di dover etichettare manualmente i dati. Durante questa fase, sia l'encoder visivo che quello linguistico vengono perfezionati per lavorare meglio con le immagini delle interfacce utente, adottando una nuova tecnica di elaborazione chiamata "patching". Dopo questa fase iniziale, si procede con una parte di pre-addestramento in cui l'encoder ViT viene "congelato", ossia reso inattivo per alcune funzioni, al fine di ridurre ulteriormente il consumo delle risorse di calcolo.

Fine-tuning: Il fine-tuning è una fase del processo di sviluppo del modello in cui si concentra sull'ottimizzare il modello per eseguire compiti specifici. Si utilizzano dati che sono stati etichettati da persone. Inizialmente, il modello viene migliorato lavorando su una varietà di compiti di "question answering" (risposta a domande), che consistono nel rispondere a quesiti posti in linguaggio naturale. Successivamente, ciascun tipo di compito viene affrontato singolarmente per un'ulteriore ottimizzazione, affinando le capacità del modello in maniera più specifica per ciascuna attività.

ScreenAI adotta un approccio metodologico innovativo, che integra una struttura architettonica sofisticata a un processo di formazione stratificato. Questo metodo si propone di ridefinire gli standard di comprensione dei contenuti digitali. Attraverso questa strategia, ScreenAI migliora notevolmente l'adattabilità e l'accuratezza nell'analisi delle interfacce utente e delle infografiche, stabilendo nuovi paradigmi nel settore.

Generazione automatica dei dati

L'adozione della generazione automatica di dati nel pre-addestramento del modello ScreenAI gioca un ruolo essenziale, consentendo di costruire un dataset ampio e variegato senza dover ricorrere all'annotazione manuale. Questa metodologia non solo migliora l'efficienza e la scalabilità del processo di annotazione, ma garantisce anche una maggiore diversità e complessità nei dati. Questi elementi sono cruciali per sviluppare un modello accurato e robusto, capace di prestazioni ottimali.

Annotazione automatizzata e classificazione di elementi UI tramite AI

Il processo di generazione dati inizia con l'accumulazione e l'annotazione automatica di una vasta gamma di screenshot, raccolti da diverse piattaforme e dispositivi. Questi screenshot sono analizzati da un annotatore di layout avanzato, basato sul modello DETR, che identifica e cataloga vari elementi dell'interfaccia utente quali immagini, icone, pulsanti e testi. Questo approccio, a differenza di metodi precedenti che si affidavano su elenchi prefissati di caselle di delimitazione, permette al modello di prevedere autonomamente le caselle, migliorando notevolmente la precisione delle annotazioni.

Per la classificazione delle icone, viene utilizzato un classificatore specifico in grado di distinguere fino a 77 differenti tipi di icone, facilitando un'interpretazione più approfondita delle comunicazioni visive. Per le icone e le immagini che non rientrano nell'ambito di copertura del classificatore, viene utilizzato il modello PaLI per generare didascalie che forniscono descrizioni testuali arricchendo così il contesto visivo. Inoltre, un sistema OCR è integrato per estrarre e annotare il testo sugli schermi, un passaggio cruciale per l'interpretazione di informazioni testuali in vari formati.

Utilizzando queste tecniche sofisticate, si elabora una descrizione dettagliata di ciascun schermo, che comprende anche la localizzazione spaziale degli elementi. Questo aspetto è cruciale per il modello affinché possa comprendere e interagire efficacemente con varie interfacce utente.

Generazione di compiti associati allo schermo

Per ottimizzare ulteriormente il dataset di pre-addestramento, vengono impiegati modelli di linguaggio avanzati, quali PaLM 2-S, per elaborare compiti in formato Domanda-Risposta. Il processo inizia con la predisposizione di un'annotazione dettagliata dell'interfaccia utente, seguita dalla creazione di prompt specifici. Questi prompt guidano il modello di linguaggio nel generare dati sintetici utili. Questo approccio richiede un'accurata ingegneria del prompt e cicli iterativi mirati a perfezionare la capacità del modello.

La validazione umana di un sottoinsieme di questi dati garantisce che rispettino standard qualitativi elevati, essenziali per l'efficacia del training del modello. Questi compiti sintetici, che sono dati o esempi generati artificialmente per simulare scenari interattivi, pur essendo artificiali, mantengono un alto grado di realismo e coprono una vasta gamma di situazioni potenziali. Questa metodologia arricchisce notevolmente la profondità e la versatilità del pre-addestramento del modello.

Il metodo di generazione automatica di dati non solo semplifica la raccolta di un dataset vasto e vario, ma migliora anche l'affidabilità e l'applicabilità del modello ScreenAI, rendendolo utile per gestire bene una gamma più ampia di compiti di visione e linguaggio.

Esperimenti e risultati

Il confronto dei risultati ottenuti dal modello ScreenAI con quelli migliori disponibili nello stato dell'arte (SoTA) per vari compiti visivi e multimodali ha mostrato che ScreenAI ha definito nuovi standard SoTA in attività quali MoTIF, Widget Captioning, MPDocVQA e WebSRC. Il modello ha anche raggiunto prestazioni eccellenti in test come ChartQA, DocVQA e Infographic VQA (InfoVQA), e si è dimostrato competitivo in Screen2Words e OCR-VQA.

Per chiarire, ciò significa che ScreenAI ha superato i migliori modelli esistenti in diverse prove che richiedono l'analisi di immagini e testi, stabilendo nuovi benchmark di eccellenza. Tra questi compiti, il MoTIF riguarda la classificazione di immagini basate su temi o oggetti specifici. Altri test includono l'analisi di documenti (MPDocVQA), l'assegnazione di didascalie a elementi interattivi (Widget Captioning) e la risposta a domande basate su contenuti di pagine web (WebSRC). In aggiunta, ScreenAI ha ottenuto risultati di spicco in analisi di grafici (ChartQA), documenti (DocVQA), infografiche (InfoVQA), e si è mostrato efficace nel trasformare visivamente il testo di schermate (Screen2Words) e nel riconoscimento ottico dei caratteri (OCR-VQA). Questi successi dimostrano un importante progresso nelle tecnologie di intelligenza artificiale dedicate alla comprensione e manipolazione di contenuti visivi e testuali complessi.

Inoltre, un'analisi approfondita della dimensione del modello ha dimostrato che un incremento delle dimensioni del modello porta a miglioramenti continui nelle performance attraverso tutti i compiti di fine-tuning. Questo fenomeno è particolarmente interessante per i compiti che necessitano di una significativa elaborazione visivo-testuale e di capacità di ragionamento, come nel caso di InfoVQA, ChartQA e Complex ScreenQA, dove l'aumento da un modello di 2 miliardi a uno di 5 miliardi di parametri è risultato in un miglioramento notevole delle prestazioni.

Studi di Ablazione

Gli studi di ablazione, metodologie di ricerca utilizzate per determinare l'efficacia di componenti specifici di un modello, condotti su ScreenAI hanno approfondito l'impatto della tecnica di patching Pix2Struct e l'impiego di dati generati artificialmente dai Large Language Models (LLM) durante la fase di pre-training. Comparando il patching Pix2Struct con un tradizionale metodo di patching a griglia fissa, si è osservato che Pix2Struct è più efficace per le immagini con rapporto d'aspetto superiore a 1.0, mentre il patching a griglia fissa risulta leggermente più vantaggioso per immagini con rapporto d'aspetto inferiore a 1.0. Questi risultati supportano l'adozione di Pix2Struct per la sua maggiore flessibilità e capacità di adattarsi efficacemente a vari formati di immagine.

L'incorporazione nel mix di pre-training di dati generati da LLM ha prodotto un incremento delle performance del 4,6%, evidenziando il vantaggio di integrare un insieme di dati eterogeneo e ricco durante la fase formativa del modello. Questo approccio ha contribuito significativamente all'ottimizzazione delle strategie di pre-training e fine-tuning, migliorando la capacità del modello di adattarsi a scenari applicativi reali.

I risultati ottenuti non solo confermano l'efficacia di ScreenAI nelle sue applicazioni pratiche ma forniscono anche spunti cruciali per le future evoluzioni del modello. In particolare, offrono indicazioni preziose riguardo alla scalabilità e alla configurazione delle strategie di training, proponendo ScreenAI come modello di riferimento nel campo della comprensione delle interfacce utente e delle infografiche. Queste osservazioni aprono la strada a ulteriori ricerche per esplorare il pieno potenziale del modello in vari contesti di impiego, enfatizzando l'importanza della continua evoluzione e adattamento delle tecniche di intelligenza artificiale nella comprensione visiva avanzata.

Conclusione

ScreenAI rappresenta un significativo avanzamento nel campo della visione artificiale e del linguaggio, proponendo un approccio olistico alla comprensione delle interfacce utente e delle infografiche. La sua architettura, che integra l'encoder visivo Vision Transformer e l'encoder linguistico mT5, permette un'analisi dettagliata e contestualizzata di contenuti visivi e testuali, migliorando significativamente l'interazione uomo-macchina in ambienti digitali. Le tecnologie avanzate come PaLI e Pix2struct, implementate nel modello, facilitano la segmentazione e l'interpretazione di elementi complessi delle UI, dimostrando che anche un modello con una dimensione relativamente modesta di parametri può superare benchmark prestazionali di modelli più grandi.

L'innovazione principale di ScreenAI risiede nel suo uso di dati generati automaticamente per il pre-addestramento, riducendo la dipendenza dall'annotazione manuale e migliorando l'efficienza del training. Questo non solo accelera il processo di apprendimento del modello ma aumenta anche la sua capacità di adattarsi a una vasta gamma di scenari applicativi. La metodologia di formazione stratificata, che comprende pre-addestramento e fine-tuning specifico, consente a ScreenAI di ottimizzare le sue prestazioni per vari compiti, consolidandosi come una soluzione versatile e robusta per le sfide della comprensione multimodale.

Per le imprese e gli sviluppatori di tecnologia, l'introduzione di ScreenAI nel proprio ecosistema tecnologico non solo potenzia la comprensione e la navigazione delle interfacce ma apre anche nuove possibilità per l'automazione e l'interazione avanzata, prospettando miglioramenti nell'efficienza operativa e nell'engagement dell'utente.

In sintesi, ScreenAI si pone come un modello innovativo nel campo della comprensione visiva e linguistica, offrendo spunti significativi per future ricerche e sviluppi tecnologici.