Prompt Engineering Generative AI: strategie, sicurezza e applicazioni pratiche

31 dic 2024Tempo di lettura: 18 min

La ricerca “The Prompt Report: A Systematic Survey of Prompting Techniques” di Sander Schulhoff, Michael Ilie e Nishant Balepur si concentra sulle pratiche più diffuse nella prompt engineering per modelli di Generative AI. L’analisi coinvolge atenei e istituti come University of Maryland, Learn Prompting, OpenAI, Stanford, Microsoft, Vanderbilt, Princeton, Texas State University, Icahn School of Medicine, ASST Brianza, Mount Sinai Beth Israel, Instituto de Telecomunicações e University of Massachusetts Amherst, tutti impegnati nello studio dell’AI e nell'applicazione della prompt engineering. Il tema principale è l’uso strategico dei prompt per migliorare la comprensione e la coerenza dei sistemi generativi, evidenziando tecniche testate su diversi set di dati e compiti. L’articolo propone uno sguardo alle migliori pratiche, alle prospettive metodologiche e agli esiti sperimentali per chi desidera sfruttare la forza dei modelli linguistici nelle attività aziendali e nella ricerca.

Un'importante aggiunta a questo panorama è rappresentata dal recente lavoro di Aichberger, Schweighofer e Hochreiter, "Rethinking Uncertainty Estimation in Natural Language Generation", che introduce G-NLL, una misura di incertezza efficiente e teoricamente fondata, basata sulla probabilità della sequenza di output. Questo contributo si rivela particolarmente prezioso nell'ambito della valutazione dell'affidabilità dei modelli linguistici, integrandosi con le tecniche di prompting avanzate discusse nell'articolo di Schulhoff e colleghi.

Inoltre, data la crescente importanza della sicurezza informatica in questo ambito, viene dedicato un approfondimento specifico alle linee guida delineate nel documento "OWASP Top 10 for LLM Applications 2025", che fornisce una tassonomia dettagliata delle vulnerabilità più critiche per i modelli linguistici di grandi dimensioni, offrendo un quadro completo e aggiornato delle sfide e delle soluzioni relative alla cyber sicurezza in questo settore in continua evoluzione.

Fondamenti di Prompt Engineering Generative AI: guida essenziale

La capacità dei modelli di Generative AI di generare testo utile si basa su una serie di procedure chiamate prompt engineering. Questa disciplina si è diffusa in modo rapido nel campo dell’intelligenza artificiale e consiste nel formulare con cura il testo di ingresso per ottenere risposte mirate. Il lavoro di Schulhoff e colleghi spiega che il prompt non è un semplice input, bensì un terreno su cui il sistema fonda le proprie inferenze. È un passaggio che si colloca al cuore delle interazioni uomo-macchina, dove la chiave risiede nella pertinenza e nella ricchezza dell’istruzione fornita.

I ricercatori sottolineano come la scelta dei termini, la struttura sintattica e la lunghezza del prompt possano generare differenze nelle risposte. Quando si parla di modelli di grandi dimensioni, emerge il tema dello spazio di contesto, vale a dire la porzione massima di testo processabile, il cui superamento induce il sistema a trascurare le parti iniziali. Tenendo a mente questo meccanismo, la prompt engineering diventa un processo di ottimizzazione continua, dove scopo e coerenza del testo introduttivo influenzano l’intero output.

La ricerca elenca 33 termini fondamentali legati alla prompt engineering, da template fino a self-consistency, fornendo un vocabolario unificato e condiviso. Ogni termine riflette un’area di interesse, da come costruire una catena di ragionamento interna (Chain-of-Thought) a come porre esempi esemplificativi (Few-Shot o Zero-Shot). Il segreto di un prompt ben calibrato non è solo nel chiedere qualcosa di preciso, ma nel dimostrare, attraverso esempi, il comportamento atteso.

Ciò che emerge è una sorta di apprendimento interno del modello, formalizzato con la probabilità condizionata p(A‖T(x)), in cui la risposta A dipende in modo cruciale dall’istruzione T applicata a un input x. Questo passaggio non implica un vero addestramento tradizionale, bensì una capacità di seguire l’istruzione contenuta nella stringa di testo. Gli studiosi dimostrano che tale capacità è stata testata su traduzione, classificazione, question answering e generazione di testo, ottenendo talvolta miglioramenti significativi.

Nella ricerca si fa anche notare che la sensibilità delle Generative AI a piccole modifiche linguistiche è molto forte. L’aggiunta di spazi, la rimozione di un avverbio o il cambiamento di un delimitatore possono stravolgere il risultato finale. Da qui nasce l’esigenza di sperimentare varianti del prompt per capire quale funzioni meglio. È un modo per “corteggiare” il modello affinché trovi la strada giusta. In aggiunta, alcuni studiosi inseriscono istruzioni a inizio messaggio (ruoli fittizi, strategie di pensiero a passi espliciti) per rendere più solida la coerenza logica della risposta.

Un’altra grande intuizione è che, in molte situazioni, la logica dell’esempio conta più dell’istruzione esplicita. Se un prompt contiene dimostrazioni chiare, il modello tende a replicare la struttura di quei campioni, adattandosi senza richiedere ulteriori comandi. Questo aspetto è un fulcro essenziale: la few-shot learning, infatti, è vista da molti come l’espressione più efficace della prompt engineering, perché offre esattamente ciò che il modello si aspetta di vedere, e lo guida in modo più controllato.

La sezione introduttiva dei ricercatori mette in luce l’importanza di definire in modo rigoroso i singoli ingredienti di un prompt. Dire “scrivi un saggio” o “spiega la meccanica quantistica” risulta spesso troppo generico, mentre puntualizzare i dettagli, indicare lo stile e fornire esempi di risposte desiderate favorisce un output più utile. Grazie a tali prerequisiti, chi opera nell’innovazione aziendale o nella ricerca può già intuire i vantaggi di un buon prompt per generare analisi, relazioni o sintetizzare documenti complessi.

Tassonomie e applicazioni pratiche di Prompt Engineering Generative AINella ricerca si è cercato di mappare ben 58 tecniche di prompting testuale, più altre forme ideate per impostazioni multimodali. Questo grande numero di schemi rientra in un’ampia tassonomia, che organizza i metodi a seconda della finalità: spiegare, classificare, generare e così via. La stessa tassonomia funge da ponte per chiunque si avvicini al mondo dei prompt, evitando confusione nei termini e nei concetti.

Ci sono metodi che puntano tutto sulla decomposizione del problema. La ricerca cita “chain-of-thought” per scomporre in più passaggi una domanda, “least-to-most” per affrontare sottoproblemi e “program-of-thought” per incapsulare sequenze di codice, eseguibili e interpretazioni testuali nello stesso flusso. Altri metodi seguono logiche di “self-criticism”, dove la generazione iniziale di un testo viene vagliata dal modello stesso, che cerca di correggere errori o incoerenze. Queste procedure valorizzano la natura generativa di un modello, portandolo ad analizzare con un certo grado di introspezione il proprio output.

Gli autori mettono in evidenza che alcune tecniche trovano immediata applicazione pratica. Nei sistemi di assistenza al cliente, ad esempio, è molto utile sfruttare prompt che favoriscano risposte precise e prive di toni inopportuni. Qui si introducono filtri e guardrail, con istruzioni chiarissime sui temi da evitare o sugli stili di parola consentiti. Nel caso della scrittura di codice, esistono strategie per far sì che il modello generi segmenti di programmazione più affidabili, selezionando in anticipo snippet di esempio che mostrino la struttura corretta.

Un punto saliente è la possibilità di adattare la tassonomia alle proprie esigenze progettuali. Se un’impresa vuole automatizzare la corrispondenza e-mail, potrà optare per template di prompt con lo stile voluto, esempi di risposte e vincoli lessicali. Chi si occupa di marketing potrebbe introdurre “ruoli” all’interno del prompt, fingendo di avere un esperto creativo che propone slogan. Si tratta di scelte tutte orientate a una maggiore produttività. All’interno di “The Prompt Report: A Systematic Survey of Prompting Techniques” si ribadisce che non c’è un singolo approccio valido universalmente: ogni scenario può beneficiare di una tecnica più adatta di altre.

Inoltre, la tassonomia proposta non si limita al testo in lingua inglese. Gli studiosi sottolineano la presenza di problemi legati alle lingue a risorse limitate, ragion per cui vengono suggerite soluzioni dedicate come il “translate-first prompting”, dove il testo in lingua minoritaria viene prima convertito in inglese. Il passaggio successivo consiste nel costruire i cosiddetti esempi in contesto, coerenti con la cultura o la specifica area semantica, facendo leva sul fatto che molti modelli odierni siano addestrati principalmente su testi anglosassoni. L’obiettivo finale rimane la pertinenza e la precisione del risultato.

È interessante notare come la tassonomia ad ampio raggio copra anche strutture iterative di richiesta, in cui il modello inizialmente genera una bozza e poi la perfeziona. A differenza di un tradizionale metodo di domanda e risposta, queste tecniche calzano bene nei compiti di scrittura prolungata, brainstorming e stesura di documenti. Dunque, chiunque svolga attività di creazione di contenuti, pianificazione strategica o analisi di grandi volumi testuali può trovare vantaggi immediati adottando tali procedure.

Prompt Engineering: dati, sicurezza e risultati numerici per un utilizzo ottimale

Uno degli aspetti più delicati legati alla prompt engineering è la sicurezza, che influisce direttamente sull’affidabilità dei modelli. Fenomeni come il prompt hacking sfruttano inganni testuali per forzare il modello a fornire informazioni non desiderate. In alcuni casi, una sola frase con tono imperativo può sovrascrivere le indicazioni principali del prompt, generando output offensivi o rischiosi. È un punto su cui molte aziende stanno lavorando, perché i chatbot possono essere manipolati in modo da divulgare dati confidenziali o assumere stili linguistici non previsti.

Gli esperimenti descritti nella ricerca evidenziano la capacità di intervenire sui sistemi per ottenere frammenti di testo estremamente riservati o per eludere le regole stabilite. Si menziona un episodio in cui il semplice suggerimento di ignorare tutte le istruzioni precedenti ha fatto collassare i vincoli di moderazione. Il lavoro segnala poi come lo sviluppo di guardrail o barriere di difesa, implementate direttamente nel prompt, non sia sempre risolutivo. Sorgono meccanismi di rinforzo o di screening a più livelli, ma anche questi mostrano limiti.

Oltre all’ambito sicurezza, emergono risultati numerici precisi legati ai test su set di dati di riferimento. In un passaggio significativo, si parla di un benchmark basato su 2.800 domande selezionate dal più ampio MMLU, che comprende molte categorie di conoscenza. L’uso di approcci come “zero-shot” o “chain-of-thought” hanno portato in alcuni casi a un miglioramento delle prestazioni o, paradossalmente, a un calo. Si è osservato che non esiste un metodo dominante: alcune tecniche funzionano a meraviglia su compiti di ragionamento matematico, ma falliscono su problemi di tipo narrativo o viceversa. Queste discrepanze sollecitano le imprese a testare i prompt in modo esteso prima di integrarli in processi critici.

Gli autori hanno anche trattato la questione della valutazione automatica, spiegando che, per stabilire se un prompt risulta efficace, serve un sistema di scoring che confronti la risposta generata con lo standard di riferimento. In alcune ricerche, sono state confrontate frasi in più formati di output e poi confrontate con la verità nota. Tuttavia, si constata l’esigenza di una validazione umana in situazioni di maggiore complessità, soprattutto quando il compito è creativo o soggetto a interpretazioni sottili.

Nella ricerca si evidenzia il rischio legato all’eccessiva sicurezza nelle risposte generate dai modelli. Spesso, questi sistemi forniscono risposte con un alto grado di fiducia, anche quando risultano errate. È fondamentale avvisare l’utente e promuovere una generazione di contenuti più equilibrata, includendo richieste che stimolino una stima accurata del livello di certezza. Tuttavia, i modelli non sempre mostrano una trasparenza statistica affidabile, e sollecitare l’elaborazione di percentuali di fiducia potrebbe non essere sufficiente. Si riscontrano infatti situazioni in cui i modelli sopravvalutano l’attendibilità delle proprie risposte. In ambito aziendale, questa mancanza di segnalazione degli errori può rappresentare un problema significativo, poiché un sistema che appare credibile ma fornisce informazioni inesatte rischia di causare conseguenze dannose.

La dimensione numerica di tali studi appare imponente. Nel documento si cita una revisione sistematica che ha incluso ben 1.565 articoli, filtrati secondo criteri ristretti, al fine di ricomporre un panorama completo della prompt engineering. Su questa base, i ricercatori hanno fatto emergere i rischi e le potenzialità legati alla sicurezza, evidenziando la necessità di soluzioni specializzate.

Prompt Engineering: strategie avanzate e strumenti di valutazione

Nella ricerca sono descritti scenari in cui si preferisce gestire più passaggi di prompt in sequenza, creando una prompt chain. Tale catena permette al modello di costruire risposte graduali. Un sistema potrebbe, in un primo stadio, generare ipotesi, poi verificare tali ipotesi con un secondo passaggio, infine fornire una versione definitiva. Questo meccanismo agevola compiti complessi, come la risoluzione di problemi matematici e la pianificazione di attività in più step.

In contesti aziendali o di ricerca, la complessità della domanda può richiedere un recupero di informazioni esterne. Si parla di agenti che integrano la cosiddetta “retrieval augmented generation”, dove il prompt ordina al modello di reperire elementi da database o da altri servizi. Citando uno degli esempi presenti, un modello che deve rispondere sullo stato del meteo potrebbe fare una chiamata a un’API dedicata, se pilotato correttamente dal prompt. Tutto ciò apre le porte a interazioni più dinamiche: la chain-of-thought non è solo linguistica, ma può includere azioni reali in ambiente esterno.

La valutazione del risultato ottenuto è un altro capitolo cruciale. Da un lato, esistono procedure di self-consistency, in cui lo stesso modello genera più versioni della risposta con un certo grado di casualità. Tra queste, si seleziona la più frequente o la più coerente, secondo alcune metriche interne. Dall’altro, si sperimenta con meccanismi di “pairwise evaluation”, dove il modello confronta due risposte e sceglie la migliore. Metodi di auto-giudizio possono alleggerire il peso di valutazioni umane, ma non sono infallibili, come spiegato nel paper di Schulhoff e colleghi, perché i modelli talvolta preferiscono risposte lunghe o formalmente complesse senza che siano davvero migliori.

Si introduce poi il concetto di “answer engineering”, ossia la pratica di isolare e formattare con precisione la risposta desiderata. Questa tecnica si rivela particolarmente utile quando è necessario ottenere previsioni sintetiche, come “positivo” o “negativo”, oppure un codice numerico specifico. In sua assenza, la generazione di un testo libero e articolato rischia di celare l’informazione ricercata, complicando l’interpretazione automatica. In ambito manageriale, avere a disposizione un output già strutturato può ridurre significativamente la necessità di interventi manuali.

La discussione relativa agli strumenti di valutazione mette in luce progetti come “LLM-EVAL”, “G-EVAL” e “ChatEval”. Sono cornici che invitano il modello a generare un punteggio o un commento su un testo, seguendo guide create dallo stesso modello o da operatori umani. Proprio in questo contesto, la recente ricerca di Aichberger, Schweighofer e Hochreiter, e in particolare il loro metodo G-NLL, acquista un'importanza notevole. Il metodo G-NLL stima il grado di incertezza basandosi sulla probabilità associata all'output determinato come più rappresentativo, calcolato tramite un processo di decodifica deterministica (greedy decoding). Tale approccio potrebbe essere integrato in questi sistemi per offrire una misura quantitativa dell'affidabilità dei punteggi o dei commenti generati.

Ad esempio, se un modello genera la frase “La capitale della Francia è Parigi” con una probabilità molto alta rispetto ad alternative come “Roma” o “Berlino”, avremo un G-NLL basso. Invece, qualora il modello non fosse certo tra più opzioni, il G-NLL risulterebbe più alto, indicando maggiore incertezza.

Infatti, quando “LLM-EVAL”, “G-EVAL” o “ChatEval” producono una valutazione, si potrebbe affiancare a essa il calcolo del G-NLL della sequenza di testo che costituisce la risposta del modello. In questo modo, un G-NLL basso indicherebbe un'alta probabilità della sequenza generata e, di conseguenza, una maggiore affidabilità della valutazione. Viceversa, un G-NLL elevato segnalerebbe un'elevata incertezza, suggerendo cautela nell'interpretazione del punteggio o del commento. Si potrebbe addirittura pensare di ponderare i punteggi generati in base al valore di G-NLL, dando maggior peso a quelli associati a una minore incertezza, o di stabilire una soglia di G-NLL oltre la quale la valutazione del modello viene considerata inaffidabile e scartata, richiedendo un intervento umano. In questo scenario, il valore di G-NLL potrebbe anche guidare un processo di miglioramento iterativo del prompt o del modello stesso, dato che valori di G-NLL costantemente alti potrebbero suggerire la necessità di rivedere il prompt, il processo di fine-tuning o l'architettura del modello.

L'integrazione di G-NLL in questi framework di valutazione fornirebbe quindi un ulteriore livello di controllo, quantificando l'incertezza associata alle valutazioni e rendendole più affidabili. Questo aspetto è cruciale soprattutto quando i compiti diventano sfumati, come evidenziato da Schulhoff e colleghi, poiché affidarsi unicamente al giudizio del modello, senza una misura della sua incertezza, potrebbe portare a decisioni errate o a valutazioni imprecise. L'approccio di Aichberger, Schweighofer e Hochreiter si configura dunque come uno strumento prezioso per rendere più robusta e affidabile la valutazione automatica in contesti complessi.

In sintesi, la combinazione di prompt multipli, azioni esterne, procedure di controllo automatico e la stima dell'incertezza tramite G-NLL costituisce un ecosistema che aumenta in complessità, ma anche in potenziale utilità, specialmente quando si automatizzano processi delicati o si ha a che fare con compiti sfumati. La ricerca futura potrebbe concentrarsi sull'integrazione pratica di G-NLL all'interno di framework di valutazione come quelli discussi, valutandone l'impatto in termini di accuratezza, affidabilità e riduzione dell'intervento umano.

Prompt Engineering Multimodale: oltre il testo

Gli ultimi sviluppi mostrano come la prompt engineering non si applichi solo al testo. Molte attività di ricerca puntano su modelli che processano immagini, audio o video. È un modo per ampliare la sfera di utilizzo di questi sistemi, con ricadute potenzialmente enormi su settori come la robotica, la diagnosi medica per immagini o la creazione di contenuti multimediali.

Gli autori parlano di “image-as-text prompting”: l’idea di convertire un’immagine in una descrizione testuale, così da inserirla all’interno di un prompt più esteso. Tale accorgimento facilita compiti come la didascalia automatica di foto o la risposta a domande visive. Emergono anche tecniche per generare immagini partendo da un prompt testuali, dove si aggiungono “prompt modifiers” per controllare lo stile. L’equilibrio tra i termini da sottolineare o da escludere con un peso negativo risulta analogo alle pratiche di ottimizzazione testuale viste in ambito linguistico.

Anche il campo dell’audio è oggetto di sperimentazioni che si concentrano su trascrizione, traduzione vocale e persino sulla riproduzione del timbro vocale. Alcuni studi hanno esplorato l’applicazione del few-shot learning, ovvero l'apprendimento basato su pochi esempi, al parlato, sebbene i risultati ottenuti non siano sempre coerenti o affidabili. Le analisi presentate da Schulhoff e collaboratori evidenziano che i modelli audio sviluppati mediante reti neurali spesso necessitano di ulteriori fasi di elaborazione per migliorare le prestazioni. In questo ambito, il concetto di prompting si intreccia con le pipeline di estrazione delle caratteristiche, poiché la natura della sequenza vocale non permette una conversione diretta in un formato testuale assimilabile a un token.

La sezione dedicata ai video esplora la possibilità di generare o modificare clip partendo da un input descrittivo. Si descrivono test preliminari su segmenti video, in cui il sistema crea versioni iniziali dei frame successivi. Sono in corso anche sviluppi per progettare agenti capaci, grazie a istruzioni formulate in modo appropriato, di interagire con un ambiente simulato e produrre azioni mirate. Un esempio significativo potrebbe essere un robot che, guidato da un comando espresso in linguaggio naturale, riesca a comprendere come muoversi in uno spazio o gestire oggetti fisici in modo efficace.

C'è infine un crescente interesse per la 3D prompt engineering, un approccio che integra suggerimenti testuali con modelli di sintesi volumetrica o rendering. Nel design di prodotto o nell'architettura, ad esempio, frasi come “crea un modello 3D con superfici lisce e simmetriche” permettono di generare modifiche su mesh o strutture geometriche. Questa trasformazione dal linguaggio a forme tridimensionali apre prospettive affascinanti, con ricadute significative sulla prototipazione industriale e sull’intrattenimento interattivo.

La multidisciplinarità delle ricerche conferma che il passaggio “prompt-risposta” può essere declinato in infiniti modi. Ogni volta si cerca di creare un collegamento tra l’interpretazione a monte del modello e l’output che si vuole ottenere. Non è più solo una questione di frasi e paragrafi: si tratta di un canale espandibile verso qualsiasi segnale digitale, dove la logica di prompting rimane la stessa, ma cambia il modo di codificare e decodificare le informazioni.

Focus su un esperimento reale di Prompt Engineering

Nel paper viene descritto uno scenario di suicidal risk detection, in cui si è cercato di capire se un modello potesse riconoscere segnali di grave crisi in testi postati da utenti in difficoltà. Sono stati utilizzati post tratti da un forum specializzato nel supporto a chi mostra pensieri di autolesionismo. Gli studiosi hanno selezionato oltre duecento messaggi, contrassegnandone alcuni con la categoria “entrapment” o “frantic hopelessness”, secondo la definizione clinica di interesse. L’obiettivo era far sì che il modello replicasse tale etichettatura, senza erogare consigli medici.

Il prompt di partenza forniva una descrizione sintetica di cosa significasse “entrapment” e chiedeva al modello di restituire un semplice “sì” o “no”. Ci si è scontrati con problemi di eccessiva generazione di testo, in cui il modello provava a fornire suggerimenti sanitari. Per risolvere la questione, è stato aggiunto un contesto più ricco, che spiegava esplicitamente la finalità dell’esperimento e chiedeva di non dare consigli. Sono stati poi testati prompt con esempi (few-shot) e catene di ragionamento generati dallo stesso modello. Si cercava di migliorare la precisione e di ridurre i falsi positivi.

Attraverso una serie di quarantasette fasi di ottimizzazione, il punteggio F1, una misura statistica utilizzata per valutare l'equilibrio tra precisione (percentuale di elementi rilevanti correttamente identificati) e richiamo (percentuale di elementi rilevanti totali effettivamente individuati), è migliorato sensibilmente. Si è passati da valori estremamente bassi, dovuti all'incapacità iniziale del modello di rispettare la formattazione, a risultati più soddisfacenti, sebbene ancora distanti dalla perfezione. Per migliorare la cattura dell’output, i ricercatori hanno integrato nel prompt estrattori specifici e regole finali, costringendo il sistema a rispondere con un semplice “sì” o “no” senza aggiungere altro. Tuttavia, anche con queste accortezze, si verificavano occasionalmente risposte incomplete. In uno degli esperimenti è stato osservato che la rimozione di un'e-mail dal testo di riferimento causava un netto calo di accuratezza, suggerendo che il contenuto aggiuntivo fosse cruciale per orientare il modello a ragionare in modo più efficace.

Questo esempio reale mette in risalto come la costruzione di un prompt non sia un semplice comando, bensì un lavoro di fine tuning discorsivo. Ogni piccolo dettaglio, come la posizione delle istruzioni, la presenza di un testo duplicato o la definizione di un vincolo stretto, incide sull’esito. Emerge inoltre il contrasto tra l’esigenza di coerenza e la tendenza del modello a interpretare la richiesta in maniera troppo libera. È un segnale forte per imprenditori e dirigenti: laddove i risultati abbiano implicazioni delicate, è prudente coinvolgere esperti del settore (clinico, legale, ecc.) e ingegneri specializzati nei prompt. Non basta l’ottimizzazione in astratto, ma serve un raccordo continuo con le linee guida deontologiche.

Gli studiosi hanno anche provato strumenti di automazione per generare e valutare i prompt in sequenza, scoprendo che a volte l’algoritmo migliorava certi punteggi. Eppure, l’interazione umana si è rivelata ugualmente decisiva per modulare i falsi positivi: un software di ottimizzazione tendeva infatti a sacrificare la sensibilità in favore di una maggior precisione, con rischi etici evidenti. Questo racconto di un caso concreto dimostra che la prompt engineering non è un esercizio teorico, ma un percorso che richiede spirito esplorativo, attenzione ai dettagli e consapevolezza delle ricadute reali.

Prompt Engineering Generative AI e sicurezza: Linee guida OWASP

Nel panorama in continua evoluzione dell'intelligenza artificiale generativa, la sicurezza informatica assume un ruolo di primaria importanza, specialmente quando si ha a che fare con i modelli linguistici di grandi dimensioni. Il documento "OWASP Top 10 for LLM Applications 2025" offre una disamina dettagliata e aggiornata delle principali minacce che incombono su queste tecnologie, andando ad arricchire il quadro delineato dal paper di Schulhoff e colleghi.

In particolare, OWASP si sofferma su dieci vulnerabilità cruciali, fornendo una prospettiva indispensabile per chiunque utilizzi i LLM in contesti operativi reali, sia in ambito aziendale che di ricerca. Una delle problematiche più insidiose è senza dubbio il Prompt Injection, che si articola in due varianti: diretta e indiretta. Nel primo caso, l'attaccante inserisce input malevoli direttamente nel prompt, mentre nel secondo, sfrutta fonti esterne processate dal modello. Non basta, quindi, affidarsi a tecniche come il Retrieval Augmented Generation (RAG) o il fine-tuning; è cruciale implementare solidi controlli di accesso, validare attentamente gli input e prevedere un'approvazione umana per le azioni più delicate. Immaginiamo, ad esempio, un chatbot che, a causa di un prompt malevolo, conceda accessi non autorizzati o un modello che, processando istruzioni nascoste in una pagina web, venga manipolato a insaputa dell'utente.

Altrettanto critica è la questione della divulgazione involontaria di informazioni sensibili, la cosiddetta "Sensitive Information Disclosure". Il documento OWASP pone l'accento sulla necessità di sanitizzare i dati e di applicare controlli di accesso rigorosi, introducendo il concetto di "Proof Pudding", un attacco che sfrutta proprio la fuga di dati di addestramento per compromettere il modello. La sicurezza, però, non si limita ai dati in entrata e in uscita, ma si estende all'intera catena di approvvigionamento dei modelli LLM. L'utilizzo di modelli pre-addestrati da terze parti, pratica sempre più comune, porta con sé il rischio di imbattersi in modelli compromessi, con backdoors o bias occulti. Per questo motivo, OWASP suggerisce di adottare strumenti come gli SBOM (Software Bill of Materials) e di eseguire controlli di integrità approfonditi.

Strettamente connessa è la vulnerabilità del "Data and Model Poisoning", che si concentra sulla manipolazione intenzionale dei dati usati per l'addestramento. Per contrastarla, oltre a un'attenta verifica della provenienza dei dati, si propongono tecniche di rilevamento delle anomalie e test di robustezza specifici. Un output del modello non gestito correttamente, ovvero "Improper Output Handling", può aprire la strada a vulnerabilità come XSS o SQL injection; da qui la raccomandazione di trattare l'output del LLM come potenzialmente pericoloso, applicando le stesse tecniche di validazione e sanitizzazione previste per gli input degli utenti.

Un altro aspetto cruciale è quello dell'"Excessive Agency", che si verifica quando un LLM dispone di permessi o capacità superiori al necessario. Per mitigare questo rischio, OWASP suggerisce di limitare al minimo le funzionalità e i permessi dei modelli, integrando meccanismi di "human-in-the-loop" per le azioni più critiche. Il documento introduce poi la categoria del "System Prompt Leakage", ovvero la fuga di informazioni sul prompt di sistema. Anche se questo prompt non dovrebbe mai contenere dati sensibili, la sua esposizione può aiutare un attaccante a capire meglio il funzionamento del modello e a bypassare eventuali controlli. Meglio, quindi, non inserire informazioni riservate nei prompt di sistema e non affidarsi solo a questi per controllare il comportamento del modello.

Nuova e di particolare interesse è la categoria "Vector and Embedding Weaknesses", che si focalizza sulle vulnerabilità legate all'uso di vettori ed embedding, soprattutto nel contesto del RAG. Controlli di accesso e di integrità diventano quindi fondamentali per prevenire manipolazioni o accessi non autorizzati a queste componenti vitali. Non da meno è il problema della "Misinformation": OWASP considera la generazione di informazioni false o fuorvianti da parte dei LLM come una vulnerabilità specifica, raccomandando tecniche di verifica esterna, fact-checking e una comunicazione trasparente sui limiti di questi modelli.

Infine, "Unbounded Consumption" riguarda il consumo eccessivo di risorse, con possibili conseguenze economiche e di disponibilità del servizio. Rate limiting, monitoraggio delle risorse e timeout per le operazioni più lunghe sono alcune delle contromisure suggerite. In conclusione, la sicurezza dei LLM è un tema complesso e sfaccettato, che richiede un approccio olistico e stratificato. Il documento OWASP, con la sua tassonomia dettagliata e in continua evoluzione, rappresenta una risorsa preziosa per chiunque voglia addentrarsi in questo campo, fornendo linee guida concrete per sfruttare il potenziale dei modelli linguistici di grandi dimensioni, minimizzando al contempo i rischi associati. La sicurezza, in questo contesto, non può essere un optional, ma un requisito fondamentale, integrato fin dalla progettazione, per garantire l'affidabilità e la sostenibilità di queste tecnologie sempre più pervasive.

Conclusioni

Dall’analisi emerge che la prompt engineering è diventata un tassello centrale nell’uso delle Generative AI, ma resta un ambito in evoluzione. L’ampio spettro di tecniche, dai metodi per decomporre i problemi alle strategie di self-consistency, dimostra quanto sia variegata la scena. Se da un lato si vedono progressi incoraggianti nello sfruttamento del contesto linguistico, dall’altro persistono rischi legati a inganni testuali e riposte sbilanciate in termini di fiducia e precisione.

Le prospettive per il settore imprenditoriale e manageriale sono significative, perché un prompt mirato può automatizzare la generazione di rapporti o la classificazione di dati, riducendo tempi e costi. In parallelo, lo stato dell’arte richiede test rigorosi: come si è visto negli esperimenti sul riconoscimento di segnali di crisi, non basta trasferire una procedura da un sistema all’altro confidando che funzioni. L’esistenza di modelli e tecnologie similari, capaci di operare con strategie di prompting diverse, suggerisce di valutare comparativamente ogni soluzione, comprendendo limiti e potenzialità.

Da una prospettiva più approfondita, la prompt engineering non coincide con la programmazione tradizionale. Si tratta, piuttosto, di “cucire” istruzioni e contesti di esempio attorno alla natura statistica del modello, affinché l’output risponda con precisione alle esigenze reali. Non è uno schema meramente meccanico: occorre un continuo dialogo tra chi costruisce i prompt e chi conosce a fondo il dominio di applicazione. Da questa sinergia nascono le soluzioni più affidabili, dove l’equilibrio tra sicurezza, precisione e coerenza semantica non è mai dato per scontato.

Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Prompt-Engineering-Generative-AI-strategie--sicurezza-e-applicazioni-pratiche-e2su3fa

Fonte: https://arxiv.org/abs/2406.06608