L'ascesa recente dei sistemi di intelligenza artificiale, come ChatGPT, rappresenta una sfida fondamentale per il settore educativo. Il caso studio che analizziamo ha esplorato l'infiltrazione dell'intelligenza artificiale nei sistemi di esame universitari, mettendo alla prova la capacità delle università di rilevare l'utilizzo di strumenti di AI per completare valutazioni accademiche. La ricerca è stata condotta da Peter Scarfe, Kelly Watcham, Alasdair Clarke ed Etienne Roesch presso l'Università di Reading, nel Regno Unito, ed è stata pubblicata sulla rivista PLOS ONE il 26 giugno 2024.
Obiettivo e metodologia
L'obiettivo principale dello studio è stato valutare la capacità di un'università di rilevare risposte d'esame generate da un sistema di AI (nello specifico GPT-4) e l'effetto di queste risposte sul sistema di valutazione.
La metodologia ha previsto l'iniezione di risposte generate dall'AI in cinque moduli, distribuiti su tutti gli anni di studio di un corso di laurea BSc in Psicologia presso l'Università di Reading. Per ogni modulo, circa il 5% del totale delle risposte è stato prodotto dall'AI, un numero gestibile che permetteva di non sovraccaricare i valutatori e garantiva una copertura uniforme.
Sono stati utilizzati due tipi di esami: Short Answer Questions (SAQ) ed Essay Based Questions. Gli esami SAQ consistevano nella risposta a quattro domande a scelta su sei, con una finestra di tempo di 2,5 ore. Per gli esami di tipo Essay, gli studenti dovevano rispondere a una singola domanda con un saggio, da completare in un limite di tempo di 8 ore. Tutti gli esami erano svolti a casa, con accesso a materiali di studio, articoli accademici e internet, il che aumentava il rischio di utilizzo non rilevato di strumenti di AI.
Per garantire la varietà delle risposte AI, sono stati utilizzati prompt standardizzati per ogni tipo di domanda. Tuttavia, è emerso che il modello GPT-4 tendeva a produrre un numero di parole non sempre in linea con il limite richiesto: 160 parole per SAQ risultavano spesso eccedenti, mentre 2000 parole per gli Essay erano a volte insufficienti, richiedendo l'utilizzo del prompt "Per favore continua la tua risposta" per generare testi più completi. In alcuni casi, nonostante il prompt, l'AI generava sezioni di riferimento che sono state successivamente rimosse per coerenza con il formato di risposta richiesto.
Un aspetto interessante del design dell'esperimento è stato l'uso di alias di studenti universitari creati appositamente per la sottomissione delle risposte AI, che hanno consentito di mantenere l'anonimato e garantire che le risposte venissero trattate come qualunque altra risposta reale dagli strumenti di sottomissione e valutazione esistenti. Le risposte AI sono state inviate alla fine del periodo di sottomissione per ogni esame, replicando fedelmente il comportamento atteso dagli studenti.
Esami universitari e AI: risultati principali
I risultati dello studio hanno evidenziato alcune tendenze particolarmente interessanti. Oltre al fatto che il 94% delle risposte generate dall'AI non è stato rilevato come sospetto, è stato rilevato che le risposte dell'AI tendevano a ottenere punteggi superiori alla media degli studenti reali in quattro dei cinque moduli.
Questo effetto è stato quantificato attraverso diverse misure, che offrono una visione più approfondita dei risultati ottenuti:
Distribuzione dei voti: Le risposte generate dall'AI hanno mostrato una concentrazione nella fascia alta dei punteggi. In particolare, i voti ottenuti dalle risposte dell'AI erano spesso collocati tra il 2:1 e il primo livello. Nei grafici di distribuzione dei voti, le risposte dell'AI sono risultate concentrate nella fascia superiore rispetto alle risposte degli studenti reali, con medie situate nelle classificazioni più alte.
Analisi delle mediane: In quattro dei cinque moduli, le mediane dei voti delle risposte dell'AI si trovavano nel range 2:1 e primo livello (considerati eccellenti nel sistema di classificazione britannico). Solo nel modulo P3-M1, l'AI ha ottenuto voti inferiori rispetto agli studenti reali, indicando una difficoltà nell'affrontare contenuti di livello più avanzato e astratto.
Vantaggio di punteggio: In termini di vantaggio sui voti, il margine medio dei voti delle risposte dell'AI era superiore di circa mezza classe di classificazione rispetto ai voti degli studenti reali, con differenze estreme che in alcuni casi hanno raggiunto quasi un'intera classe di classificazione. Nel modulo P1-M2, ad esempio, l'AI ha ottenuto mediamente voti di prima classe, superando nettamente gli studenti reali.
Probabilità di superamento: Attraverso un'analisi di campionamento casuale ripetuto 100.000 volte, è emerso che vi era una probabilità dell'83,4% che un campione casuale di risposte dell'AI superasse un campione casuale di risposte di studenti reali. Nei moduli di livello più basso, come P1-M1 e P1-M2, tale probabilità era quasi del 100%. Solo nel modulo più avanzato, P3-M1, l'AI ha avuto una probabilità del 19% di superare le risposte degli studenti.
Analisi della percentuale di superamento: Complessivamente, solo il 16% delle risposte degli studenti ha ottenuto un punteggio superiore rispetto alla mediana delle risposte dell'AI, confermando la performance complessiva superiore delle risposte generate dall'AI.
Questi risultati suggeriscono che l'AI non solo è riuscita a passare inosservata in termini di rilevabilità, ma è anche riuscita a produrre contenuti di qualità significativamente superiore rispetto agli studenti in diversi contesti. Tuttavia, l'AI ha mostrato limiti in compiti che richiedevano un ragionamento più astratto, come evidenziato nel modulo P3-M1.
La sfida del rilevamento dell'AI nelle valutazioni accademiche
L'analisi dei dati raccolti durante lo studio ha evidenziato una bassa capacità di rilevamento delle risposte generate dall'AI da parte dei valutatori e dei sistemi attualmente in uso. Solo il 6% delle risposte è stato segnalato per sospetti di cattiva condotta accademica, senza che vi fosse un riferimento esplicito all'uso di intelligenza artificiale. Quando il criterio di rilevamento è stato ristretto ai soli casi in cui l'AI veniva specificamente menzionata, la percentuale di rilevamento è ulteriormente scesa al 3%. Questo evidenzia una significativa difficoltà nell'individuare contenuti generati dall'AI, nonostante gli sforzi dei valutatori.
Un'analisi più dettagliata ha rivelato che la capacità di rilevare l'AI era particolarmente inefficace nelle domande di tipo Essay Based, dove nessuna delle risposte generate dall'AI è stata identificata come sospetta. Questo potrebbe essere attribuito alla capacità del modello GPT-4 di generare risposte articolate e coerenti, che si avvicinano allo stile di scrittura degli studenti reali, rendendo estremamente difficile differenziare tra contenuti umani e generati. Al contrario, per le domande di tipo Short Answer Questions (SAQ), in cui non erano utilizzati software di verifica della similitudine, si è verificata qualche segnalazione. Tuttavia, anche in questi casi, il tasso di rilevamento rimaneva estremamente basso.
È interessante notare come i marker, ovvero i valutatori incaricati di assegnare i voti, abbiano segnalato come sospette solo le risposte che presentavano caratteristiche particolarmente anomale, come una qualità stilistica troppo elevata rispetto alle attese per un esame universitario. In questi casi, alcuni marker hanno persino provato a verificare la risposta tramite l'uso di sistemi di rilevamento dell'AI, ma con risultati poco efficaci.
Secondo quanto emerso dallo studio, la maggior parte dei marker non aveva sufficienti strumenti e linee guida per identificare l'uso dell'AI, e persino i software progettati per rilevare la generazione di testi da parte di modelli di linguaggio risultavano insufficienti. Ad esempio, i sistemi di rilevamento utilizzati, tra cui anche soluzioni sviluppate appositamente per GPT-4, avevano un tasso di rilevamento di successo inferiore al 26%, rendendo di fatto inutili i loro sforzi per contrastare l'uso non autorizzato dell'AI nelle valutazioni.
Questi risultati suggeriscono una forte necessità di sviluppare nuovi metodi di valutazione dell'integrità accademica e di potenziare la formazione dei marker nel riconoscere segnali di utilizzo dell'AI, considerando anche l'alta probabilità di falsi negativi. L'analisi delle percentuali di rilevamento e dei voti ottenuti ha mostrato chiaramente che le risposte dell'AI non solo erano praticamente indistinguibili, ma ottenevano anche voti migliori rispetto a quelle degli studenti reali, collocandosi in una posizione pericolosa per l'integrità accademica. L'adozione di strumenti di proctoring remoto e l'integrazione di nuovi approcci pedagogici sembrano essere le opzioni più concrete per contrastare il problema in futuro.
Implicazioni per l'integrità accademica
Questo studio solleva seri dubbi sull'integrità accademica e sulla capacità degli istituti di istruzione superiore di affrontare l'uso dell'AI. Con una percentuale così elevata di risposte AI non rilevate e addirittura in grado di ottenere voti più alti rispetto agli studenti reali, c'è il rischio concreto che gli studenti possano utilizzare l'AI per ottenere vantaggi accademici non meritati.
L'uso non rilevato dell'AI solleva il rischio di una profonda distorsione del valore dei titoli di studio. Se l'AI è in grado di superare sistematicamente gli studenti umani e le sue risposte non vengono rilevate, c'è il pericolo che i voti non riflettano più le competenze individuali degli studenti, ma piuttosto la loro abilità nell'utilizzare strumenti tecnologici per migliorare le proprie prestazioni. Questo compromette l'affidabilità del sistema educativo come indicatore di merito e conoscenza acquisita.
In aggiunta, il fenomeno dell'AI che "allucina", ovvero che produce informazioni false ma apparentemente credibili, aggiunge un ulteriore livello di complessità. Tuttavia, il fatto che tali errori non siano stati abbastanza evidenti da allertare i valutatori sottolinea quanto sia arduo per gli insegnanti distinguere tra risposte autentiche e quelle generate automaticamente.
Questo problema diventa ancora più critico considerando che anche gli strumenti più avanzati per la rilevazione dell'AI si sono dimostrati inefficaci.
Un altro aspetto importante è il crescente fenomeno degli esami non supervisionati, una pratica accelerata dalla pandemia di COVID-19. Questo formato di esame offre agli studenti un'opportunità molto maggiore di sfruttare strumenti di AI per completare i loro compiti. La ricerca ha mostrato come gli esami a casa, senza vigilazione, siano particolarmente vulnerabili a questo tipo di abuso. Poiché i voti assegnati agli elaborati generati dall'AI erano spesso più alti rispetto alla media degli studenti, è probabile che un numero crescente di studenti potrebbe essere incentivato a utilizzare l'AI per migliorare le proprie prestazioni accademiche.
L'inclusione della tecnologia AI nella formazione accademica potrebbe essere inevitabile, ma è necessario che vengano stabilite norme chiare su come e quando sia lecito farne uso. Una possibile risposta potrebbe essere quella di rivedere i metodi di valutazione, integrando modalità che siano più difficili da affrontare con l'uso dell'AI. Ad esempio, compiti pratici, valutazioni orali o progetti di gruppo supervisionati potrebbero ridurre l'impatto dell'uso non autorizzato di strumenti tecnologici. Inoltre, potrebbe essere utile insegnare agli studenti come utilizzare l'AI in modo etico e con consapevolezza, preparando una generazione di laureati che sappia sfruttare queste tecnologie senza cadere in comportamenti di cattiva condotta accademica.
Conclusioni
L’integrazione dell’intelligenza artificiale nei sistemi di esame universitari rappresenta un punto di svolta cruciale per il settore educativo, evidenziando vulnerabilità profonde nei metodi di valutazione tradizionali e sollevando questioni fondamentali sull’integrità accademica e il futuro della formazione. Lo studio analizzato mette in luce una realtà scomoda: l’AI non solo è difficile da rilevare, ma spesso supera in qualità le risposte degli studenti, dimostrando che i criteri di valutazione attuali possono favorire contenuti generati da algoritmi piuttosto che dalla comprensione umana. Questo dato sottolinea un paradosso: il successo accademico potrebbe dipendere sempre meno dalla capacità individuale e sempre più dalla competenza tecnologica, minando il principio meritocratico alla base dell’istruzione superiore.
Gli esami universitari e l’AI aprono scenari di grande rilevanza strategica, caratterizzati da una notevole complessità e vastità di implicazioni. In primo luogo, emerge una sfida sistemica: se l’AI è in grado di produrre risposte non rilevabili e di alta qualità, ciò costringe le istituzioni a riconsiderare non solo i metodi di rilevazione, ma anche il concetto stesso di valutazione delle competenze. La capacità di memorizzare informazioni o di scrivere un saggio ben strutturato potrebbe non essere più il parametro di riferimento per misurare l’apprendimento. Diventa quindi essenziale ridefinire gli obiettivi educativi, puntando su competenze che l’AI non può replicare facilmente, come il pensiero critico, la creatività e la capacità di integrare conoscenze interdisciplinari.
Questo cambiamento richiede una transizione da un modello valutativo reattivo a uno proattivo. Le università devono sviluppare approcci che non si limitino a rilevare l’uso dell’AI, ma che considerino l’AI stessa come uno strumento didattico da integrare in modo etico. Ad esempio, anziché proibire l’uso dell’AI, gli studenti potrebbero essere valutati sulla loro capacità di collaborare con essa in modo efficace, trasparente e innovativo. Tale approccio non solo ridurrebbe il rischio di abuso, ma preparerebbe gli studenti a un mondo del lavoro dove l’AI è sempre più pervasiva.
Un altro elemento cruciale è l’urgenza di creare un ecosistema educativo resiliente. La pandemia ha accelerato l’adozione di esami non supervisionati, ma questo formato si è dimostrato particolarmente vulnerabile all’abuso dell’AI. Le istituzioni devono bilanciare la necessità di flessibilità con l’esigenza di garantire l’integrità dei risultati. Soluzioni come il proctoring remoto, pur utili, rischiano di compromettere la fiducia tra studenti e università se percepite come invasive. Di conseguenza, è fondamentale sviluppare strumenti tecnologici meno intrusivi ma più efficaci e investire in una cultura della trasparenza e dell’etica.
Infine, le implicazioni non riguardano solo l’educazione, ma anche il mercato del lavoro e la società nel suo complesso. Se i titoli di studio perdono credibilità, si rischia una crisi di fiducia nei confronti delle istituzioni accademiche, con conseguenze dirette sull’occupabilità dei laureati. Le imprese, dal canto loro, dovranno adattare i loro processi di selezione per distinguere tra competenze effettive e abilità derivanti dall’uso dell’AI. Questo richiede una maggiore collaborazione tra università e datori di lavoro per definire standard di valutazione che riflettano le reali capacità dei candidati.
In sintesi, l’avvento dell’AI nei sistemi di esame universitari rappresenta non solo una sfida tecnologica, ma anche un’opportunità unica per ripensare l’educazione e il suo ruolo nella società. Il futuro dell’apprendimento non sarà determinato dalla capacità di evitare l’AI, ma dalla capacità di conviverci, sfruttandola come catalizzatore di una formazione più autentica, inclusiva e orientata al mondo reale.
Comments