I modelli generativi vengono addestrati con l'obiettivo di imitare la distribuzione di probabilità condizionale indotta dai dati su cui sono addestrati. Questo significa che il modello cerca di replicare la probabilità con cui si verificano certi eventi o caratteristiche nei dati di addestramento. Ad esempio, se un modello viene addestrato su testi scritti in inglese, cercherà di generare nuove frasi seguendo le stesse probabilità di sequenze di parole trovate nei testi originali. Pertanto, quando questi modelli vengono addestrati su dati generati da esseri umani, non ci si aspetta che possano superare le prestazioni degli esseri umani stessi. In questo studio, viene esaminato il fenomeno della trascendenza AI, ovvero quando un modello generativo raggiunge capacità che superano quelle degli esperti che hanno generato i dati su cui è stato addestrato.
Questo fenomeno è stato dimostrato addestrando un trasformatore autoregressivo a giocare a scacchi utilizzando trascrizioni di partite, mostrando che il modello addestrato può a volte ottenere prestazioni migliori di tutti i giocatori presenti nel dataset di addestramento. È stato provato teoricamente che la trascendenza AI è abilitata dal campionamento a bassa temperatura e questo è stato valutato sperimentalmente in modo rigoroso. Il campionamento a bassa temperatura è una tecnica utilizzata nei modelli generativi per controllare la casualità delle risposte generate. In questo contesto, la "temperatura" è un parametro che influenza la probabilità di selezionare parole meno comuni durante la generazione di testo: una temperatura bassa rende il modello più deterministico e meno incline a produrre variazioni casuali, favorendo risposte più accurate e pertinenti. Infine, vengono discussi altre fonti di trascendenza AI, ponendo le basi per future indagini su questo fenomeno in un contesto più ampio.
Per chi fosse interessato a interagire con i modelli, il codice e i dati utilizzati nello studio, sono disponibili sul sito web all'indirizzo: Transcendence Project.
Trascendenza AI
I modelli generativi come ChatGPT, Gemini o Claude sono progettati per emulare il comportamento umano in diverse attività, come rispondere a domande, creare immagini o scrivere codice informatico. L'obiettivo principale di questi modelli è ridurre al minimo la discrepanza tra le loro risposte e quelle umane, adattandosi al modo di rispondere degli esseri umani. Sebbene i chatbot possano essere migliorati dopo l'addestramento tramite tecniche come l'apprendimento rinforzato basato sul feedback umano (RLHF), si presume che le conoscenze e le abilità fondamentali siano già state acquisite.
Quindi, si potrebbe pensare che un modello possa solo eguagliare le prestazioni di un esperto umano nei suoi compiti. Tuttavia, è possibile che questi modelli possano superare gli esperti in alcuni campi? Un esempio di questo fenomeno viene dimostrato misurando i punteggi di scacchi (Glicko-2) di diversi modelli transformer. Gli scacchi sono stati scelti come area di prova per la loro natura ben conosciuta e definita. I modelli transformer vengono addestrati su dataset pubblici di partite di scacchi, prevedendo la mossa successiva nel gioco. Per verificare se i modelli possono superare gli esperti, si limita il punteggio massimo dei giocatori umani nel dataset di addestramento. È stato scoperto che ChessFormer 1000 e ChessFormer 1300 (dove il numero rappresenta il punteggio massimo osservato durante l'addestramento) ottengono risultati superiori al punteggio massimo presente nel dataset. Questo dimostra che un modello generativo può migliorare
significativamente rispetto alle performance degli esperti su cui si è basato l’addestramento.
Il punto centrale di questi risultati è l'osservazione che i modelli generativi funzionano come se stessero facendo una "votazione di maggioranza" tra vari esperti umani. Questi modelli sono addestrati utilizzando le conoscenze di molti esperti con diverse capacità, preferenze e pregiudizi. Grazie a questa "votazione", i modelli spesso superano le prestazioni di un singolo esperto.
L'obiettivo è formalizzare questo concetto e concentrarsi su come i modelli migliorino rispetto agli esperti individuali eliminando i diversi pregiudizi ed errori umani. Questo processo di "pulizia del rumore" è reso possibile da particolari tecniche di campionamento, che favoriscono implicitamente una votazione di maggioranza.
Per verificare la validità della teoria, questi effetti sono dimostrati empiricamente. Analizzando più a fondo gli effetti della "votazione di maggioranza", si scopre che il miglioramento avviene soprattutto su un piccolo gruppo di situazioni cruciali per l'esito del gioco. Inoltre, la diversità nei dati risulta essere essenziale per una votazione di maggioranza efficace, confermando i risultati teorici.
Definizione di Trascendenza AI
Il concetto di trascendenza AI in questo contesto riguarda la capacità di un sistema di apprendimento di superare la performance degli esperti umani che lo addestrano. Immagina di avere un gruppo di esperti che etichettano i dati: ad esempio, un gruppo di medici che diagnosticano malattie basandosi su sintomi. Ogni medico è un esperto e ha il suo modo di fare diagnosi; quindi, il sistema di apprendimento riceve diagnosi diverse per ogni paziente a seconda del medico che le ha esaminate.
Il sistema di apprendimento, quindi, deve imparare da queste diverse diagnosi e cercare di capire quale sia la più probabile o corretta per ogni paziente. Si parte dal presupposto che tutti i possibili sintomi dei pazienti abbiano una certa probabilità di essere osservati, e che ogni medico abbia una probabilità uguale di diagnosticare ogni paziente.
Il sistema di apprendimento crea un modello che mescola tutte le diagnosi dei medici e calcola la probabilità di ogni possibile diagnosi data un certo set di sintomi. Immagina questo come se il sistema prendesse le opinioni di tutti i medici e le combinasse per arrivare a una diagnosi complessiva.
Per misurare quanto è bravo il sistema di apprendimento, si utilizza una "ricompensa". Questa ricompensa può essere vista come un punteggio che riflette quanto sia corretta una diagnosi.
Il sistema di apprendimento viene poi testato su nuovi pazienti con sintomi diversi. La "ricompensa media" del sistema di apprendimento su questi nuovi pazienti viene confrontata con quella di ciascun medico. La trascendenza AI si verifica quando il sistema di apprendimento riesce a ottenere un punteggio medio più alto rispetto al miglior medico tra quelli che lo hanno addestrato. In altre parole, il sistema diventa più bravo nel fare diagnosi rispetto a qualsiasi singolo medico.
È importante notare che si assume un'ambientazione ideale: il sistema di apprendimento ha accesso a una quantità infinita di dati e può scegliere qualsiasi metodo per migliorare, senza limitazioni. Tuttavia, anche in questo scenario, la trascendenza AI non è garantita senza ulteriori modifiche alla distribuzione dei dati. In pratica, raggiungere la trascendenza AI richiede spesso aggiustamenti e miglioramenti continui nel modo in cui il sistema apprende dai dati.
Definizione matematica di Trascendenza AI
Il concetto di trascendenza AI viene descritto in un contesto matematico e statistico. Considerando uno spazio di input variabile, indicato con 𝒳, e uno spazio di output finito, indicato con 𝒴, si definisce una classe di funzioni ℱ che mappano 𝒳 su distribuzioni di probabilità su 𝒴. Questo significa che ogni funzione in ℱ associa a ciascun input in 𝒳 una distribuzione di probabilità sugli elementi di 𝒴. Queste funzioni definiscono una distribuzione di probabilità condizionata dell'output y in 𝒴 dato un input x in 𝒳, denotata come 𝑓(y|𝑥).
Si considera una distribuzione di input, indicata con 𝑝, su 𝒳 che assegna una probabilità positiva a ogni input. Si assume che i dati siano etichettati da k esperti, denotati come 𝑓1, 𝑓2, ..., 𝑓𝑘 appartenenti a ℱ. Gli input vengono campionati dalla distribuzione 𝑝 e ogni input x in 𝒳 viene etichettato da un esperto scelto casualmente. Questo processo induce una distribuzione congiunta di probabilità su 𝒳×𝒴, indicata con D. Specificamente, D(x, y) è il prodotto della probabilità di x secondo 𝑝 e della media delle distribuzioni degli esperti.
La qualità di una funzione di previsione appartenente a ℱ viene misurata attraverso una ricompensa assegnata a ciascuna coppia input-output. Si definisce una funzione di ricompensa che assegna un valore a ciascuna coppia input-output, tale che per ogni input x la funzione di ricompensa non sia costante. Viene scelta una distribuzione di test su 𝒳 e si definisce la ricompensa media di una funzione su questa distribuzione di test come la media delle ricompense ottenute per gli output previsti dalla funzione per ciascun input campionato dalla distribuzione di test.
Un apprendente ha accesso alla distribuzione D e deve trovare una funzione che minimizzi la perdita di entropia incrociata su D. Questo significa che l'apprendente sceglie una funzione appartenente a ℱ che minimizza la media della perdita di entropia incrociata tra la distribuzione media degli esperti e la distribuzione della funzione scelta.
La "trascendenza AI" viene definita come una situazione in cui le funzioni degli esperti e la distribuzione degli input soddisfano la seguente condizione: la ricompensa media del predittore sulla distribuzione di test è maggiore della ricompensa media del miglior esperto sulla stessa distribuzione di test. In altre parole, la trascendenza AI descrive quei casi in cui il predittore ottiene una prestazione migliore rispetto al miglior esperto che ha generato i dati. Si considera un'ambientazione idealizzata in cui l'apprendente ha accesso a una quantità infinita di dati dalla distribuzione D e può scegliere qualsiasi funzione per adattarsi alla distribuzione, senza limitazioni architetturali o di ottimizzazione. Anche in questo scenario idealizzato, la trascendenza AI può risultare impossibile senza modificare ulteriormente la distribuzione.
Infine, sono state fatte alcune assunzioni semplificative, come il fatto che tutti gli esperti condividano la stessa distribuzione di input, che tutti gli input abbiano probabilità non nulla secondo la distribuzione di addestramento 𝑝 e che gli esperti siano campionati in modo uniforme.
Come raggiungere la Trascendenza AI tramite il campionamento a bassa temperatura
L'analisi delle condizioni necessarie e sufficienti per la trascendenza AI inizia dimostrando che il campionamento a bassa temperatura è essenziale. Successivamente, vengono esaminate condizioni specifiche sufficienti per la trascendenza AI sia nel caso in cui i dati siano generati da un singolo esperto sia quando siano generati da più esperti.
Per comprendere il concetto di trascendenza AI, si può pensare a un sistema che riesce a superare la somma delle sue parti, ottenendo risultati migliori rispetto ai singoli componenti. In questo contesto, i "campioni" sono previsioni o decisioni basate su dati.
Quando si parla di campionamento a bassa temperatura, ci si riferisce a una tecnica che permette di selezionare le decisioni migliori da un insieme di possibilità. Immaginiamo di avere un gruppo di esperti che forniscono consigli: il campionamento a bassa temperatura ci aiuta a scegliere i consigli migliori da seguire.
Nel dettaglio, quando consideriamo il campionamento a bassa temperatura, applichiamo una funzione chiamata softmax, che aiuta a trasformare i valori in probabilità, enfatizzando le scelte migliori. Per esempio, se abbiamo un insieme di valori che rappresentano quanto ogni esperto è sicuro della sua previsione, il softmax con temperatura bassa darà più peso agli esperti più sicuri.
Teorema 1: Per ogni scelta di funzioni 𝑓1,...,𝑓𝑘 e una distribuzione di test 𝑝test, esiste almeno una funzione 𝑓𝑖 tale che la sua ricompensa 𝑅𝑝test(𝑓𝑖) sia maggiore o uguale alla ricompensa ottenuta dalla media delle funzioni.
Questo teorema mostra che, in assenza di campionamento a bassa temperatura, non possiamo ottenere la trascendenza AI. Tuttavia, se rimuoviamo l'ipotesi che tutti gli esperti siano campionati in modo uniforme, potremmo ottenere la trascendenza AI utilizzando una ponderazione bayesiana, ma questo richiede ulteriori analisi.
Quando si introduce il concetto di campionamento a bassa temperatura, si dimostra che è possibile ottenere la trascendenza AI se il predittore arg-max (che sceglie sempre la decisione con il valore massimo) è migliore del miglior esperto.
Teorema 2: Se la ricompensa del predittore arg-max è maggiore della ricompensa del miglior esperto, allora esiste una temperatura 𝜏 tra 0 e 1 tale che per tutte le temperature inferiori o uguali a 𝜏, la ricompensa del predittore con campionamento a bassa temperatura è maggiore della ricompensa del miglior esperto.
Questo teorema evidenzia che, anche se non si può ottenere la trascendenza AI modellando direttamente la distribuzione, è possibile ottenerla tramite il campionamento a bassa temperatura, a condizione che il predittore arg-max ottenga una ricompensa superiore rispetto a tutti gli esperti.
Consideriamo ora il caso di un singolo esperto che fornisce previsioni corrette ma con rumore. Immaginiamo un esperto che solitamente fornisce previsioni accurate ma occasionalmente commette errori casuali.
Teorema 3: Se i dati sono generati da un singolo esperto rumoroso, esiste una temperatura 𝜏 tra 0 e 1 tale che per tutte le temperature inferiori o uguali a 𝜏, il predittore con campionamento a bassa temperatura ottiene la trascendenza AI.
Infine, si esamina il caso in cui i dati siano generati da più esperti che si completano a vicenda. Immaginiamo un insieme di esperti, ognuno specializzato in un particolare sottoinsieme di dati. Se il test non si concentra su un singolo sottoinsieme, è possibile ottenere la trascendenza AI.
Teorema 4: Se la distribuzione di test 𝑝test ha almeno due sottoinsiemi di dati su cui ha valore positivo, allora esiste una temperatura 𝜏 tra 0 e 1 tale che per tutte le temperature inferiori o uguali a 𝜏, il predittore con campionamento a bassa temperatura ottiene la trascendenza AI.
In conclusione, il campionamento a bassa temperatura permette di migliorare le previsioni rispetto a quelle dei singoli esperti, grazie alla capacità di selezionare le migliori decisioni e combinare le informazioni in modo ottimale, ottenendo risultati superiori.
Valutazione della Trascendenza AI
Per valutare la capacità predittiva del risultato di impossibilità di trascendenza AI senza campionamento della temperatura (Teorema 1) e del risultato di trascendenza AI da esperti multipli con campionamento a bassa temperatura (Teorema 2), è stata effettuata una modellazione e un addestramento di giocatori di scacchi. Gli scacchi sono stati scelti poiché rappresentano un dominio ben compreso e più limitato rispetto ad altri contesti, come la generazione di linguaggio naturale, facilitando così un'analisi più semplice e robusta. Inoltre, la valutazione delle abilità negli scacchi è ben studiata, con diversi sistemi di valutazione statistica rigorosi. In questo studio è stato utilizzato il sistema di valutazione Glicko-2, adottato anche da lichess.org, il server di scacchi online open-source da cui è stato tratto il dataset.
Nel corso dell'esperimento, è stata realizzata una mappa t-SNE degli ultimi strati nascosti delle rappresentazioni latenti ottenute dalle trascrizioni di gioco del modello ChessFormer durante la fase di addestramento. Il t-SNE, o t-distributed Stochastic Neighbor Embedding, è una tecnica avanzata di riduzione della dimensionalità molto efficace nel visualizzare dati ad alta dimensionalità in spazi a due o tre dimensioni. Questo permette di osservare le relazioni tra i dati in modo più intuitivo. Nel contesto dell'esperimento, sono stati inoltre esposti vari stati del gioco di scacchi, corrispondenti a diversi cluster identificati nella mappa t-SNE, accompagnati dalle rispettive ricompense previste seguendo le analisi del motore scacchistico Stockfish.
L'addestramento ha coinvolto diversi decodificatori transformer autoregressivi, ciascuno con 50 milioni di parametri. Un decodificatore transformer autoregressivo è un tipo di rete neurale utilizzata nell'intelligenza artificiale per prevedere la parola successiva in una frase, basandosi sulle parole precedenti. Questo processo di addestramento ha seguito le migliori pratiche per l'ottimizzazione dei modelli, inclusa una strategia specifica per regolare il tasso di apprendimento, chiamata programmazione cosinusoidale. La programmazione del tasso di apprendimento cosinusoidale regola la velocità con cui il modello impara durante l'addestramento, diminuendo gradualmente il tasso di apprendimento in modo simile a una funzione matematica sinusoidale. Inoltre, è stato mantenuto un equilibrio appropriato tra la dimensione del batch, ovvero il numero di esempi di dati elaborati contemporaneamente, e il tasso di apprendimento per garantire un addestramento efficiente ed efficace.
Il dataset era composto da partite di scacchi umane tratte dal database open source di lichess.org da gennaio 2023 a ottobre 2023, contenente circa un miliardo di partite. In questo contesto, un esperto è un giocatore specifico. Per testare la trascendenza AI, il dataset è stato troncato a un massimo rating, in modo che durante l'addestramento il modello vedesse solo dati fino a un certo rating. Il modello è stato addestrato sull'obiettivo di previsione del token successivo, rappresentando le partite di scacchi come stringhe in notazione Portable Game Notation (PGN). La notazione Portable Game Notation (PGN) è un formato standard per registrare le mosse degli scacchi.
Durante il processo di addestramento, il modello di intelligenza artificiale gioca a scacchi senza poter vedere direttamente la disposizione dei pezzi sulla scacchiera e senza avere a disposizione le regole esplicite del gioco. Per questo motivo, sviluppare abilità complesse nel gioco degli scacchi risulta un compito non immediato. Questo metodo è stato oggetto di studio anche in ricerche precedenti. Esiste una differenza tra la teoria e la pratica: teoricamente si presuppone che ogni esperto possa gestire tutte le possibili situazioni di gioco, cosa improbabile negli scacchi dopo circa quindici mosse a causa del numero elevato di possibili mosse future.
Per affrontare questa differenza, è stata esaminata la rappresentazione interna del modello, evidenziando la sua capacità di cogliere significati rilevanti sia per il vantaggio relativo di una situazione di gioco sia per l'identità dei giocatori coinvolti. Questo dimostra che il modello è in grado di generalizzare le informazioni, comprimendo le partite in una rappresentazione condivisa e significativa.
La valutazione dei modelli è stata effettuata utilizzando i rating Glicko-2, un sistema di rating simile a Elo ma con un aggiornamento più dinamico, contro Stockfish 16.1, un noto motore di scacchi open-source. Stockfish utilizza una ricerca minimax, un metodo di decisione per il gioco a somma zero, combinata con una rete neurale efficiente e la potatura alfa-beta, che è una tecnica per ridurre il numero di nodi valutati nell'albero di ricerca.
Stockfish è stato valutato a tre livelli di difficoltà (1, 3 e 5) con un tempo massimo di risposta di 100 millisecondi sulla piattaforma Lichess, un sito web per il gioco degli scacchi online, giocando contro i bot Maia. Questi bot sono stati usati per calibrare i rating Glicko-2. Successivamente, i modelli sviluppati sono stati testati giocando contro Stockfish ai livelli 1, 3 e 5 per 100 partite ciascuno, per un totale di 300 partite.
I risultati di queste partite sono stati riportati utilizzando il rating Glicko-2 e la deviazione del rating, che indica la variabilità del rating. Questo ha permesso di fornire un intervallo di confidenza del 95%, dando un'idea dell'accuratezza delle valutazioni ottenute.
Durante il gioco contro Stockfish, il modello riceve continuamente aggiornamenti tramite la stringa PGN della partita in corso. L'output generato dal modello non è vincolato, il che significa che può risultare in mosse illegali secondo lo stato attuale della scacchiera o essere del tutto non interpretabile. Se il modello non riesce a produrre una mossa legale valida entro cinque tentativi, viene considerato perdente. Dopo ogni mossa generata, lo stato aggiornato della scacchiera viene fornito a Stockfish e una nuova stringa PGN aggiornata viene passata al modello, ripetendo questo ciclo fino alla conclusione della partita.
Risultati degli esperimenti sulla Trascendenza AI nei modelli ChessFormer
La questione fondamentale è se il campionamento a bassa temperatura possa effettivamente indurre la trascendenza AI nella pratica. Per verificare questa ipotesi, è stato testato il Teorema 2 valutando diversi modelli ChessFormer a varie temperature, da 0.001 (quasi deterministica) a 1.0 (distribuzione originale) fino a 1.5 (alta entropia). È stato osservato che i modelli ChessFormer 1000 e ChessFormer 1300 riescono a raggiungere un rating di circa 1500 con una temperatura di 0.001, mentre ChessFormer 1500 non riesce a superare il proprio livello durante i test.
Per comprendere meglio quando e perché si verifica la trascendenza AI, sono state investigate due domande. In primo luogo, si è esaminato come la funzione di ricompensa cambi in relazione al campionamento a bassa temperatura. In secondo luogo, si è indagato se la trascendenza AI dipenda dalla diversità del dataset.
Abbassare la temperatura aumenta le ricompense in alcuni stati specifici, portando alla trascendenza AI durante l'intero gioco. Nel gioco degli scacchi, un giocatore di basso livello può giocare bene fino a commettere un grave errore. Se questi errori sono idiosincratici, la media di molti esperti avrebbe un effetto di riduzione del rumore, favorendo le mosse migliori. Pertanto, il campionamento a bassa temperatura sposterebbe la probabilità verso mosse migliori in contesti specifici. Senza questo campionamento, il modello continuerebbe a considerare anche mosse errate.
Per formalizzare questa nozione, è stata definita una "funzione di favore", che rappresenta il miglioramento della ricompensa ottenuto seguendo una nuova distribuzione di probabilità rispetto a una distribuzione di probabilità di riferimento. Questa definizione trae ispirazione dal Performance Difference Lemma (PDL) nel campo del Reinforcement Learning, che stabilisce una relazione tra il cambiamento delle prestazioni seguendo una nuova politica e il valore atteso della funzione di vantaggio della vecchia politica, valutato con la nuova politica. Per chiarire meglio, si consideri un esempio nel contesto degli scacchi.
Immaginiamo un programma di scacchi che utilizza due strategie diverse per giocare. La prima è la strategia di base, mentre la seconda è una nuova strategia sviluppata di recente. La "funzione di favore" misura quanto la nuova strategia migliora le possibilità di vincere rispetto alla strategia di base. Per calcolare questa funzione, si usa la funzione di valutazione di Stockfish, che è un sistema avanzato basato su una rete neurale che prevede la probabilità di vittoria in una partita di scacchi.
Supponiamo che con la strategia di base il programma vinca il 40% delle partite e che con la nuova strategia vinca il 60% delle partite. La "funzione di favore" quantifica questo miglioramento del 20%. Questo concetto può essere applicato anche in altri contesti dove si desidera valutare il miglioramento delle prestazioni passando da una politica o strategia di base a una nuova.
L'analisi dei dati ha mostrato che abbassare la temperatura ha l'effetto di aumentare la distribuzione della ricompensa attesa per alcuni stati specifici. Ad esempio, a una temperatura di 0.001, la probabilità di vittoria migliora in media del 2.15%, ma per alcuni stati specifici l'aumento può superare il 5%. Questo suggerisce che il campionamento a bassa temperatura migliora la ricompensa attesa in modo significativo per alcuni stati di gioco, il che spiega perché i modelli ChessFormer 1000 e 1300 siano riusciti a trascendere.
Inoltre, l'analisi ha confermato che la diversità del dataset è essenziale per il raggiungimento della trascendenza dell'intelligenza artificiale. I modelli con un punteggio più alto, come ChessFormer 1500, non riescono a raggiungere questo livello, probabilmente a causa di una minore diversità nei loro dataset. La diversità è stata misurata utilizzando l'entropia normalizzata della distribuzione delle azioni, che è un modo per quantificare la varietà delle mosse compiute all'interno del dataset. I dataset con punteggi più bassi, come quelli con rating inferiore a 1000 e 1300, hanno mostrato una maggiore diversità rispetto ai dataset con punteggi più alti, confermando così l'importanza della varietà dei dati per il raggiungimento della trascendenza dell'intelligenza artificiale.
Per chiarire, si può immaginare un esempio nel contesto degli scacchi. Supponiamo di avere due insiemi di partite di scacchi: uno giocato da principianti e l'altro giocato da grandi maestri. Il dataset dei principianti avrà una maggiore varietà di mosse, dato che i principianti esplorano più combinazioni e fanno più errori, portando a una distribuzione più diversificata delle azioni. Al contrario, i grandi maestri tendono a fare mosse più prevedibili e ottimali, riducendo così la diversità del dataset. Questa maggiore diversità nei dataset dei principianti aiuta i modelli di intelligenza artificiale a sviluppare una comprensione più ampia e flessibile del gioco, migliorando la loro capacità di adattarsi e trascendere
Conclusioni
L'emergere della "Trascendenza AI", dove modelli generativi superano gli esperti umani da cui sono stati addestrati, rappresenta una svolta radicale con implicazioni strategiche profonde per il mondo delle imprese. Questo fenomeno, evidenziato dallo studio sull'addestramento di modelli di scacchi, mostra che la saggezza delle macchine alimentata da dati diversificati e da tecniche di campionamento a bassa temperatura può condurre a prestazioni superiori rispetto a singoli esperti. Per le aziende, questo apre nuove possibilità non solo nell'automazione dei processi, ma anche nel miglioramento della qualità decisionale e della competitività.
Ad esempio, nel settore del marketing, un modello generativo addestrato su dati provenienti da diverse campagne pubblicitarie può fornire strategie di marketing più efficaci e mirate rispetto ai singoli esperti, ottimizzando il ritorno sugli investimenti pubblicitari. Allo stesso modo, nel settore della logistica, tali modelli possono analizzare complessi flussi di dati relativi alle catene di approvvigionamento per prevedere e prevenire interruzioni, migliorando l'efficienza operativa rispetto agli esperti umani.
Questa superiorità dei modelli AI potrebbe ristrutturare l'intero paradigma delle risorse umane e della formazione aziendale. Invece di vedere l'AI come un sostituto, si potrebbe considerarla come un amplificatore delle capacità umane, in cui gli esperti collaborano con modelli generativi per ottimizzare decisioni e strategie. Questo approccio potrebbe essere applicato anche nel campo della ricerca e sviluppo, dove l'AI potrebbe accelerare l'innovazione combinando il meglio delle intuizioni umane con analisi di dati vasti e complessi. Tuttavia, l'adozione di questi modelli richiede una gestione attenta della diversità dei dati e dell'etica. La diversità non è solo cruciale per migliorare le prestazioni dei modelli, come evidenziato dalla ricerca, ma anche per evitare bias e garantire equità nelle decisioni automatizzate. Le aziende devono investire in dataset ricchi e vari, rappresentativi delle diverse realtà operative e dei contesti di mercato in cui operano. Inoltre, la questione etica non può essere sottovalutata.
L'affidamento a modelli AI superiori agli esperti umani pone questioni sulla trasparenza delle decisioni, sulla responsabilità in caso di errori e sull'impatto occupazionale. Le imprese devono sviluppare politiche chiare per l'uso responsabile dell'AI, garantendo che l'automazione non comprometta l'occupazione e che vi sia un equilibrio tra efficienza tecnologica e valore umano. La trascendenza AI non è solo una curiosità accademica ma una leva strategica potente per il futuro delle imprese. L'abilità di superare l'expertise umana tramite modelli generativi apre un nuovo orizzonte di opportunità per migliorare processi decisionali, innovazione e competitività.
Comments