Risultati di ricerca
473 risultati trovati per ""
- Willow: il nuovo chip quantistico di Google Quantum AI
La nuova tecnologia quantistica di Google Quantum AI prende forma nel chip Willow , un processore quantistico progettato per superare le attuali barriere della computazione quantistica e aprire la strada verso macchine di larga scala effettivamente utili. Presentato da Hartmut Neven e dal suo team, Willow incarna un deciso passo in avanti, grazie a migliori tempi di coerenza dei qubit, strategie di correzione degli errori integrate e risultati sperimentali capaci di surclassare le più potenti infrastrutture di calcolo classiche oggi disponibili. Questo nuovo processore, sviluppato nelle strutture dedicate di Google Quantum AI, pone le basi per applicazioni reali e commercialmente rilevanti, confermando il potenziale delle tecnologie quantistiche di nuova generazione. Willow: il nuovo chip quantistico di Google Quantum AI Prestazioni di Willow e correzione degli errori quantistici Il chip Willow emerge in un contesto di ricerca nel quale la computazione quantistica si scontra da decenni con un ostacolo cruciale: la rapida insorgenza di errori nei qubit, le unità elementari dell’elaborazione quantistica. Un qubit è un’entità fisica capace di rappresentare e manipolare informazioni sfruttando principi della fisica quantistica, come la sovrapposizione di stati. Le interazioni indesiderate con l’ambiente esterno ne degradano lo stato, portando a errori che si accumulano a mano a mano che il numero di qubit cresce. Se tali errori non vengono corretti o ridotti in modo efficace, la capacità di un computer quantistico di superare le prestazioni di un sistema classico diminuisce fino a scomparire. Il cuore del problema risiede quindi nell’implementare la quantum error correction , ovvero tecniche di correzione dell’errore quantistico finalizzate a preservare l’informazione elaborata dal dispositivo.Willow dimostra un risultato di rilievo nel panorama della computazione quantistica: raggiunge la condizione definita come “below threshold” , ossia mostra la capacità di ridurre gli errori in modo esponenziale aumentando il numero di qubit. Questo significa che, passando da un array di nove qubit fisici a uno di venticinque e poi a quarantanove, si è ottenuta la capacità di dimezzare la frequenza di errore a ogni ulteriore incremento dimensionale. Una condizione di questo tipo rappresenta un traguardo inseguito dalla comunità scientifica sin dagli anni ’90, quando venne formalizzata l’idea stessa di correzione quantistica degli errori. È un risultato di natura pratica ma soprattutto concettuale: mostra che, oltre una certa soglia, per ogni qubit aggiuntivo la qualità complessiva del sistema non peggiora ma migliora.Un simile comportamento non nasce dal caso, ma da una serie di ottimizzazioni strutturali e logiche. Willow è un chip superconduttore, prodotto in una delle rare strutture dedicate interamente alla fabbricazione di processori quantistici, in questo caso situata a Santa Barbara. L’ambiente di produzione controllato ha consentito di incrementare la coerenza quantistica dei qubit, cioè la capacità di mantenere intatta la sovrapposizione degli stati senza che il segnale quantistico si deteriori in pochi istanti. Questo parametro, misurato in microsecondi (µs), è stato portato con Willow intorno a 100 µs, il che rappresenta un salto rispetto ai precedenti risultati di circa un fattore cinque. Avere qubit più stabili significa poterli far interagire più a lungo e con maggiore complessità di calcolo senza perdere informazione utile.Allo stesso tempo, l’architettura del chip non è stata progettata solo per aumentare la qualità del singolo qubit, ma per assicurare che l’intero sistema possa essere configurato, tramite componenti sintonizzabili, in modo da correggere i qubit “difettosi” o meno performanti, riallineando così l’intero array a un livello prestazionale omogeneo. Questa strategia si combina con protocolli di calibrazione del sistema ad alta frequenza, in grado di agire su ciascun qubit e sulle interazioni tra di essi, intervenendo via software per mantenere bassi gli errori e sfruttare appieno la capacità di riconfigurazione hardware del processore. I risultati ottenuti con Willow dimostrano che la correzione degli errori è ora realmente implementabile e utile nel percorso verso un computer quantistico di larga scala. L’ottenimento di un qubit logico, ovvero un insieme di qubit fisici che collaborano per rappresentarne uno più stabile e utilizzabile in calcoli prolungati, segna il superamento di una soglia storica. Non si tratta più di un concetto teorico o di un traguardo elusivo, bensì di un fenomeno osservato sperimentalmente. Questo aspetto assume una valenza strategica per il futuro: se è possibile costruire un chip che migliora il suo funzionamento quanto più cresce, è ipotizzabile arrivare a configurazioni di dimensioni tali da affrontare problemi computazionali al momento inaccessibili alle macchine classiche. Benchmark e confronto con i supercomputer classici Valutare un computer quantistico significa confrontarlo con i suoi omologhi classici, le macchine che tutt’oggi dominano la scena nei settori del calcolo ad alte prestazioni. Per mettere alla prova Willow è stata utilizzata la random circuit sampling (RCS) , una procedura di benchmarking ormai divenuta standard nel campo. La RCS consiste nel far eseguire al computer quantistico il campionamento di circuiti quantistici casuali, una tipologia di problema che la macchina classica simula con grandi difficoltà. Tale difficoltà cresce in modo esponenziale con il numero di qubit e la complessità del circuito. L’idea alla base di questo test è verificare se il processore quantistico riesce a svolgere in tempi ragionevoli un compito che un calcolatore classico eseguirebbe, a parità di condizioni, in un intervallo talmente ampio da non risultare pratico. Se il computer quantistico mostra un vantaggio netto, vuol dire che ci si avvicina ad applicazioni non più riproducibili sui migliori sistemi classici.Willow ha eseguito la RCS in meno di cinque minuti, una tempistica estremamente ridotta a fronte della proiezione di quanto impiegherebbe uno dei più potenti supercomputer esistenti. Se si considerano le risorse classiche ottimali, l’algoritmo corrispondente potrebbe richiedere circa 10^25 anni , un tempo astronomico che supera l’età dell’universo. Occorre sottolineare che questo tipo di benchmark non è direttamente legato a un’applicazione pratica di interesse per le imprese o per l’economia reale. È uno stress test, un criterio di ingresso per comprendere se la potenza quantistica supera i limiti classici. Ciò stabilisce un punto fermo: Willow ha mostrato un vantaggio di scala enorme, segnando un divario difficilmente colmabile con i metodi classici. È tuttavia legittimo attendersi che i supercomputer classici possano migliorare, ottimizzando i loro algoritmi e sfruttando memorie più avanzate. Nonostante ciò, la velocità di crescita prestazionale del chip quantistico è tale da far pensare che la distanza non potrà che aumentare.Questo esperimento non si limita a dire che Willow è “più veloce” per un compito specifico. Il suo significato profondo risiede nel dimostrare che i computer quantistici possono già oggi realizzare compiti difficili per i calcolatori classici, anche se il compito stesso non ha ancora un’applicazione commerciale diretta. È come aprire una porta su un mondo in cui la modellazione dei fenomeni naturali, l’esplorazione di materiali avanzati, la comprensione di sistemi complessi e la ricerca di soluzioni in ambiti come la chimica dei farmaci potrebbero essere condotte con un approccio più potente e flessibile. Prestazioni di riferimento e obiettivi futuri Willow è nato in un ambiente di produzione unico nel suo genere, un’infrastruttura dedicata alla fabbricazione di chip quantistici progettata per massimizzare la qualità e la resa finale. L’evoluzione di Willow non si è fermata all’incremento dei tempi di coerenza: il dispositivo conta 105 qubit , un numero non banale per un chip di fascia così avanzata, ed è stato ottimizzato per operazioni logiche a due qubit, per velocità di lettura più alte e per garantire una qualità uniforme su tutto il processore. La T1 , ovvero la scala temporale su cui un qubit mantiene lo stato quantistico prima di decadere, mostra ora valori di rilievo, segno che l’ingegnerizzazione del sistema, con connettività ottimizzata tra i qubit e strategie di calibrazione continua, è la strada giusta per aumentare stabilità e affidabilità. Un obiettivo dichiarato è passare oltre la mera dimostrazione di superiorità rispetto ai modelli classici su compiti non applicativi, puntando a risultati utili nel mondo reale. Fino ad ora, la ricerca si è polarizzata su due filoni: da un lato, benchmark come la RCS, che certificano un gap prestazionale rispetto ai supercomputer classici; dall’altro, esperimenti di simulazione quantistica di sistemi fisici con valore scientifico, ma tuttora riproducibili da computer classici, seppure con fatica. Il traguardo a cui si tende è unire i due aspetti, dimostrando la capacità di svolgere un calcolo che non sia riproducibile da macchine classiche e che al contempo abbia ricadute pratiche. Il cammino potrebbe condurre ad applicazioni nel settore farmaceutico, per lo sviluppo di batterie più efficienti e per l’indagine di reazioni complesse, spingendo la ricerca in direzioni ancora da esplorare con gli approcci convenzionali. Il messaggio è chiaro: più che insistere sul numero di qubit, serve mantenere e incrementare la qualità del chip e l’affidabilità delle sue operazioni, per raggiungere quella soglia in cui la computazione quantistica diventa un elemento strategico e spendibile in svariati contesti industriali e scientifici. Conclusioni Le tecnologie quantistiche come Willow si inseriscono in uno scenario in cui il confine tra ciò che è computabile in modo efficiente e ciò che non lo è affatto si sta ridefinendo. Oggi, le imprese si trovano di fronte a un panorama complesso, fatto di investimenti in tecnologia classica consolidata e nuove speranze riposte nelle macchine quantistiche. È inevitabile che vi sia una fase ibrida, in cui la cooperazione fra hardware quantistico e classico, insieme allo sviluppo di software mirati, contribuirà a individuare i problemi più adatti all’uno o all’altro paradigma. Non ha senso attendersi un salto improvviso verso una realtà in cui la quantistica soppianti tutto ciò che è venuto prima; piuttosto, ciò che emerge è un lento ma costante avvicinamento a livelli di prestazione inediti.La vera posta in gioco risiede nella capacità di ridisegnare i modelli di business, di capire quando e come i dati elaborabili da un computer quantistico possano aprire la strada a scoperte e soluzioni fino ad ora lontane. È come disporre di un nuovo strumento in grado di modellare aspetti del mondo fisico altrimenti ingestibili: non necessariamente più rapido, ma diverso e complementare. È importante non concentrarsi unicamente sul confronto numerico con i supercomputer classici, ma comprendere a fondo le implicazioni strategiche e competitive: dove ci porterà questa capacità di error correction esponenziale, questa coerenza estesa, questa abilità di ridurre lo scarto tra potenza teorica e implementazione pratica? Per le imprese, capire come integrare o sfruttare la computazione quantistica sarà come imparare una nuova lingua: servirà tempo, formazione, ricerca di partner e consulenti esperti, e soprattutto una visione aperta. La riflessione più profonda consiste nel considerare che la computazione quantistica non è solo una corsa alla potenza grezza, ma un passaggio verso una differente concezione del calcolo. Le aziende che, già oggi, investono nel comprendere i significati di questi avanzamenti non dovrebbero chiedersi semplicemente se una particolare tecnologia sia più veloce o più efficiente, ma piuttosto come il suo approccio al problema sia capace di far emergere dinamiche impreviste, nuove metriche di valore e percorsi strategici ancora non sondati. È questa capacità di rimodellare il pensiero computazionale, e non soltanto quella di superare i tempi di una macchina classica, a offrire la prospettiva di vantaggi competitivi non banali e una comprensione più profonda dei sistemi complessi con cui le imprese si confrontano. L’evoluzione di Willow e di dispositivi simili non andrà considerata come un evento isolato, bensì come un processo, un continuum di perfezionamenti, un graduale allineamento del pensiero manageriale a nuove coordinate tecnologiche e intellettuali. La promessa, per chi saprà trarne frutto, non sarà uno scarto improvviso, ma l’acquisizione di strumenti analitici capaci di rendere il tessuto strategico delle imprese più versatile, resiliente e aperto a un futuro ancora da interpretare. Podcast: https://spotifycreators-web.app.link/e/QgqT8tvVjPb Fonte: https://blog.google/technology/research/google-willow-quantum-chip/
- Willow: the new quantum chip from Google Quantum AI
Google Quantum AI’s new quantum technology takes shape in the Willow chip, a quantum processor designed to overcome current barriers in quantum computing and pave the way toward large-scale machines that are genuinely useful. Introduced by Hartmut Neven and his team, Willow marks a firm step forward, thanks to improved qubit coherence times, integrated error-correction strategies, and experimental results that surpass the performance of today’s most powerful classical computing infrastructures. Developed at Google Quantum AI’s dedicated facilities, this new processor lays the groundwork for real, commercially relevant applications, confirming the potential of next-generation quantum technologies. Willow: the new quantum chip from Google Quantum AI Willow’s performance and quantum error correction The Willow chip emerges in a research landscape where quantum computing has been grappling for decades with a crucial obstacle: the rapid onset of errors in qubits, the elementary units of quantum information processing. A qubit is a physical entity capable of representing and manipulating information by leveraging principles of quantum physics, such as the superposition of states. Unwanted interactions with the external environment degrade its state, leading to errors that accumulate as the number of qubits grows. If these errors are not effectively corrected or reduced, the ability of a quantum computer to surpass the performance of a classical system diminishes until it disappears. At the core of this issue lies quantum error correction, namely techniques intended to preserve the information processed by the device. Willow demonstrates a remarkable result in the quantum computing landscape: it achieves what is termed “below threshold,” showing that it can reduce errors exponentially as the number of qubits increases. This means that by moving from an array of nine physical qubits to one with twenty-five and then forty-nine, the system managed to halve the error rate with each incremental scale-up. Achieving such a condition is a milestone the scientific community has pursued since the 1990s, when the very idea of quantum error correction was first formalized. It is a result that is both practical and conceptual: it shows that beyond a certain threshold, for every additional qubit, the system’s overall quality not only does not deteriorate but actually improves. Such behavior is no accident but arises from a series of structural and logical optimizations. Willow is a superconducting chip produced in one of the rare facilities fully dedicated to manufacturing quantum processors, in this case located in Santa Barbara. The controlled manufacturing environment enabled an increase in the quantum coherence of the qubits, meaning their ability to maintain the superposition of states without the quantum signal deteriorating in a matter of moments. Measured in microseconds (µs), this parameter was brought to about 100 µs with Willow, representing about a fivefold improvement over previous results. Having more stable qubits means that they can interact for longer periods and handle greater computational complexity without losing useful information. At the same time, the chip’s architecture was not designed merely to increase the quality of individual qubits, but to ensure that the entire system can be configured, via tunable components, to correct “defective” or less performant qubits, thus realigning the entire array to a homogeneous level of performance. This strategy is combined with high-frequency calibration protocols that can act on each qubit and their interactions, intervening via software to keep errors low and fully exploit the hardware reconfigurability of the processor. The results achieved with Willow demonstrate that error correction is now truly implementable and useful on the path to large-scale quantum computers. The realization of a logical qubit—i.e., a set of physical qubits working together to represent a more stable one suitable for prolonged computations—marks the crossing of a historic threshold. It is no longer just a theoretical concept or an elusive goal, but a phenomenon observed experimentally. This aspect has strategic implications for the future: if it is possible to build a chip that improves its performance as it grows in size, it is conceivable to reach configurations large enough to tackle computational problems currently beyond the reach of classical machines. Benchmarking and comparison with classical supercomputers Evaluating a quantum computer means comparing it to its classical counterparts—machines that still dominate the scene in high-performance computing. To test Willow, random circuit sampling (RCS) was used, a benchmarking procedure that has become a standard in the field. RCS involves having the quantum computer sample random quantum circuits, a type of problem that classical machines find extremely difficult to simulate. This difficulty increases exponentially with the number of qubits and the complexity of the circuit. The idea behind this test is to verify whether the quantum processor can perform, in a reasonable time, a task that a classical calculator would execute—under the same conditions—over a time span so large as to be impractical. If the quantum computer shows a clear advantage, it means that we are coming closer to applications that are no longer reproducible on even the best classical systems. Willow performed RCS in less than five minutes, an extremely short time compared to how long it would take one of the world’s most powerful supercomputers. If one considers the optimal classical resources, the corresponding algorithm might require about 10^25 years, an astronomical length that surpasses the age of the universe. It should be emphasized that this type of benchmark is not directly related to a practical application of interest for businesses or the real economy. It is a stress test, a baseline to understand whether quantum power surpasses classical limits. It establishes a fixed point: Willow demonstrated an enormous scaling advantage, creating a gap that is hard to bridge with classical methods. Nonetheless, it is reasonable to expect that classical supercomputers may improve, optimizing their algorithms and leveraging more advanced memory. Even so, the rate of performance growth of the quantum chip suggests that the gap will only widen. This experiment is not limited to stating that Willow is “faster” for a specific task. Its deeper significance lies in showing that quantum computers can already carry out tasks that are difficult for classical calculators, even if the task itself does not yet have a direct commercial application. It is like opening a door to a world where modeling natural phenomena, exploring advanced materials, understanding complex systems, and investigating solutions in fields such as drug chemistry can be approached with a more powerful and flexible methodology. Reference performance and future goals Willow was born in a unique production environment, a facility dedicated to the fabrication of quantum chips designed to maximize quality and yield. Willow’s evolution did not stop at increasing coherence times: the device counts 105 qubits, a nontrivial number for such an advanced chip, and it was optimized for two-qubit logical operations, higher readout speeds, and uniform quality across the entire processor. The T1 time scale—i.e., how long a qubit maintains its quantum state before decaying—now shows noteworthy values, indicating that engineering the system with optimized connectivity between qubits and continuous calibration strategies is the right path toward increasing stability and reliability. A stated goal is to move beyond the mere demonstration of superiority over classical models in non-application-specific tasks, aiming for results that are useful in the real world. Thus far, research has polarized around two main areas: on the one hand, benchmarks like RCS that certify a performance gap compared to classical supercomputers; on the other, quantum simulation experiments of physical systems with scientific value but still reproducible by classical computers, albeit with difficulty. The ultimate goal is to combine these two aspects, proving the ability to perform a calculation that cannot be replicated by classical machines and that also has practical repercussions. The path might lead to applications in the pharmaceutical sector, the development of more efficient batteries, and the investigation of complex reactions, driving research in directions not yet explored with conventional approaches. The message is clear: rather than insisting on the number of qubits alone, it is necessary to maintain and increase the chip’s quality and the reliability of its operations to reach the threshold at which quantum computing becomes a strategic element in a variety of industrial and scientific contexts. Conclusions Technologies like Willow emerge in a scenario where the boundary between what is efficiently computable and what is not is being redefined. Today, companies face a complex landscape made up of investments in established classical technology and new hopes placed in quantum machines. It is inevitable that there will be a hybrid phase in which the cooperation between quantum and classical hardware, along with the development of targeted software, will help identify the problems best suited to each paradigm. It makes no sense to expect a sudden leap into a reality where quantum tech supplants everything that came before; rather, what is emerging is a slow but steady approach toward unprecedented levels of performance. The real stakes lie in the ability to redesign business models and understand when and how the data processed by a quantum computer can open the door to discoveries and solutions hitherto out of reach. It is like having a new tool capable of modeling aspects of the physical world otherwise unmanageable: not necessarily faster, but different and complementary. It is important not to focus solely on numerical comparisons with classical supercomputers, but to fully understand the strategic and competitive implications: where will this exponential error correction capability, this extended coherence, and this ability to reduce the gap between theoretical potential and practical implementation lead us? For businesses, figuring out how to integrate or leverage quantum computing will be like learning a new language: it will require time, training, searching for partners and expert consultants, and above all, an open vision. The deeper reflection lies in considering that quantum computing is not merely a race for raw power, but a step toward a different conception of computation. Companies that are already investing in understanding the significance of these advancements should not simply ask whether a particular technology is faster or more efficient, but rather how its approach to problems can highlight unexpected dynamics, new metrics of value, and strategic pathways not yet explored. This ability to reshape computational thinking—and not merely to surpass the runtimes of a classical machine—offers the potential for nontrivial competitive advantages and a more profound comprehension of the complex systems that companies confront. The evolution of Willow and similar devices should not be viewed as an isolated event, but rather as a process, a continuum of refinements, a gradual alignment of managerial thinking with new technological and intellectual coordinates. For those who know how to seize its benefits, the promise will not be a sudden jolt, but the acquisition of analytical tools capable of making the strategic fabric of enterprises more versatile, resilient, and open to a future still waiting to be interpreted. Podcast: https://spotifycreators-web.app.link/e/yzcNO0TWjPb Fonte: https://blog.google/technology/research/google-willow-quantum-chip/
- AI Act and Corporate Strategy: Navigating Regulatory Challenges and Opportunities
In an era where technological progress intersects with evolving social expectations, the European Union’s AI Act stands out as a significant regulatory milestone, reshaping corporate strategy for AI deployment. It took legal effect on August 1, 2024, following its publication on July 12, 2024, in the Official Journal of the European Union. This development signals a major shift for any organization creating or integrating artificial intelligence solutions. Built on a risk-based framework, the AI Act introduces new obligations for both technology providers and end-users, driving a shift in corporate strategy, promoting ethical and secure deployments of AI across diverse industries. William Fry’s “AI Guide,” authored by Leo Moore, Rachel Hayes, and David Cullen, highlights key aspects of this regulatory shift and unpacks its likely impact on businesses. It goes beyond a mere outline of legal requirements, offering strategic reflections for corporate leader’s intent on ensuring that AI investments remain fruitful, reputationally sound, and compliant with essential ethical standards. AI Act and Corporate Strategy: Navigating Regulatory Challenges and Opportunities AI Act: A Transformational Framework for Corporate AI Strategy The cornerstone of the AI Act is its classification of AI systems according to different levels of risk. Solutions deemed to carry an “unacceptable risk” are forbidden from entering the EU market at all, while those rated as “high-risk” must undergo stringent checks, including quality assurance measures, routine audits, and rigorous documentation. This tiered approach underscores the principle that the more a system can affect people’s fundamental rights or safety, the stricter the corresponding obligations become. From a corporate perspective, these provisions might at first appear challenging, especially for executives tasked with interpreting legal complexities. Yet, taking them seriously helps businesses safeguard their reputations and avoid hefty fines, which can climb as high as 35 million euros or 7% of annual revenue for violations involving forbidden AI systems. For other infringements, organizations risk penalties as large as 3% of annual turnover or 15 million euros, depending on which figure is greater. Although these numbers could seem daunting, the guide points out that compliance initiatives typically translate into more transparent AI processes, making room for greater consumer trust and business resilience. Crucially, the AI Act isn’t limited to companies headquartered within the EU. Its extraterritorial reach extends to non-EU providers whose AI tools are accessed by European users. As a result, even global corporations must align themselves with the Act’s requirements, spurring companies worldwide to step up due diligence on their AI vendors and contractual obligations. AI Act: Forbidden Systems, High-Risk Solutions, and Corporate Responsibilities The Act classifies AI systems into three broad categories: those outright banned from the market, those deemed high-risk, and more general-purpose AI services. Among the forbidden systems are those that use manipulative techniques or exploit vulnerabilities in sensitive user groups, such as minors or individuals with cognitive impairments. Similarly, AI-based discriminatory social scoring and broad-based facial recognition in public spaces fall under these prohibitions. Companies planning to deploy or sell AI tools that might significantly impact critical sectors—ranging from healthcare to transportation infrastructure—may find themselves dealing with “high-risk” requirements. These industries must maintain detailed technical files, logs of AI activity, and thorough records for auditing. According to William Fry’s analysis, companies dealing in high-risk AI must also implement data governance frameworks and develop protocols for continuous monitoring. Failing to uphold these standards can cause reputational damage, legal disputes, and financial burdens that go well beyond the cost of initial compliance. Nevertheless, not all AI initiatives fall under strict obligations. Some marketing or customer experience platforms, for instance, might be less regulated. Yet they are still guided by core principles in the AI Act, namely fairness, data protection, and cybersecurity. This means that even organizations with low-risk AI solutions should document their development and deployment processes, demonstrating accountability in how the system processes personal data or influences decision-making. AI Act: General-Purpose Models, Data Challenges, and Corporate Duties William Fry’s guide also discusses general-purpose AI models, often capable of integrating into a wide range of applications. These advanced systems introduce unique challenges due to their broad scope, which can easily shift from harmless usage to high-stakes scenarios if the technology is repurposed in sensitive domains. To stay compliant, businesses using these models should examine training datasets closely and maintain solid documentation that clarifies not only the model’s intended applications but also its boundaries and limitations. A critical point raised in the guide is the need for transparency surrounding where and how these models are trained. An indiscriminate reliance on data found online, for example, could infringe on intellectual property rights or privacy regulations. Therefore, AI providers are expected to outline how data is sourced, whether usage is legal under GDPR, and how they address any personal or proprietary information embedded in their training sets. If a model is modified by a downstream user and then becomes “high-risk,” the regulator may demand a fresh compliance assessment, encouraging a culture of shared responsibility between AI vendors and their clients. For companies that procure AI models from outside the EU and deploy them in Europe, there may be additional layers of due diligence. The AI Act mandates that organizations ensure their vendors follow strict logging standards, safeguard against security threats like data poisoning, and update software regularly to mitigate biases. Overall, these provisions underscore the importance of collaboration: legal departments, IT specialists, and top-level executives must work together to maintain reliable, robust, and defendable AI capabilities. AI Act: Building Workplace AI Literacy for Strategic Advantage Beyond compliance and risk controls, the AI Act shines a spotlight on a less obvious aspect of enterprise AI: the competence of individuals who regularly interact with advanced systems. William Fry highlights that organizations must strengthen their employees’ knowledge of AI’s operational mechanics, built-in limitations, and ethical boundaries. This requirement ties directly into the concept of AI literacy, ensuring that the workforce can interpret, question, and effectively manage AI-driven processes. For some enterprises, building AI literacy might sound purely administrative. In reality, it offers a competitive edge. When employees and managers grasp how AI models function, they become more adept at spotting anomalies, ensuring quality data inputs, and using AI insights responsibly. This translates to improved collaboration among departments, reduced risk of unintentional bias, and a more transparent culture of AI decision-making. Moreover, regulators are likely to view AI-savvy organizations in a more favorable light if and when issues do arise, appreciating evidence that staffers receive ongoing training and follow well-established reporting protocols. A workforce skilled in AI also provides meaningful feedback on the software itself, helping identify subtle problems that purely technical audits might miss. This collaborative process can uncover new markets and ideas for AI-based offerings, as long as those expansions are pursued within an ethically and legally sound framework. AI Act: Regulatory Sandboxes for Biometric and Emotion Recognition Testing A notable innovation promoted by the AI Act is the introduction of regulatory sandboxes, specialized environments where companies and regulators can collaborate to trial new AI technologies under controlled conditions. These sandboxes are especially relevant for sectors where AI applications are still in flux, such as biometric identification or emotion recognition. The goal is to support experimentation without endangering people’s rights or safety. Under the law, EU member states must set up at least one sandbox by August 2026. This arrangement allows companies to test AI prototypes on real data with regulatory oversight. Biometric solutions, such as facial recognition for sensitive applications, may land in the high-risk category, meaning developers must abide by stringent disclosure and consent guidelines, and must thoroughly document any data handling processes. Trying out these tools in a sandbox can ease market entry by demonstrating compliance to authorities early on. Likewise, emotion recognition—a domain rife with potential ethical pitfalls—receives extra attention. Monitoring or influencing people’s emotional states at work or school is generally off-limits unless tied to legitimate security or medical reasons. These constraints reflect a broader ethical stance enshrined in the legislation, which discourages corporate overreach that could harm individual dignity. In a sandbox context, businesses can experiment with emergent technologies, but only as long as they handle the data responsibly, respect individuals’ rights, and follow guidelines set by supervisory bodies. AI Act: Shaping a Culture of Responsible AI William Fry’s “AI Guide” highlights the evolving landscape of AI governance, illustrating how the EU’s regulatory path shapes both local and international business strategies. Although the AI Act imposes detailed rules and potential sanctions, its overarching aim is to foster a culture of responsible and transparent AI. Companies that respond proactively are positioned to stand out in a marketplace increasingly concerned with consumer trust and ethical innovation. For executives, the AI Act serves as a directive to scrutinize AI procurement processes, refine internal data governance, and prioritize comprehensive training for personnel. Rather than treating these regulations as isolated legal burdens, forward-looking organizations can treat them as part of a broader strategic framework—one that promotes accountability and cements a foundation for long-term growth. As AI technology continues to evolve and regulators refine their positions, businesses with robust ethical and operational guardrails will likely navigate future shifts with greater ease. In this sense, the EU’s push for AI compliance could be viewed as a catalyst for more sustainable, transparent, and beneficial uses of AI worldwide. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/AI-Act-and-Corporate-Strategy-Navigating-Regulatory-Challenges-and-Opportunities-e2t06ee Source : https://www.williamfry.com/knowledge/the-william-fry-ai-guide/
- AI Act e imprese: impatti normativi e opportunità per le aziende
“The William Fry AI Guide” di Leo Moore, Rachel Hayes e David Cullen (William Fry) analizza l’AI Act e altre questioni legali connesse all’intelligenza artificiale. La ricerca approfondisce gli obblighi per chi sviluppa o adotta soluzioni di AI, focalizzandosi sulla conformità normativa e sugli aspetti operativi. Offre riflessioni utili a imprenditori e dirigenti aziendali che vogliono assicurare modelli di business affidabili, ridurre i rischi di sanzioni e cogliere nuove opportunità economiche, nel rispetto di principi etici e legali. AI Act e imprese: impatti normativi e opportunità per le aziende AI Act: un nuovo quadro normativo essenziale per le imprese L’AI Act, cruciale per le imprese, è entrato in vigore nell’Unione Europea il 1° agosto 2024, dopo la pubblicazione nella Gazzetta Ufficiale dell’UE il 12 luglio 2024, e costituisce un momento significativo per tutte le realtà che sviluppano o impiegano sistemi di intelligenza artificiale. L’approccio seguito dal legislatore europeo prevede una regolamentazione basata sul rischio, dove i sistemi ad alto impatto (definiti “high-risk”) sono soggetti a requisiti rigidi, mentre quelli considerati inaccettabili (unacceptable risk) non possono essere immessi sul mercato. La logica di fondo poggia sul principio per cui maggiore è la potenziale interferenza con diritti fondamentali e sicurezza, più stringenti sono le regole e le responsabilità in capo a fornitori e utilizzatori. Dal punto di vista di imprenditori e dirigenti, questa cornice regolatoria può essere interpretata come uno stimolo a migliorare i propri processi interni. Concentrarsi sulla conformità significa presidiare la qualità dei dati utilizzati, evitare violazioni in materia di tutela delle persone e assicurare che il sistema AI abbia un rendimento affidabile. Nel documento “The William Fry AI Guide” emerge che, secondo le nuove regole, i fornitori di sistemi considerati ad alto rischio sono chiamati a effettuare valutazioni e a redigere documenti tecnici dettagliati, oltre a garantire la tracciabilità dei processi di sviluppo. Il mancato rispetto di tali obblighi può generare sanzioni molto elevate: fino a 35 milioni di euro o il 7% del fatturato annuo, se si violano le norme sui sistemi proibiti. Per gli altri inadempimenti, le multe possono raggiungere il 3% del fatturato annuo o 15 milioni di euro, a seconda di quale importo risulti superiore. Questa attenzione alla valutazione del rischio e ai requisiti di trasparenza interessa anche chi adotta sistemi AI sul lato aziendale. Ogni impresa che introduce una piattaforma AI nella propria organizzazione deve innanzitutto determinare se essa rientra fra i sistemi proibiti o classificati come high-risk. Nel caso in cui si tratti di soluzioni considerate a rischio elevato, occorre monitorarne il funzionamento e predisporre procedure per la segnalazione di incidenti o anomalie alle autorità competenti. D’altro canto, anche le soluzioni a minore rischio non sfuggono del tutto alla normativa, poiché i principi di correttezza, protezione dei dati e sicurezza informatica agiscono trasversalmente su tutto il panorama applicativo. Per le imprese che operano a livello globale, la portata extraterritoriale dell’AI Act costituisce un ulteriore richiamo alla diligenza. Se un’azienda al di fuori dell’UE fornisce servizi AI i cui output vengono utilizzati all’interno dell’Unione, deve comunque rispettare la normativa. Questa circostanza spinge le aziende a valutare con maggiore cura il proprio ecosistema di fornitori e le clausole contrattuali per affidarsi a soluzioni veramente conformi. Lo sforzo iniziale di adeguamento, secondo la guida di William Fry, potrà tradursi in un vantaggio competitivo, poiché la trasparenza e la sicurezza ispirano fiducia nei clienti e consolidano la reputazione aziendale. Sistemi proibiti e High-Risk: conformità e opportunità per le aziende La ricerca sottolinea come la normativa distingua fra sistemi proibiti, sistemi ad alto rischio e soluzioni generiche. I sistemi proibiti comprendono, per esempio, quelli che impiegano tecniche subdole di manipolazione o sfruttano vulnerabilità specifiche di certe categorie di persone (minori o soggetti fragili). Rientra nei divieti anche l’uso di AI per social scoring discriminatorio, oltre a pratiche di riconoscimento facciale indiscriminato. Per i sistemi di questo tipo, le imprese non possono immetterli sul mercato europeo e, se lo fanno, rischiano di doverli ritirare con pesanti conseguenze finanziarie. Al fianco di questo divieto assoluto, la normativa impone un regime di supervisione particolarmente stringente per i sistemi ad alto rischio, che spaziano dalla valutazione dei candidati in ambito lavorativo, ai dispositivi medicali, fino a sistemi utilizzati nella gestione di infrastrutture critiche. Adottare tecnologie AI in tali settori implica l’obbligo di condurre conformità preventiva, con procedure di qualità e un robusto sistema di governance sui dati. Il documento di William Fry evidenzia, ad esempio, come i fornitori debbano tenere aggiornati registri interni di funzionamento del sistema, favorendo meccanismi di audit sia interni sia da parte di organismi notificati. Ciò include la capacità di registrare eventi (logging) e la necessità di analizzare in modo continuo il grado di accuratezza e robustezza del modello. Per i dirigenti aziendali, saper distinguere sistemi AI proibiti da quelli ad alto rischio o a rischio minore è strategico. Se un’azienda decide di impiegare un modello per analisi predittive in ambito marketing, potrebbe trovarsi esente dai vincoli più pesanti, ma non dalle responsabilità collegate alla protezione dei dati dei consumatori. Se, invece, lo stesso modello è utilizzato in ambito sanitario per elaborare diagnosi o supportare scelte terapeutiche, si entra in un campo regolato come high-risk. L’impegno a strutturare procedure di risk management solide e a tenere informato il personale sui criteri di utilizzo sicuro della tecnologia agevola la prevenzione di sanzioni e tutela il brand. La guida di William Fry consiglia di istituire team interni o di ricorrere a consulenze specialistiche per condurre analisi dedicate alla classificazione del rischio. Così facendo, l’impresa può documentare la propria due diligence e dimostrare di aver implementato correttamente i passaggi previsti dalla legge. Un elemento di rilievo è la trasparenza verso gli interessati: se il sistema AI rientrasse fra quelli ad alto rischio, i consumatori dovrebbero essere informati e, in alcuni casi, avere la possibilità di chiedere chiarimenti sui processi automatizzati che li riguardano. Investire in formazione e sensibilizzazione interna permette di gestire al meglio persino eventuali incidenti o anomalie, grazie alla definizione di piani di emergenza e canali di segnalazione rapida verso le autorità. In definitiva, la corretta segmentazione tra sistemi vietati e sistemi ad alto rischio non costituisce soltanto un requisito legale, ma diviene uno strumento per selezionare approcci di AI sostenibili. L’organizzazione che si pone come obiettivo una governance responsabile e sicura potrà integrare l’AI in maniera coerente con i valori di affidabilità e nel rispetto delle normative che promuovono l’innovazione responsabile. Modelli generali di AI: sfide nella gestione dei dati aziendali Un aspetto centrale emerso nel documento è la regolamentazione di modelli di intelligenza artificiale con uso generale, ossia sistemi che possono essere integrati in molteplici applicazioni. Questi modelli, se dotati di alte capacità di calcolo e destinati a un uso sistemico, sono soggetti a specifiche responsabilità nella documentazione, nell’indicare i limiti del modello e nel controllare le sue evoluzioni. Viene sottolineato che, se un modello generico si trasforma in uno strumento high-risk a causa di modifiche apportate da chi lo distribuisce o utilizza, occorre rivalutare i vincoli normativi applicabili. Per le aziende che impiegano tali modelli, uno dei passaggi fondamentali è la disponibilità di una documentazione accurata, specie in riferimento al dataset di addestramento. Un uso disinvolto di dati reperiti sul web potrebbe comportare violazioni di diritti d’autore o problemi di privacy, se i dati contengono informazioni personali. Secondo la guida, chi fornisce modelli di AI generici dovrebbe fornire agli utilizzatori indicazioni trasparenti sulla provenienza dei dati, sulla liceità del loro impiego e sull’eventuale applicazione del GDPR. Questo vale tanto più quando l’azienda cliente intenda personalizzare il modello per scopi specifici che lo rendano potenzialmente ad alto rischio. Un ulteriore spunto riguarda la cooperazione tra provider del modello generico e utilizzatori finali. Nel momento in cui un’impresa italiana acquista un modello di machine learning sviluppato da un’entità extra-UE, può essere chiamata a farsi garante della conformità, se i risultati di quello strumento vengono adottati su scala europea. L’AI Act prevede, inoltre, che i dati di input siano monitorati e gestiti con attenzione, per evitare che l’algoritmo venga esposto a distorsioni o subisca attacchi informatici (come data poisoning). Sul piano pratico, le imprese possono dotarsi di procedure di convalida interna e test periodici, oltre a definire contratti che obblighino i fornitori a rispettare standard di sicurezza e protocolli antimanomissione. Il tema dei dati resta nevralgico anche sotto il profilo delle sanzioni. La violazione delle norme che impongono trasparenza e tracciabilità di un modello AI può costare caro, e in molti casi gli importi delle multe superano le sanzioni previste dal Regolamento generale sulla protezione dei dati (GDPR). Da ciò discende l’esigenza di un’alleanza tra uffici legali, dipartimenti IT e management. Vanno definiti contratti e politiche aziendali che preservino la titolarità e la sicurezza dei dati, tenendo presente che lo stesso AI Act richiede di indicare eventuali contenuti sintetici generati, in modo che l’utente finale sappia quando ha di fronte un output artificiale. Formazione AI: un asset strategico per le aziende La diffusione sempre più ampia di strumenti di intelligenza artificiale ha dato vita a un nuovo obbligo legale, l’AI literacy, che nel documento viene messo in luce come uno dei punti meno discussi ma tra i più significativi. L’AI Act prevede che le organizzazioni si impegnino a garantire un adeguato livello di consapevolezza e competenza in materia di AI fra i propri dipendenti e collaboratori, soprattutto se questi ultimi interagiscono con sistemi considerati a rischio. Per un imprenditore, questa non è soltanto una formalità, bensì un investimento in cultura tecnologica che può migliorare l’efficacia e la sicurezza operativa. La guida sottolinea che i programmi formativi dovrebbero coprire vari aspetti: comprensione dei principi di funzionamento dei modelli di apprendimento automatico, riconoscimento dei potenziali errori o distorsioni e padronanza delle procedure di segnalazione di eventuali malfunzionamenti. Se un manager non è in grado di leggere i report di audit su un sistema ad alto rischio, o se un dipendente di un ufficio HR non comprende come si generano determinate valutazioni automatiche in fase di recruiting, l’azienda rischia di trovarsi esposta legalmente e reputazionalmente. Da qui la necessità di corsi interni, workshop e documentazione chiara. Si tratta di un cambio di mentalità che avvicina l’AI al concetto di governance diffusa. Ogni persona coinvolta deve sapere come comportarsi se si verifica un incidente o se si notano comportamenti anomali dell’algoritmo. Diventa rilevante anche sensibilizzare i vari team sui temi della protezione dei dati: la normativa esige di adottare misure tecniche e organizzative adeguate, e la sensibilità del personale nel segnalare rischi e violazioni contribuisce a mitigare eventuali sanzioni. La formazione, inoltre, deve essere continua, perché gli sviluppi tecnologici sono rapidi e i requisiti di legge in evoluzione possono trasformarsi in obblighi nuovi, come l’adozione di determinati protocolli di sicurezza informatica. Per le imprese che vogliano dare un taglio strategico a questo percorso, l’alfabetizzazione interna in materia di AI diventa anche uno strumento di competitività: personale formato utilizza le soluzioni in modo più proficuo, e la cultura della trasparenza favorisce la costruzione di nuovi prodotti e servizi basati su intelligenza artificiale rispettosa dei diritti delle persone. Ciò può tradursi in un rafforzamento delle relazioni con i clienti, rassicurati dalle competenze specifiche e dall’attenzione alla conformità. Così, una richiesta normativa apparentemente solo formale diventa occasione per evolvere il know-how aziendale e presidiare meglio il mercato. Sandbox regolatorie e AI: innovazione e biometria sotto controllo Un altro elemento approfondito nel documento è il ruolo degli ambienti di sperimentazione regolamentata, noti come regulatory sandboxes . Si tratta di spazi controllati dove imprese e autorità di regolamentazione collaborano per testare nuove applicazioni basate sull’intelligenza artificiale. Questi strumenti sono particolarmente preziosi per verificare che soluzioni innovative, come quelle legate alla biometria (tecnologie per il riconoscimento e l’analisi delle caratteristiche fisiche o comportamentali di una persona) o al riconoscimento delle emozioni (sistemi che analizzano espressioni facciali o toni vocali per interpretare stati emotivi), siano sicure e rispettino le normative prima di una diffusione su ampia scala. L’ AI Act prevede che entro agosto 2026 ogni Stato membro dell’Unione Europea istituisca almeno un sandbox nazionale. Questi spazi saranno progettati per agevolare la sperimentazione di tecnologie avanzate, consentendo l’elaborazione di dati reali con l’approvazione e il monitoraggio degli organismi di controllo, garantendo così un equilibrio tra innovazione e tutela dei diritti. Nei settori biometrici, la normativa è particolarmente attenta a evitare l’uso di tecnologie in grado di dedurre o classificare caratteristiche sensibili. Alcuni sistemi sono vietati, come quelli che cercano di inferire da parametri biometrici l’orientamento politico o altri dati protetti. Altri rientrano nell’area dei sistemi high-risk, soggetti a procedure di valutazione e all’obbligo di informare chiaramente le persone interessate, soprattutto se i dati biometrici sono raccolti per finalità di identificazione o categorizzazione. L’evoluzione di questi strumenti può risultare molto vantaggiosa per le imprese, in termini di analisi dei comportamenti di consumo o di servizi personalizzati, ma va sempre calibrata con il rispetto di restrizioni chiare e con la previsione di sanzioni severe. Anche l’emotion recognition diventa un tema caldo per i manager, perché la sua implementazione incontra limiti precisi: nelle aziende e nelle scuole è proibito utilizzare sistemi che deducono lo stato emotivo delle persone, a meno che non sussistano esigenze mediche o di sicurezza. Siamo di fronte a un passaggio normativo che riprende principi etici e li trasforma in divieti per tutelare la dignità degli individui. Se un’azienda volesse introdurre sistemi di analisi delle emozioni dei dipendenti, rischierebbe pesanti sanzioni e possibili contestazioni legali. Al contrario, in uno scenario controllato di sandbox, potrebbe essere valutata la legittimità di alcuni test se volti unicamente al miglioramento dei prodotti. Le sandbox offrono un vantaggio duplice: da un lato garantiscono la sperimentazione in un quadro normativo flessibile, dall’altro consentono alle autorità di raccogliere dati reali per verificare l’impatto delle tecnologie e per redigere linee guida più precise. Le piccole e medie imprese hanno la possibilità di accedere a tali ambienti con priorità, ottenendo sostegno e supporto personalizzato. Chi partecipa in modo leale e trasparente, inoltre, gode di protezioni da eventuali sanzioni, purché rispetti le indicazioni del piano di sandbox concordato. È una nuova modalità di interazione tra pubblico e privato, che favorisce il progresso tecnologico senza trascurare la tutela dei diritti fondamentali. Conclusioni Il documento “The William Fry AI Guide” propone un quadro realistico e articolato su come l’AI Act inciderà sulle dinamiche imprenditoriali e di governance, offrendo esempi di conformità e suggerendo misure di adeguamento. Oltre a definire sanzioni e obblighi tecnici, la normativa sollecita un cambio di passo strategico per molte imprese: dall’adozione superficiale di algoritmi misteriosi, si passa a una pianificazione integrata che coinvolga tutti i reparti aziendali. Si incontrano soluzioni simili anche in altre realtà esterne all’UE, indice che un approccio globale alla regolamentazione dell’intelligenza artificiale sta emergendo. La chiave per imprenditori e manager è dunque interpretare il corpus normativo in modo proattivo, ponendosi domande sui propri processi di selezione, sulle strategie di risk management e sulla formazione del personale. I sistemi generativi o predittivi possono accelerare i processi decisionali, ma vanno gestiti in modo trasparente e rispettoso dei diritti di tutti. Guardando alle tecnologie già disponibili, si nota come la necessità di sicurezza e affidabilità sia un’esigenza condivisa da imprese e consumatori in molteplici settori, dalla finanza alla sanità. Un’analisi realistica delle potenzialità e dei limiti dell’AI aiuta a ottimizzarne i vantaggi. La prospettiva finale che emerge è quella di una disciplina ancora in definizione, che lascia spazi di interpretazione e di sperimentazione. Al contempo, la direzione è chiara: le imprese che vogliono posizionarsi in modo vincente devono saper gestire i rischi, potenziare la formazione interna e mantenere un dialogo aperto con le autorità. La flessibilità derivante dalla partecipazione a sandbox e la capacità di affrontare le sfide in modo etico e lungimirante consentiranno di coltivare fiducia nei clienti, di proteggere il proprio patrimonio di dati e di cogliere opportunità di crescita sostenibile. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/AI-Act-e-imprese-impatti-normativi-e-opportunit-per-le-aziende-e2t05vu Fonte: https://www.williamfry.com/knowledge/the-william-fry-ai-guide/
- Preference Discerning in Recommender Systems: Generative Retrieval for Personalized Recommendations
The study titled “PreferenceDiscerningwithLLM-Enhanced Generative Retrieval,” led by researchers Fabian Paischer, Liu Yang, and Linfeng Liu—affiliated with the ELLIS Unit, LIT AI Lab, the Institute for Machine Learning at JKU Linz, the University of Wisconsin–Madison, and Meta AI—opens a new chapter in how we think about recommender systems. By focusing on the practice of “preference discerning,” their work investigates how preference discerning in recommender systems leverages natural-language user input for sequential product recommendations. The ultimate vision is to give personalization an added dimension: users can express both positive and negative sentiments (steering instructions) so that the recommendation engine can better reflect everyone’s nuanced tastes and constraints. From a business perspective, especially in e-commerce, this approach can lead to a measurable performance lift—some experiments suggest improvement of up to 45% in Recall@10—while also nurturing a deeper bond between user and system by minimizing irrelevant results. Preference Discerning in Recommender Systems: Generative Retrieval for Personalized Recommendations Why Preference Discerning in Recommender Systems Redefines Sequential Recommendations Traditional recommender systems often rely on a user’s past behavior, such as purchase history or clicks, to guess future preferences. Yet such techniques risk overlooking people’s dynamic needs and explicit feedback (e.g., “I’d prefer something allergy-friendly” or “I want to avoid this brand”). With the concept of preference discerning , the authors propose to go beyond mere user-item embeddings: their generative retrieval mechanism deliberately incorporates statements a user might have offered in natural language. They emphasize that real-life preferences can be highly specific, ranging from sentiment-based prohibitions (“I hate scratchy materials”) to broad-yearning requirements (“I’d like something lighter for my hikes”). Traditional systems may fail to capture these nuances, while preference discerning in recommender systems integrates them at the core of the recommendation process. In this approach, the model does not simply scan for the nearest neighbor in an embedding space. Instead, it generates the next relevant item by conditioning on textual preferences. The authors employ a two-step workflow: first, preference approximation extracts the user’s key tastes from data like reviews and item descriptions; second, preference conditioning infuses these preferences into the generative component, shaping recommendations in real time. This dual-stage design helps the model pivot quickly in response to new information—such as a user disclaiming a sudden aversion to a chemical ingredient or wanting to try a new style. Empirical findings from the study show that classical baseline models struggle with fine-grained changes in user sentiment or abruptly shifting tastes over time. By contrast, a preference-discerning system follows detailed cues—either a “fine-grained” shift (subtle variations in otherwise stable tastes) or a “coarse-grained” one (a big departure from the user’s historical pattern). Thus, if a person who usually buys synthetic running shoes suddenly wants “the same shoe model but in a natural fiber,” the algorithm does not default to the old preference but adapts accordingly. Beyond that, the researchers highlight an often-neglected phenomenon: sentiment following . Many recommender systems are adept at identifying what someone likes but do poorly at interpreting what the individual decidedly dislikes . From an e-commerce standpoint, ignoring these negative signals can be disastrous, since suggesting unwanted products can alienate customers. By embedding user aversions into the generation loop, this new approach looks to reduce friction and zero in on the user’s genuine preferences. Semantic IDs: Key to Generative Retrieval in Preference Discerning Systems In the core of the paper, the concept of generative retrieval is enlarged to incorporate textual constraints. One of the structural elements enabling this capability is the design of semantic IDs for items. Formally expressed as: RQ(e,C,D)=(k1,…,kN)∈[K]N,RQ(e, C, D) = (k_1, \dots, k_N) \in [K]^N , this formula captures how the system quantizes continuous embeddings into discrete tokens. The benefit is significant: the recommender can handle huge catalogs without being bogged down by purely numeric embedding vectors that are often opaque to interpret. Instead, items are discretized and can be more directly “linked” to natural-language preferences. This synergy between textual preferences and token-based item representations leads to more precise suggestions. Initial results come from tests on Amazon categories—Beauty, Toys and Games, Sports and Outdoors—as well as the Steam platform. Across these datasets, the investigators observe that text-driven preference modeling elevates recall measures, effectively boosting the system’s ability to identify the correct items among the top ten recommendations. The advantage is particularly striking for businesses aiming to reduce user churn: a well-targeted suggestion can reassure prospective buyers that the platform “understands” them. Moreover, the authors cite the notion of history consolidation as a crucial test: the model must distinguish which aspects of the user’s history still matter, while filtering out stale or contradictory preferences. This capacity to sift through a user’s evolving tastes is especially relevant in real-world scenarios—imagine a frequent traveler who once raved about a certain brand but now actively avoids it. If the system can dynamically pivot to incorporate these fresh aversions, conversions are likely to go up, with fewer irrelevant items cluttering the user’s search. How Benchmarks Validate Preference-Based Models To rigorously validate their methods, the authors propose a benchmark across five dimensions: Preference-based recommendation : The model is given a textual preference—such as “only gluten-free products”—and tested to see if it can produce the correct item next. Training, validation, and test sets are structured in a way that ensures old and new preferences do not overly overlap. Fine-grained steering : This checks if a system can follow incremental changes in preference. For instance, a user might typically seek a certain style of running shoe but now demands an even lighter variant. Coarse-grained steering : The system is tested with drastic preference shifts, like jumping from sneakers to formal dress shoes. Sentiment following : The model must handle strong user sentiment—for or against certain brands, materials, or categories—and either highlight or exclude relevant items. History consolidation : The system processes a wide array of user preferences, some of which are no longer relevant. The goal is to filter out the noise and keep track of what still matters. Across these axes, classical systems can falter, especially on negative sentiments, because they often rely on positive correlations to make a recommendation. If your previous purchases favored brand X, standard models might keep suggesting that brand even if you have recently expressed distaste. Preference-discerning systems aim to fix that loophole, thereby ensuring a more holistic reflection of user desires. Mender: The Future of Multimodal Recommender Systems At the center of these innovations stands the model known as Mender —short for Multimodal Preference Discerner . Mender uses semantic IDs to generate new recommendations based on text-based user preferences, further refining the principle of preference discerning. Unlike typical recommender architectures that compare items in pairs, Mender employs an autoregressive approach. Given a user’s current state—history, textual instructions, or both—Mender directly predicts which item should appear next. Concretely, Mender implements the formula: RQ(e,C,D)=(k1,…,kN)∈[K]N,RQ(e, C, D) = (k_1, \dots, k_N) \in [K]^N, as a method to convert embeddings into discrete token codes. This bridging helps the model marry linguistic constraints (“avoid certain allergens,” “aim for sustainable materials,” etc.) with vast product spaces. The result is a system capable of “translating” user prompts into recommended items, circumventing the need for complicated retrieval heuristics. Instead, the system “generates” the next item in a manner reminiscent of how text-generation models produce the next word in a sentence. Technically, Mender relies on a pre-trained language encoder and a specialized decoder that outputs these semantic token sequences. The cross-attention mechanism couples the user’s textual instructions and purchase history with the generation process. Two variations illustrate Mender’s versatility: MenderEmb : Maintains separate embeddings for user preferences and items, later aligning them. MenderTok : Merges the history and user instructions into a single textual stream, prompting the model to treat the entire data as one sequential input. Notably, MenderTok often excels in performance benchmarks. On datasets like Amazon Beauty, the Recall@10 metric jumps from roughly 0.0697 with certain baseline models to around 0.0937 with MenderTok. In Sports and Outdoors, it inches upward from 0.0355 to 0.0427. These gains, while expressed as raw numbers, have tangible implications for real-world e-commerce, translating into more potential conversions. A pivotal feature is the model’s ability to adapt swiftly to new user profiles or novel constraints expressed in natural language. By leaning on a generative approach, Mender does not require laborious re-training for every shift in user preference. Instead, it processes textual disclaimers or clarifications in real time, updating its recommendations accordingly. This adaptability is invaluable for businesses looking to scale to large catalogs while maintaining a personalized edge. The study’s authors underscore that Mender’s effectiveness also hinges on high-quality preference inputs . In trials, roughly 75% of preferences extracted from user reviews closely mirrored true user inclinations. Mender capitalizes on these well-curated preferences by filtering out extraneous noise and concentrating on relevant signals. Such synergy between user-provided text and historical data paves the way for expansions to related items, bringing fresh but contextually aligned suggestions into play. For enterprises wishing to embed Mender within their data pipelines, the synergy of semantic embeddings and user instructions holds promise for interoperability: product reviews, social media mentions, or direct user queries can all feed into this model. Because Mender leverages a single encoder-decoder architecture, explainability and transparency may be more feasible, making it easier to justify recommendations to end users or to adapt for corporate objectives (like highlighting high-margin items). E-commerce Innovations with Preference Discerning The study evaluates four main datasets—three from Amazon (Beauty, Toys and Games, Sports and Outdoors) and the Steam platform. Action counts range from 167,597 for Toys and Games to nearly 600,000 on Steam, reflecting both the diversity and scale of the tested domains. Textual preferences are not invented in a vacuum: the authors draw real user reviews and refine them via large language models, weeding out repetitive references and random artifacts. This ensures that the preferences fed into Mender align with authentic consumer language. Performance is judged using standard recommender metrics like Recall@5, Recall@10, and NDCG@10. The system’s consistency in capturing negative preferences—such as excluding a disliked brand from top results—proves especially impactful. Many existing models, if not specifically trained on negative data, will keep recommending items that the user has explicitly denounced. Preference discerning addresses this failing by baking negative signals into the generative routine. For instance, if an individual strongly opposes a certain brand, Mender ensures it is deprioritized or removed from top suggestions. Another highlight is how Mender processes multiple evolving preferences—some of which may clash. This so-called history consolidation can occur when a user accumulates many preferences over time but no longer needs all of them. While standard generative models might attempt to juggle all hints at once, Mender zeroes in on the ones that truly matter for the recommendation at hand. Hence it sustains a harmonious balance between reliability (remembering past signals) and flexibility (overriding them when outmoded). From a business standpoint, this capacity to toggle seamlessly between continuity and controlled shifts means that an e-commerce platform could pilot new product clusters for a user without alienating them by ignoring old preferences. In practical terms, managers can direct the system to encourage or emphasize certain product lines, letting the model find a sweet spot between user satisfaction and company objectives. Expanding the Potential of Generative Retrieval The paper’s methods for textual preference integration open doors for a variety of industries. Whether in e-commerce, travel, healthcare, or media streaming, the ability to parse user preferences rapidly and accurately can enhance loyalty and reduce friction. If a user says “Only show me cruelty-free options” or “I’d like to avoid violent films,” a robust preference-discerning engine becomes indispensable for an engaging, trust-building experience. From a technical vantage, merging large language models with item embeddings can be computationally complex, but the authors propose to release code and benchmarks that enable peer review and replication. This forward-looking approach should help the field measure Mender’s performance against emerging alternatives, ensuring that the underlying technology keeps pace with new breakthroughs. It is also important to recognize that metrics like Recall@5 and Recall@10 only scratch the surface when it comes to user satisfaction. The immediacy of feedback, the interpretability of results, and the model’s capacity to respond to real-time prompts will become even more decisive in industries where user experience is paramount. As large language models continue to improve, more sophisticated textual commands—potentially covering style, ethical concerns, or budget constraints—will become routine in recommendation dialogues. By spotlighting explicit preference conditioning, this study advances a vision of the user as a co-creator in the recommendation process. An enterprise can overlay its own guidelines (e.g., business intelligence targets, marketing priorities) without drowning out the user’s personal voice, provided the system is carefully balanced. Mender’s generative nature readily accommodates prompts that might arise from ephemeral online interactions or fast-evolving social-media trends—where user opinions change suddenly or must be integrated on the fly. Concluding Reflections Overall, the findings underscore how explicitly weaving user preferences into the generative engine can heighten recommendation quality and open new avenues for personalization. Mender and its associated benchmark handle text-based instructions with relative ease, aligning well with the ongoing shift toward large language models. In practical terms, it implies fewer bad recommendations, more potential to branch out into specialized product categories, and a user base that feels genuinely heard. Although other generative retrieval systems are already experimenting with language-based constraints, this paper’s central innovation lies in clearly segregating the generation of user preferences from the actual conditioning phase. That means preferences can be created even in the absence of exhaustive user histories, making the system more amenable to brand-new users. In effect, the authors point to a future in which positive and negative sentiments expressed in plain language can shape the system’s behavior in real time. For corporate decision-makers, adopting preference-discerning methods might be more than just another technical upgrade: it signals a strategic pivot toward user-driven experiences. By letting textual preferences guide the model’s next move, businesses effectively amplify the user’s voice. This fosters a climate of responsiveness and trust where the user’s personal needs and the organization’s goals can align more harmoniously. In so doing, Mender and generative retrieval herald a path toward adaptive recommendation engines that gracefully balance personalization, efficiency, and user agency. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Preference-Discerning-in-Recommender-Systems-Generative-Retrieval-for-Personalized-Recommendations-e2svs4u Source: https://arxiv.org/abs/2412.08604
- Generative AI: Strategic Perspectives for Neuroscience, Security, and Governance
The growing complexity of the corporate and innovation landscape today arises from the convergence of multiple factors: from language models that surpass the expertise of human specialists to the integration of Generative AI into highly regulated industries such as banking, encompassing the need for specialized skills in the public sector, new security challenges related to LLM applications, increasingly complex game-based testing environments, and the establishment of control standards to avoid critical vulnerabilities. This is not merely a technological issue: it marks the advent of a scenario in which the ability to process, analyze, manage, and control AI becomes a true competitive, strategic, and cultural lever Generative AI: Strategic Perspectives for Neuroscience, Security, and Governance The complexity of LLMs comes into sharp focus when they are compared with areas of knowledge that were once the exclusive domain of high-level specialists. The article " BrainBench: Language Models Surpass Neuroscience Experts " shows how these models can synthesize decades of research and predict the outcomes of neuroscientific experiments, often more efficiently than humans themselves. This no longer means competing on the playing field of mere information retrieval; it means surpassing humans in forecasting. Yet this extraordinary efficiency encapsulates a paradox: LLMs’ ability to uncover hidden patterns and correlations unknown to experts highlights new responsibilities in controlling, aligning, and verifying the quality of their predictions. As AI’s predictive power advances, securing its implementations takes on a critical role. The article " LLMs and Security: MRJ-Agent for a Multi-Round Attack " describes the evolution of threats, showing how multi-round attack agents can bypass sophisticated defenses. We’re no longer talking about simple glitches or temporary weaknesses: the vulnerability landscape is becoming dynamic, with attacks adapting to the defensive responses of the models. In the past, raising a few walls might have sufficed; today, we need a comprehensive defensive strategy, from detecting malicious patterns to calibrating the autonomy of agents, to designing continuous testing. Security thus becomes a fluid process, not a final state reached once and for all. At the same time, adopting " GenAI in Banking " paves the way for a deep transformation of customer interactions, regulatory compliance, and risk management. Here, the stakes are extremely high: integrating the power of AI into decision-making processes can boost productivity, improve customer experience, and optimize data analysis. However, businesses must contend with cybersecurity challenges, system quality issues, and a gradual adoption process. This is not just a technical question; it’s a strategic consideration that demands investment decisions, public-private partnerships, and ongoing staff training. The goal is not merely to cut costs or increase efficiency, but to build an ecosystem of trust between the financial institution and its stakeholders. The public sector is also part of this shift. " AI Governance for Public Sector Transformation " emphasizes how the adoption of AI in public administrations requires technical, managerial, and political skills, as well as good governance practices that ensure transparency, reliability, and compliance with regulations. The topic is not confined to technology; it forms an ecosystem of policies, guidelines, staff training, and continuous alignment with human values. This scenario becomes a testing ground for the legitimacy of innovation: if AI in the public sector is not managed with rigor and ethics, there is a risk of undermining citizens’ trust, reducing innovation to nothing more than an empty exercise. The spectrum of LLM applications grows even wider when considering highly complex and dynamic environments such as gaming. The article " Gaming and Artificial Intelligence. BALROG the New Standard for LLMs and VLMs " shows how testing models in gaming contexts can reveal shortcomings in long-term planning, exploration capabilities, and the management of multimodal inputs. BALROG is a benchmark designed to test the agent-like abilities of the models, bringing to light their limitations in environments that simulate real-world scenarios, where AI must address unpredictable challenges. This approach helps identify weaknesses and gaps in reasoning, driving research toward more robust, versatile models capable of adapting to complex and ever-changing situations. The need to control and prevent vulnerabilities is no mere add-on. " OWASP Top 10 LLM: Ten Vulnerabilities for LLM-Based Applications " provides a detailed picture of the risks: from prompt injection to the disclosure of sensitive information, from supply chain weaknesses to generated disinformation. Although these vulnerabilities are technical in nature, they raise strategic questions: how can we protect resources, ensure financial resilience, and maintain public trust? Implementing integrated approaches, from data sanitization to defining operational limits and including human supervision for critical actions, is essential. Companies must invest not only in technical capabilities but also in awareness, internal training, and partnerships with security experts, making security a source of added value. Taken as a whole, the emerging landscape is one of profound transformation that cannot be left to chance. Companies and institutions are called to integrate expertise, control strategies, and ethical visions. Generative AI is not simply another tool to add to one’s technological arsenal: it is a paradigm shift that forces a rethinking of processes, business models, and governance methodologies. Faced with this scenario, the future belongs to those who can adopt hybrid solutions, balancing the power of LLMs with human oversight, the rigor of security with the flexibility of innovation, the capacity to foresee risks with the determination to seize opportunities. And as an imaginary ancestor of mine used to say, folding his arms with a smile somewhere between resigned and amused: “You may have the entirety of human knowledge at your fingertips, son, but truly knowing when to stop and look elsewhere always requires a touch of humanity.” And as his words fade, all that remains is the echo of advice no algorithm can ever update with a patch.
- Generative AI and Quantum Technologies: Redefining Business Frontiers
In the dynamic landscape of corporate innovation, generative AI and quantum technologies are redefining business possibilities, opening new frontiers, unlocking new opportunities and challenges for companies across all sectors. Generative AI and Quantum Technologies: Redefining Business Frontiers Let us begin with “ Q-PnV: a new approach to quantum consensus for consortium blockchains ” which explores the integration of quantum consensus mechanisms into blockchain technology. This approach not only strengthens the security of business transactions against future threats posed by quantum computing but also demonstrates how companies can adopt advanced technologies to ensure integrity and reliability in their distributed systems. The blockchain, envisioned as an immutable public ledger, finds a powerful ally in Q-PnV to withstand attacks from quantum computers, thanks to techniques such as quantum entanglement , a phenomenon in which correlated particles instantaneously affect each other’s state regardless of distance. Moving on, “ Tech Trends 2025. Artificial Intelligence, the Cognitive Substrate for the Digital Future ” paints a picture in which AI is no longer an isolated technology but becomes the invisible fabric that permeates every technological, social, and economic aspect of business. This transformation is comparable to electrification, which was initially groundbreaking and then became indispensable. AI, as a cognitive substrate, enables faster and more precise decision-making processes, deeply integrating with data, systems, and corporate workflows. Companies are called to rethink strategies and business models, adapting their internal expertise to fully exploit the potential of an advanced cognitive infrastructure. In this evolving scenario, “ Artificial consciousness and biological naturalism: a perspective between computation, living dynamics, and ethical implications ” introduces a critical ethical and philosophical debate. Although artificial consciousness is not yet a reality, it raises fundamental questions about the nature of intelligence and awareness in machines. Businesses must consider not only technological efficiency but also the ethical implications of their innovations, ensuring that AI development is conducted responsibly and sustainably. Within the context of advanced technologies, “ How the RevThink Framework Enhances Efficiency in LLM Models ” presents an innovative approach to improving the deductive capabilities of large language models (LLMs). The RevThink framework leverages inverse reasoning, a technique that enables models to verify the answers they generate, increasing both accuracy and consistency in their deductions. This method not only optimizes model performance but also reduces the need for massive training datasets, making AI more accessible and sustainable for companies looking to implement advanced solutions without incurring excessive computational costs. AI’s impact also extends to traditional sectors such as accounting and finance. In “ Impact of AI in Accounting and Finance ” we see how AI is automating manual processes, enhancing the accuracy of financial forecasting, and improving risk management. Generative AI technologies are transforming financial reporting and strategic analysis, showcasing the power of generative AI and quantum technologies in traditional sectors, allowing companies to make more informed and timely decisions. However, adopting these technologies requires a transformation of professional skill sets and careful governance to address ethical and data security concerns. Finally, “ Multimodal AI in medicine ” illustrates how integrating data from various sources—such as genetics, imaging, and wearable sensors—is spurring innovation in diagnostics and personalized medical treatments. Multimodal AI enables a holistic view of a patient’s health, improving diagnostic precision and therapeutic effectiveness. This technology not only enhances the quality of care but also optimizes healthcare resource management, making the system more efficient and sustainable. In a world of continuous technological evolution, integrating generative AI and quantum technologies marks a strategic shift for businesses aiming to maintain a competitive edge. However, this transformation requires a forward-looking vision, targeted investments, and strong ethical governance. As an imaginary ancestor of mine might say, “To innovate without looking to the future is like sailing without a compass: you risk getting lost in the seas of change.” Who knows—the future will surprise us with even more innovations. But one thing is certain: those who know how to connect intelligence and technology will hold the keys to unlocking the doors of success.
- Generative AI and Globalization: How Businesses Can Leverage Trends and Overcome Challenges
In a world where every day we wake up to conflicting news about the state of the economy and the transformative impact of Generative AI and globalization , doubts about the direction technology might take persist, some recent reflections offer an interesting overview, capable of blending the most human needs with the aspiration for ever more advanced business models. It’s a mix that spans from globalization (with all its potential opportunities and contradictions) to the development of generative artificial intelligence, passing through future scenarios of companies ready to experiment with new productivity formulas. A complex mosaic, then, to be observed with curiosity, but also with the awareness that every innovation, especially when talking about generative AI and globalization, entails non-trivial challenges and ethical, social, and economic implications. Generative AI and Globalization: How Businesses Can Leverage Trends and Overcome Challenges All it takes is reading some analyses on the global situation, such as those contained in “ Ipsos Global Trends 2024: Analysis of Tensions Between Global Uncertainties and Individualism ” to realize that globalization is far from over, although there are very strong forces pushing for the protection of local markets and a strengthening of national pride. In several emerging countries, the idea of entering an increasingly interconnected market even appears stimulating, demonstrating that when the benefits feel concrete, it becomes natural to support its expansion. Yet, the data also show the growth of phenomena like economic nationalism, almost as if wanting to maintain a distinctive identity in the face of an unstoppable flow of ideas and goods. Within just a few lines, we come across a kind of paradox: the same person, convinced of the advantages of interconnection, may also strongly desire to protect their country’s autonomy. For businesses, knowing how to navigate between localism and global vocation means calibrating strategies, brand identity, and operating models that consider different cultures, evolving markets, and, above all, a public opinion that is not always linear. In parallel, in the coming years, the issue of artificial intelligence will end up intertwining with social trends in an even more pronounced way. A window onto this near future is offered by “ 2025: AI Scenarios in Business ” a contribution that already presents situations in which companies rely on generative AI to speed up product design, reduce errors, and increase productivity. If terms like “AI agents” seem abstract, it’s worth specifying that an AI agent is software capable of acting autonomously on data or systems, performing analytical (and sometimes decision-making) tasks that, without automatic support, would require a massive investment of human time. These tools, far from replacing existing professional skills, tend to reframe their contours: repetitive work is eliminated, and the focus shifts to strategic and creative aspects. It makes sense, however, that each transition of this kind demands new skills and attention to “Responsible AI,” a set of methodologies aimed at designing systems that respect privacy, ethical values, and transparency rules. From a broader perspective, “ Technology 2025: Evolving Global Dynamics ” encourages us to look further and ask ourselves how geopolitical dynamics and markets will develop, considering the increasing importance of elements like cybersecurity, supply chain management, humanoid robotics, and the convergence with augmented and immersive realities. The arrival of 5G and (in the future) 6G networks, the approach of quantum computing scenarios (a term indicating the capability of special machines to solve complex problems by leveraging quantum properties), and the need to revise encryption protocols all intertwine with political tensions, fueled also by those who see greater protectionism as an opportunity to reshape global balances. Consequently, companies looking to expand on an international scale must balance efficiency, competitiveness, and safeguard the cultural aspects of the countries where they operate. This phenomenon could encourage the adoption of “glocal” production systems, where innovation can emerge from multiple regional hubs, without necessarily centralizing in one single location. Still in this context, “ Tech Trends 2025. Artificial Intelligence, the Cognitive Substrate for the Digital Future ” delves into the idea that AI won’t just be “used” consciously but will act as a pervasive infrastructure, like electricity or the Internet, that future users might not even perceive as “extraordinary.” This shift demands both technical and cultural reflection: on one hand, it requires specialized hardware (for example, GPUs, which are graphic processors suited to parallel computations) and robust energy management; on the other hand, it generates implications for how people will train, communicate, and verify the reliability of information. Consider, for instance, how the use of voice assistants on smartphones or in smart homes has already evolved: initially seen as a gadget, it has begun to blend into daily life, often without the user reflecting on the scope of these tools. However, one cannot ignore the ethical and social dimension. This is where “ Generative AI Ethics: Implications, Risks, and Opportunities for Businesses ” comes into play, addressing how the production of images, texts, and videos by increasingly sophisticated algorithms affects work, art, education, and privacy protection. The concept of deepfakes (videos or audio created to seem real but generated by an AI system) is only the tip of the iceberg in a context where the ease of generating content could influence the spread of fake news or potentially harmful information. At the same time, for a brand or institution, being able to leverage generative AI can open new spaces for creativity, experimentation, and service personalization. The real challenge, as highlighted in many studies, is establishing a framework of shared rules and responsibilities: protecting intellectual property, preventing sensitive data from indiscriminately ending up in training datasets, and adopting “Responsible AI” practices to avoid dangerous distortions and manipulations. In this interplay between globalization and cutting-edge AI, some constants emerge. On the one hand, there is a widespread demand for transparency: consumers and citizens want to know the impact of what they purchase, the production chain, and how companies handle data. On the other hand, there is a need for skill sets that go beyond mere technological knowledge, encompassing the ability to interpret economic trends, grasp cultural sensitivities, and preempt social tensions. Returning to social tensions, the data highlighted by Ipsos show how the very concept of inequality has changed shape in an era when anyone can establish virtual contacts with others, and where precariousness is sometimes perceived in more subtle forms, sometimes more striking. For organizations, this translates into a responsibility: implementing strategies, not solely oriented toward profit, that consider a trust that must be earned day by day, especially in diverse markets and communities. Thought then goes to a future scenario where companies find themselves evaluating, on the one hand, the benefits of AI capable of handling an enormous flow of information, and on the other, the need not to offload an excess of complexity onto individuals. We might see AR (Augmented Reality) tools that make training processes more immersive and faster, or e-commerce platforms capable of hyper-personalizing the shopping experience. These technologies, if well-balanced, can improve efficiency, even creating job opportunities never imagined. Yet we should not overlook the risk of informational saturation and decision-making overload, which could penalize those who lack the tools (or time) to keep up with constant updates. In other words, while systems evolve, a collective responsibility is needed to avoid forms of exclusion or subtler or more evident manipulation. Another common thread in the perspectives mentioned above concerns governance. If generative AI technologies begin to make an impact in previously unthinkable areas, defining reliable protocols becomes urgent. It’s not enough to rely on the good will of individual developers: a broader pact is needed among companies, institutions, scientific communities, and end users. Managers who are sensitive to innovation see opportunities for cost savings and creative momentum, but they also need to establish internal auditing processes and cross-sector collaboration to mitigate the risk of a race to the bottom. It’s not about overregulating, but about sharing minimum standards, for example on responsible data management or security mechanisms that prevent a system from generating content contrary to the public interest. Ultimately, the persistent tension between localism and a global outlook, between protectionist impulses and a desire for cooperation, seems to merge with the broader debate on AI, and on its generative form, capable of automating creative and analytical activities once reserved for humans alone. Anyone envisioning a future in which humanoid robots integrate into the workforce is not a naive optimist but rather an observer of signals already visible in certain cutting-edge sectors. Likewise, those who highlight fears about misinformation, data breaches, political manipulation, and cultural homogenization are not merely alarmist but recognize the need for rules, a culture of caution, and mechanisms of continuous validation. In between lie extraordinary possibilities: boosting medical research, setting up more sustainable production chains, making education inclusive and free from geographical constraints. How to navigate so many stimuli? Perhaps it’s helpful to focus on cross-functional skills: the ability to interpret data, assess social impact, and envision an organization that is as resilient as possible and ready to revise strategic choices. In an era when even news reporting and communication can be disrupted by automated generation systems, transparency becomes an indispensable safeguard, a credibility criterion for businesses seeking to endure over time. Adopting AI does not mean imposing a miraculous solution from above but building an ecosystem where machines and people coexist, each with their own role, so that the final outcome is truly sustainable and open to innovation that brings tangible benefits. By way of conclusion on this journey through technological perspectives and global reflections, one might say that, although superintelligent systems can make our lives easier, our humanity also resides in the enthusiasm for learning and the pleasure of challenging ourselves. If a device already knew how to do everything in our place, we might end up forgetting the satisfaction of a well-designed idea or a personal discovery. And perhaps precisely in this tension between convenience and curiosity lies the ultimate meaning of innovation: providing the tools but leaving people the freedom to explore, learn, and make mistakes. Because only in this way do, we remain critical, aware, and truly ready to seize whatever lies ahead. The rest… is still there to be discovered.
- Mender: Preference Discerning e Generative Retrieval per raccomandazioni personalizzate
“ PreferenceDiscerningwithLLM-Enhanced Generative Retrieval ” di Fabian Paischer , Liu Yang e Linfeng Liu , coinvolge l’ ELLIS Unit, LIT AI Lab, Institute for Machine Learning, JKU Linz, University of Wisconsin, Madison e Meta AI . La ricerca tratta la raccomandazione sequenziale in chiave generative retrieval sfruttando preferenze utente espresse in linguaggio naturale. Emergono opportunità di personalizzazione più incisiva, con la possibilità di guidare il sistema anche attraverso indicazioni negative (sentiment) o desideri specifici (steering). Per le aziende che operano nell'e-commerce, i dati suggeriscono che includere preferenze espresse in formato testuale nei sistemi di raccomandazione può migliorare le prestazioni, con un aumento stimato del 45% su metriche come il Recall@10 . Questa metrica valuta la capacità di un sistema di identificare elementi rilevanti tra i primi 10 risultati mostrati, elemento cruciale per migliorare l’esperienza degli utenti. Tale approccio offre indicazioni pratiche per ottimizzare l'offerta di prodotti e servizi, consentendo un risparmio di risorse e favorendo un maggiore coinvolgimento del pubblico. Mender: Preference Discerning e Generative Retrieval per raccomandazioni personalizzate Preference Discerning: il nuovo standard per la Raccomandazione Sequenziale Il paradigma del preference discerning si distingue come pratica innovativa per integrare esplicitamente le preferenze degli utenti nei modelli di generative retrieval , perfezionando la personalizzazione nelle raccomandazioni. Quest’ultimo non si limita a confrontare rappresentazioni statiche di item e utenti ma produce direttamente l’ item successivo più adatto. L’idea di fondo è che la cronologia delle interazioni non basti a catturare la vera intenzione dell’utente, perché questi ultimi spesso esprimono desideri o limitazioni di vario tipo, soprattutto attraverso recensioni o note testuali che rimangono difficilmente codificabili in approcci tradizionali. Nel lavoro di Paischer, Yang e Liu la nozione di generative retrieval assume una connotazione spiccatamente testuale. Il sistema ingloba infatti le preferenze, ad esempio: «Preferisco prodotti leggeri che non contengano determinate sostanze» o «Evito del tutto alcuni materiali scomodi» . Questi desideri diventano variabili fondamentali per generare l’item successivo in una sequenza d’acquisti. Per giungere a un tale livello di personalizzazione , i ricercatori introducono un approccio in due fasi: preference approximation e preference conditioning . La prima individua le propensioni personali di ogni utente basandosi su dati come recensioni e descrizioni di item già acquistati; la seconda condiziona il modello generativo sulla base di queste preferenze, rendendo la raccomandazione decisamente flessibile e reattiva a istruzioni sia positive sia negative. I riscontri numerici rivelano che i metodi standard faticano a interpretare dettagli particolari, come preferenze di sentiment o variazioni nel tempo dei gusti personali. Un sistema di preference discerning affronta la questione offrendo, tra gli altri, una valutazione “fine-grained steering” (capacità di modificare la raccomandazione con precisione) e una valutazione “coarse-grained steering” (adattamento più generico ma comunque attento a nuove preferenze). Per esempio, se un utente specifica di evitare materiali sintetici per calzature, il sistema non solo smette di proporre prodotti non graditi ma suggerisce alternative coerenti con la direzione preferita. Dalla ricerca emerge anche come molti modelli esistenti non gestiscano bene la sentiment following , ossia comprendere se un utente esprime un rifiuto netto o un’attrazione forte per un certo brand o materiale. L’innovazione in termini di generative retrieval sta invece nell’inserire queste avversioni e inclinazioni dentro la generazione dell’output. Ciò risulta particolarmente utile per chi gestisce servizi di e-commerce e vuole limitare proposte indesiderate che rischierebbero di frustrare l’utente. Un concetto centrale è la formula per la rappresentazione di item come semantic IDs , ovvero RQ(e,C,D) = (k1, ..., kN) in [K]^N , dove si definisce un processo di quantizzazione che converte gli embedding in rappresentazioni discrete. Questo passaggio permette di generare token interpretabili anche a fronte di milioni di prodotti diversi. I test su dataset come Amazon (Beauty, Toys and Games, Sports and Outdoors) e Steam mostrano come, aumentando le informazioni testuali, le raccomandazioni si facciano più mirate. Per le aziende che gestiscono eCommerce, è particolarmente efficace unire l'integrazione delle preferenze degli utenti (history consolidation) con indicazioni di orientamento personalizzate. Questo consente all'azienda di individuare eventuali cambiamenti nei comportamenti degli utenti nel tempo e di adattare la strategia di presentazione dei prodotti in modo mirato. Questo approccio favorisce un incremento dei tassi di conversione e una riduzione del rischio di sovraccaricare l'utente con contenuti non pertinenti. Benchmarking nel Preference Discerning: test e metodologie innovative I ricercatori allestiscono un benchmark con cinque assi di valutazione: preference-based recommendation , fine-grained steering , coarse-grained steering , sentiment following e history consolidation . Ciascun asse mette in luce un diverso scenario d’uso e sottopone i modelli di raccomandazione a sfide particolari. Nel caso di preference-based recommendation , il modello riceve una preferenza specifica generata in precedenza (per esempio: «Opta per prodotti privi di determinati allergeni» ) e deve indovinare quale sarà l’item desiderato. Per validare la robustezza delle soluzioni, vengono adottati set di training, validation e test che evitano sovrapposizioni tra preferenze già viste e preferenze nuove, in modo da misurare la capacità di generalizzazione a utenti inediti. Sulla componente di fine-grained steering , si cerca di capire se il sistema riesce a cogliere preferenze molto ravvicinate all’item effettivamente acquistato. Immaginando un utente che ha sempre scelto scarpe da corsa ultraleggere, la preferenza potrebbe specificare di voler provare una versione “ancora più leggera ma con un certo tipo di ammortizzazione”. Il metodo deve sapersi orientare senza errori in direzioni affini, producendo item simili ma non identici. Al contrario, coarse-grained steering valuta la capacità di rispondere a preferenze che distanziano moltissimo la raccomandazione dal passato, come passare da “sneakers fitness” a “scarpe eleganti da cerimonia” . La ricerca rivela che i modelli tradizionali (per esempio TIGER o soluzioni con semplici vocab extension ) falliscono spesso queste distanze, mentre un sistema ben condizionato sulle preferenze sa manovrare anche cambiamenti drastici. L’aspetto di sentiment following spicca come funzione chiave. Se un utente ha espresso recensioni negative verso uno specifico brand, la preferenza generata può sottolineare di evitare quel marchio. Emerge tuttavia che molti modelli esistenti non sfruttano bene i dati negativi : la metrica m@k (mutuata dalla hit rate ) indica se il sistema riesce a inserire l’item nel set di raccomandazioni quando la preferenza è positiva, ed escluderlo quando la preferenza è negativa. I risultati mostrano punteggi molto bassi (attorno allo 0.004 su alcuni dataset) per i metodi che non sono stati addestrati su preferenze esplicitamente negative, mentre la nuova strategia migliora nettamente quando si alimentano esempi di questo tipo. L’ultima dimensione, la history consolidation , solleva la questione che molte preferenze non servono realmente a individuare l’item giusto in un dato momento e creano rumore. Fornire al modello un insieme di preferenze miste, che non tutte riguardano il prodotto finale, costituisce una prova di robustezza: il sistema deve filtrare i suggerimenti utili, ignorando preferenze irrilevanti. Secondo gli autori, l’abilità di gestire questi casi risulta cruciale per scenari reali, dove l’utente accumula preferenze e poi ne scarta alcune. Le valutazioni adottano metriche note come Recall@5 , Recall@10 , NDCG@5 , NDCG@10 e mostrano, in diversi esperimenti, come il paradigma del preference discerning migliori la qualità della raccomandazione in tutti e cinque gli assi. Il superamento dei modelli standard varia, talvolta arrivando fino a un +45% in termini di Recall@10 . Mender: il modello generativo che ridefinisce il Preference Discerning e il Generative Retrieval Mender, acronimo di Multimodal Preference Discerner, rappresenta un’innovazione chiave nel panorama del generative retrieval. Questo modello avanzato sfrutta semantic IDs per generare raccomandazioni basate su preferenze utente espresse in linguaggio naturale, ridefinendo il paradigma del preference discerning. Il sistema gestisce gli elementi come sequenze di token semantici applicando il concetto di autoregressive modeling. Questo approccio consente di prevedere direttamente il prossimo elemento in una sequenza anziché confrontare gli elementi a coppie, migliorando così l’efficienza e l’accuratezza del processo. Un aspetto chiave è l’impiego della formula RQ(e,C,D) = (k₁,...,kₙ) in [K]ⁿ , che permette di quantizzare gli embedding, cioè trasformare rappresentazioni numeriche complesse degli elementi in codici discreti. Questa trasformazione consente di collegare con maggiore precisione le preferenze testuali espresse dagli utenti all’universo degli elementi disponibili, migliorando il grado di personalizzazione delle raccomandazioni. Grazie a questa metodologia, Mender garantisce un abbinamento sofisticato e ottimale tra le preferenze degli utenti e gli elementi suggeriti, offrendo un sistema più efficace e user-friendly. La particolarità di Mender risiede nella sua struttura, composta da un encoder linguistico pre-addestrato e da un decoder che genera token semantici corrispondenti agli elementi raccomandati. Il decoder utilizza meccanismi di cross-attention con l’encoder, un processo che consente di trasformare le istruzioni degli utenti e la cronologia d’acquisto in una previsione autoregressiva, ossia in una sequenza predittiva basata sugli input forniti. Sono state sviluppate due versioni del modello: MenderEmb e MenderTok . MenderEmb codifica separatamente le preferenze degli utenti e gli elementi raccomandati attraverso embedding, cioè rappresentazioni numeriche specifiche per ogni componente. Al contrario, MenderTok unifica cronologia e preferenze in una sola sequenza di token testuali, permettendo al modello di trattare l’intero insieme di dati come un unico flusso informativo. Questa doppia configurazione offre flessibilità nella gestione e nell'ottimizzazione delle raccomandazioni in base alle esigenze specifiche del sistema. Nei risultati sperimentali, MenderTok si distingue per prestazioni superiori rispetto ad altri approcci, grazie alla sua capacità di rappresentare tutte le informazioni in forma testuale. Ad esempio, su un dataset come Amazon Beauty , il valore di Recall@10 aumenta da 0.0697, ottenuto con alcuni modelli base, a circa 0.0937. Analogamente, sul dataset Sports and Outdoors , si registra un incremento da 0.0355 a 0.0427. Questo miglioramento significativo è dovuto alla capacità del sistema di adattarsi a nuovi profili utente utilizzando vincoli espliciti espressi in linguaggio naturale, evitando così procedure complesse di ri-addestramento. Il modello genera un insieme di codici semantici valutando gli item in uno spazio latente, una rappresentazione astratta che cattura le caratteristiche principali degli elementi. Successivamente, questi codici vengono tradotti in ID discreti, consentendo al sistema di gestire efficacemente un catalogo di dimensioni molto ampie, mantenendo al contempo un elevato grado di personalizzazione e precisione nelle raccomandazioni. Nel documento di ricerca si sottolinea che il successo di Mender dipende anche dalla qualità delle preferenze generate , cioè dalla loro aderenza reale al profilo utente. Gli autori, infatti, hanno condotto un sondaggio, rivelando che circa il 75% delle preferenze testuali corrisponde effettivamente agli orientamenti delle persone. Un sistema come Mender trae vantaggio dalla precisione di queste preferenze, riducendo proposte non pertinenti. Inoltre, la combinazione di segnali testuali e passati acquisti rende più semplice ampliare l’offerta a item correlati senza snaturare i gusti dell’utente. Per le aziende interessate a implementare Mender, la sinergia tra embedding semantici e user input apre la strada a modelli in grado di integrarsi con i flussi di dati già esistenti, come recensioni, post sui social e feedback diretti. La prospettiva di codificare item e preferenze testuali in un unico encoder-decoder può incrementare la trasparenza e la spiegabilità delle raccomandazioni verso l’utente finale. Mender e Generative Retrieval: impatti strategici per l’E-commerce I test contemplati riguardano quattro dataset noti: tre subset di Amazon (Beauty, Toys and Games, Sports and Outdoors) e Steam. Le azioni totali vanno dalle 167.597 di Toys and Games alle 599.620 di Steam, con differenze anche nella distribuzione degli item. In modo coerente con l’idea di preference discerning , i ricercatori hanno generato preferenze da recensioni reali usando modelli di linguaggio di grandi dimensioni, filtrandole con meccanismi di post-processing per eliminare rumore o riferimenti ripetitivi. Le performance di raccomandazione si valutano tramite diverse metriche. MenderTok raggiunge, per alcune combinazioni di dataset e parametri, Recall@10 prossima allo 0.20 su Steam, mentre i modelli senza preferenze esplicite rimangono spesso sotto 0.19. Su Amazon, gli scarti tra le soluzioni sono ancor più marcati, con miglioramenti che, secondo i dati presentati, arrivano a toccare picchi di circa +45% rispetto a baseline come TIGER o LC-REC . Un punto decisivo è l’abilità di cambiare la raccomandazione in base a preferenze negative. Nella valutazione definita sentiment following , se l’utente dichiara di evitare un certo brand, l’algoritmo deve eliminare l’item corrispondente dalle prime posizioni della lista. I risultati mostrano che, senza addestramento mirato su preferenze negative, molte soluzioni mantengono quell’item nelle raccomandazioni, irritando l’utente. Con l’approccio preference discerning , invece, la metrica di hit rate combinata migliora, indicando una maggiore capacità di distinguere ciò che piace da ciò che infastidisce. Sono stati analizzati pure i casi di history consolidation , dove un utente accumula preferenze multiple e ne rivede alcune. Il sistema deve selezionare quali preferenze sono rilevanti e ignorare informazioni non più centrali. Gli autori evidenziano come modelli generativi standard, se privi di un’adeguata fase di conditioning testuale, fatichino a filtrare preferenze irrilevanti. Mender, viceversa, mostra un trade-off equilibrato tra affidabilità e adattabilità: anche quando compaiono preferenze disallineate con l’item finale, mantiene una prestazione competitiva. Per le imprese, questi test di multi-scenario suggeriscono che la dimensione della personalizzazione ha un peso crescente sulle conversioni. Avere un unico sistema che sappia passare da raccomandazioni coerenti col passato a raccomandazioni in rottura controllata può aiutare a sperimentare nuovi cluster di prodotto, massimizzando il gradimento. Preference Discerning e Generative Retrieval: applicazioni e futuro L’orientamento esplicito sulle preferenze testuali proietta questo filone di ricerca in aree molto varie. Nell’e-commerce, l’uso di preferenze negative consente di proporre articoli che evitino ciò che l’utente non vuole, mentre l’inserimento di preferenze positive raffina la scelta su modelli, caratteristiche tecniche o design. I manager aziendali possono trasformare questi sistemi in strumenti di retargeting o di cross-selling più mirato, riducendo sprechi di tempo e di budget pubblicitario. Sul piano tecnico, la combinazione tra embedding e preferenze naturali comporta un aumento di complessità gestibile grazie a large language models aperti. I ricercatori promettono di rilasciare il codice e i benchmark per favorire la riproducibilità e l’estendibilità a nuovi dataset. Si potrà così confrontare Mender con altri approcci che emergono rapidamente, assicurando un perfezionamento costante della tecnologia. È importante sottolineare che analisi condotte su metriche come Recall@5 , Recall@10 e NDCG@10 rappresentano un passaggio critico per individuare la capacità di rispettare preferenze specifiche. In settori come il turismo, l’assistenza sanitaria o le piattaforme di streaming, la necessità di saper interpretare rapidamente gusti e avversioni dell’utente risulta vitale. Adottare soluzioni in grado di recepire comandi in linguaggio naturale, come «Cerca prodotti sostenibili» o «Evita contenuti violenti» , può fare la differenza sul tasso di fidelizzazione. Grazie a preference discerning , l’utente diventa co-protagonista del processo di generazione, esprimendo istruzioni dirette su ciò che desidera. Un manager aziendale, dal canto suo, può definire linee guida di business intelligence , suggerendo al sistema quali preferenze aziendali favorire, per esempio prodotti a margine più elevato o integrati in campagne promozionali. La tecnologia generativa impiegata da Mender si dimostra sufficientemente flessibile da assorbire prompt esterni, un aspetto strategico quando le preferenze non emergono solo dai dati passati, ma anche da contesti online volatili o da input testuali in real time. Conclusioni Le informazioni provenienti dallo studio mostrano come la capacità di condizionare esplicitamente i modelli di raccomandazione con preferenze utente incida in modo concreto sulle prestazioni di generazione e sulle possibilità di personalizzare l’offerta. A differenza di soluzioni affini, Mender e il relativo benchmark introducono una gestione diretta delle istruzioni testuali, allineandosi con la tendenza emergente di integrare con efficacia i large language models . Le possibili conseguenze per il mondo imprenditoriale sono una maggiore modulazione della proposta, la riduzione di raccomandazioni errate e la potenzialità di esplorare mercati verticali con regole di personalizzazione più dettagliate. Se si osservano altre tecnologie simili, alcune soluzioni di generative retrieval iniziano a sperimentare meccanismi linguistici, ma raramente raggiungono una separazione così netta tra generazione di preferenze e condizionamento effettivo. Da questa prospettiva, appare strategica la scelta di generare preferenze anche quando non esiste un esplicito storico collegato, favorendo l’adattabilità a nuovi utenti. Nel complesso, la ricerca apre lo spazio a una personalizzazione ancora più fine, in cui preferenze positive e negative, espresse liberamente in linguaggio naturale, guidano i sistemi in modo più consapevole. L’invito rivolto ai dirigenti aziendali è considerare l’adozione di questi metodi non semplicemente come un ulteriore progresso tecnico, ma come un cambiamento strategico verso un sistema altamente reattivo e orientato all’ascolto, in cui la voce dell’utente assume un ruolo centrale nel processo di raccomandazione. Questo approccio consente di integrare direttamente le preferenze espresse dagli utenti, trasformandole in uno strumento fondamentale per migliorare l’esperienza e la personalizzazione dei servizi offerti. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Mender-Preference-Discerning-e-Generative-Retrieval-per-raccomandazioni-personalizzate-e2svr5e Fonte: https://arxiv.org/abs/2412.08604
- The LIGER Hybrid Model: Transforming Sequential Recommendation Systems
Over the past decade, recommendation systems have evolved into a critical technology for any enterprise that relies on guiding user choices, whether in e-commerce, streaming services, or digital platforms that provide content and entertainment. As people navigate vast catalogs of products and information, algorithms shoulder the task of pinpointing items that suit individual tastes. One area of research, known as sequential recommendation , focuses on predictions informed by user history: if someone viewed or purchased specific items in the past, what might they be interested in next? A recent investigation, authored by Liu Yang, Fabian Paischer, and Kaveh Hassani in collaboration with the University of Wisconsin–Madison, the ELLIS Unit at the LIT AI Lab (Johannes Kepler University, Linz), and Meta AI, lays out fresh insights into two distinct but equally influential approaches. The first is known as dense retrieval , in which each item is compressed into a numerical representation or “embedding,” allowing a system to measure similarity among items by comparing these embeddings. The second, generative retrieval , draws on Transformer-based architectures to produce, in a more direct manner, the semantic code that identifies the next item in a sequence. Their work highlights challenges such as memory demands, the incorporation of brand-new items (the so-called cold-start dilemma), and overall system performance, all of which are pressing for enterprises operating at scale. Yet these insights also go a step further by showcasing how dense retrieval and generative retrieval each come with benefits and trade-offs. By delving into recall scores and memory footprints, the research underscores a shared objective: to propose the most relevant items while balancing computational efficiency and adaptability. To bridge the gap, the team introduces a hybrid model called LIGER (LeveragIng dense retrieval for GEnerative Retrieval), which combines the strengths of dense similarity-based ranking with the flexible generation of new semantic codes. This reinterpretation of the study will traverse the key components: (1) how dense and generative retrieval differ in technique and resource requirements, (2) why cold-start items pose a particularly vexing problem for generative retrieval, and (3) how LIGER aims to integrate these two methods to reach a middle ground. We’ll also reflect on pragmatic aspects for businesses managing massive catalogs, where each new approach must not only outperform older systems but also remain nimble enough to handle shifting market demands. The LIGER Hybrid Model: Transforming Sequential Recommendation Systems LIGER Hybrid Model: Contrasting Dense and Generative Retrieval Approaches For many years, dense retrieval has been viewed as a natural extension of traditional recommendation algorithms. This approach assigns each item in a catalog a unique high-dimensional vector (or embedding) that captures its distinctive attributes—brand, category, textual description, or any relevant metadata. When a user’s past interactions are also transformed into an embedding, the system computes mathematical similarities (often an inner product or cosine similarity) to identify the items that most closely match the user’s profile. Pros and Cons of Dense Retrieval High Accuracy : Because each item is coded by a rich, learned representation, dense retrieval frequently achieves robust performance in standard benchmarks, especially for “in-set” items that the system has already seen during training. Resource Intensiveness : As a catalog grows into the millions, the system must store an embedding for every single item and compare user embeddings with all potential item embeddings. Even if efficient similarity search structures exist, scaling can be computationally and financially costly. Cold-Start Handling : When brand-new items enter the mix, a dense retrieval system can still generate embeddings using textual or categorical descriptions. While it doesn’t solve the cold-start challenge entirely, it often retains at least a moderate capacity to guess which new entries might interest users, thanks to textual representations. In short, the hallmark of dense retrieval is its ability to rank familiar items accurately. The system excels in memory-rich settings where the overhead of storing countless vectors does not pose a dire problem. This makes it particularly appealing for businesses with well-established catalogs that seldom alter drastically or those with ample computational resources dedicated to serving recommendations. Generative Retrieval: Leveraging Transformer Models As an alternative, generative retrieval utilizes a Transformer-based model (akin to those found in neural machine translation or advanced language processing) to generate the semantic ID of the next recommended item. Each item’s “ID” is not just a product name or numerical identifier, but a richer tapestry of textual cues—title, brand, category, and price, among other relevant descriptors. During training, the model observes sequences of item interactions. By seeing the progression of codes that led a user from one purchase to another, it learns to predict the next set of codes. During recommendation, a beam search can be employed: the system generates various candidate code sequences, retaining only the most promising among them. Hence, instead of scanning an entire catalog of item embeddings, the model “writes” the next item’s semantic code directly. Pros and Cons of Generative Retrieval Efficient Scaling : Rather than storing a dedicated vector for each item, the system mainly stores the distinct building blocks that form an item’s semantic representation. For instance, if a catalog includes 50 possible brands and 100 possible categories, the number of codes might be just 150. Whether there are 2,000 items or 20,000, the memory footprint for storing codes does not expand proportionally with the number of items. Cold-Start Weakness : Generative retrieval can struggle significantly when confronted with items that never appeared during training. Since the model typically leans on previously observed codes, brand-new items remain invisible to the learned patterns. Consequently, the probability of generating truly novel combinations is often negligible, making it hard to surface fresh content. Performance Gap : Across standard metrics such as Recall@10, purely generative approaches often lag behind dense retrieval. The difference in performance—3% or 4% in some experiments—might not appear enormous on paper, but in commercial settings, such a gap can translate to a substantial difference in user satisfaction or revenue. This generative idea presents an undeniably attractive path for businesses that aim to handle large catalogs without excessive overhead. Yet it also reveals a trade-off: a system that excels at storing minimal item representations might lose out on the fine-grained precision critical for personalizing recommendations. How the LIGER Hybrid Model Tackles the Cold-Start Dilemma For recommendation engines, the cold-start problem has long been recognized as one of the hardest challenges. When new items are introduced to a platform, there is no interaction history to guide the algorithm toward the right audience. Understanding how the two major retrieval strategies tackle this issue becomes crucial for any business that regularly updates its catalog. Dense Retrieval in Cold-Start Scenarios Thanks to textual embeddings, dense retrieval can still produce a ballpark representation for items with no prior clicks or purchases. A beauty product, for instance, could generate an embedding from text referencing its brand, fragrance type, and target demographic, helping the system connect it to similar items from the past. The model might not be spot-on, but it generally does better than random guessing, retaining a modest but real chance of being discovered in the top recommended slots. Generative Retrieval in Cold-Start Scenarios By contrast, generative retrieval can struggle to even place brand-new items into the candidate set. Given that the system has learned to generate item codes (brand, category, etc.) from existing examples, it strongly favors items that it “knows.” If an entirely unfamiliar brand or category arises, the model’s probability of generating that code in the next semantic sequence is extremely low—so low, in fact, that it typically fails to appear in the final beam of candidates. Empirical studies from the research highlight recall values near zero for generative approaches in these cold-start cases, especially in categories like Amazon Toys or Amazon Sports. Within a dynamic marketplace—where seasonal trends, rotating inventories, or brand partnerships result in a steady influx of new goods—this limitation cannot be overlooked. Some have proposed quick fixes, like artificially forcing the system to consider a small set of fresh items. Yet these solutions often rely on guesses about how many new items might appear at once or require manual heuristics. The outcome is a partial patch, but a far cry from an elegant, robust remedy. Bridging Dense and Generative Retrieval with the LIGER Hybrid Model In seeking a remedy that capitalizes on the best qualities of both methods, the authors propose the LIGER Hybrid Model , short for LeveragIng dense retrieval for GEnerative Retrieval. The LIGER Hybrid Model endeavors to blend the flexible generation of item codes with the robust similarity scoring typical of dense retrieval. Architectural Highlights Dual Optimization Path LIGER maintains two internal pathways during training: A dense-based component that measures how similar the Transformer’s output is to the textual embedding of the next item. By maximizing cosine similarity (modulated by a temperature parameter τ), this part of the system ensures that the model does not lose sight of close semantic matches. A generative-based component that learns to produce the semantic code of the future item. The model employs its Transformer layers to sequentially predict the brand, category, or other attributes that define each item. Combined Loss Function These two training targets are consolidated into one overarching objective, encouraging the model to be simultaneously skilled at identifying the “closest” items (dense retrieval) and generating the relevant codes (generative retrieval). Inference Strategy Once trained, LIGER draws an initial set of K candidate items via generative retrieval. This set is then augmented with potential new items (which might not appear in the generative scope) and evaluated more precisely through dense ranking. By enlarging K, one can gradually approach the performance of a fully dense-based system, but with improved efficiency and coverage for fresh or rarely seen items. Practical Outcomes Studies across four real-world datasets—Amazon Beauty, Amazon Sports, Amazon Toys, and Steam—reveal how LIGER narrows the performance gap between a purely dense strategy and the generative approach, particularly for in-set items. For cold-start items, LIGER surpasses its generative-only counterpart, which otherwise stagnates near zero recall, by introducing a mechanism that dips into dense retrieval’s ability to guess representations for previously unseen products. This fusion proves especially beneficial in domains where item turnover is significant and brand-new content arrives constantly. While LIGER does incur some additional computational overhead compared to a purely generative method, it remains more memory-efficient than a purely dense system. This middle ground—where a business can manage large catalogs without storing an embedding for every single new item, yet still remain relevant to brand-new products—has immediate commercial implications. Detailed Examination of the Research Findings To test their models, the authors used datasets that vary in size and domain: Amazon Beauty : ~22,000 users, ~12,000 items, and ~198,000 interactions; 43 new items. Amazon Sports : ~35,000 users, ~12,000 items, and ~296,000 interactions; 56 new items. Amazon Toys : ~19,000 users, ~12,000 items, and ~167,000 interactions; 81 new items. Steam : ~47,000 users, ~18,000 items, and ~599,000 interactions; 400 new items. They evaluated systems through standard metrics like Recall@10 (the proportion of relevant items captured in the top ten recommendations) and NDCG@10 (a measure that weights the position of correct recommendations). For “in-set” testing—where items from the training set appear again in evaluation—dense retrieval often leads the pack or at least matches robust baselines such as SASRec or RecFormer. Meanwhile, purely generative retrieval tends to rank slightly lower, missing some of the subtle item-user connections. In the cold-start setting, purely generative approaches can virtually fail to identify brand-new items, sometimes scoring near zero in Recall@10. By integrating a dense retrieval step, LIGER rectifies this shortfall, lifting recall to meaningful levels. When LIGER is given a wider candidate set (larger K), it draws closer to dense retrieval’s performance. Indeed, the Normalized Performance Gap (NPG) steadily decreases as K rises, striking a balance between generative speed and dense precision. Recommendations for Businesses For enterprises, these differences highlight crucial design choices: Abundant Resources, High Precision Needs : If a company has robust computing systems, a purely dense approach may still be ideal. Its recall advantage for items seen during training remains consistently strong. Fast-Changing Catalogs, Efficiency Concerns : In a scenario with rapidly introduced items or restricted memory budgets, generative retrieval appears appealing, though it struggles to handle unseen items. This is where LIGER’s hybrid method can offer a workable solution. Managed Trade-Offs : LIGER allows for configurable K values, enabling organizations to dial up or down the emphasis on dense-based accuracy versus generative flexibility. Within this context, the LIGER model highlights the idea that no single solution can do it all, particularly in business environments that shift unpredictably. Instead, it guides teams to adopt a layered approach: generative modules identify an initial set of candidate items (including brand-new arrivals, if properly integrated), while dense modules refine these suggestions to maintain accuracy. For those dealing with extremely large catalogs—sometimes numbering in the millions—this synergy could greatly lower the memory footprint without sacrificing too much in performance metrics. Future Directions of the LIGER Hybrid Model As product lines balloon in size or shift rapidly according to trends, memory usage becomes a serious concern. Dense retrieval demands the storage of unique vectors for every item, and the overhead involved in updating or recalculating them can be daunting. By contrast, generative retrieval collapses many items into a concise set of codes. LIGER deftly exploits this advantage by retaining the text-based benefits of dense retrieval but only for a narrower set of candidates produced through generation. It is not hard to imagine an e-commerce platform with tens of thousands of new products debuting monthly. For them, an architecture that can quickly update which codes are valid—without re-embedding every item in high-dimensional space—might deliver real competitive benefits. Moreover, the research indicates that once K surpasses a certain threshold, performance draws near to a purely dense approach, giving technical teams the power to choose how large that threshold should be, based on hardware constraints and business objectives. Personalization and the Transformative Capacity of Generative Models Dense approaches excel at known items, but generative retrieval has a special flair for forging links between user behavior and items that might initially appear unrelated. A Transformer-based system can tap into latent features, possibly connecting a user’s interest in, say, “eco-friendly household products” with a previously unassociated brand. By merging these two vantage points, LIGER holds the promise of robust personalization—especially relevant when the platform’s content extends beyond straightforward categories. From a more humanistic angle, this interplay between known objects and newly imagined possibilities resonates with how we explore culture and knowledge in everyday life. We rely on established patterns to recognize what’s familiar, but we also remain open to fresh and unexpected ideas. LIGER’s hybrid framework thus mirrors the dual nature of human cognition: building on existing knowledge while having room for novelty. The Potential Role of Large Language Models (LLMs) As the study hints, continuing advances in Large Language Models—such as GPT-like architectures—may blur the line between dense and generative retrieval. These more advanced models can potentially produce item embeddings on the fly or generate new item codes with remarkable accuracy. They might also address cold-start challenges better by tapping into extensive real-world textual knowledge that extends beyond a single dataset. However, the paper also underscores that applying LLMs at industrial scale remains an open question, involving significant computational costs and the need for careful fine-tuning. Real-world performance, especially for massive catalogs, might differ considerably from lab settings. This leaves plenty of territory for further experimentation, both academic and commercial. Industry Adoption and Gradual Integration For businesses with existing dense retrieval pipelines, one plausible roadmap involves integrating a generative subsystem step-by-step. They might first train a Transformer to produce candidate items, then pass those candidates to their dense rankers. Over time, they can test how well the generative module captures new releases and whether it helps reduce memory overhead. Alternatively, companies that begin with generative retrieval might incorporate a dense refinement layer only for high-traffic items or premium content. In either case, LIGER’s versatility accommodates incremental changes rather than demanding a complete overhaul of a well-functioning system. Final Observations By weaving together, the mathematical robustness of dense retrieval with the flexible coding of generative retrieval, LIGER forges a practical path toward adaptive, resource-friendly recommendation systems. In a market that continuously demands up-to-date offerings, any system that fails to handle novel items gracefully stands at a disadvantage. Yet businesses also cannot overlook the accuracy gap that arises when they rely exclusively on generative retrieval. The solutions outlined in the research point to a bigger theme: there is rarely a one-size-fits-all formula for recommendation tasks. Instead, engineers, data scientists, and business strategists must chart their path by weighing the importance of memory costs, computational budgets, and the diversity of product catalogs. For some enterprises, a system purely anchored in dense retrieval remains indispensable; for others, generative retrieval offers a means of exploring a vast item space without drowning in memory demands. LIGER shows that the conversation between these two extremes need not be a stalemate. By merging generative candidate selection with dense verification and refinement, it provides a flexible blueprint that narrows the performance gap while empowering companies to manage new inventory more seamlessly. As the next era of recommendation systems continues to unfold, approaches like LIGER may well represent the new mainstream: forging alliances between established and emerging methods to serve the needs of an ever-changing marketplace—and of the individuals who rely on these technologies day after day. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/The-LIGER-Hybrid-Model-Transforming-Sequential-Recommendation-Systems-e2sv9se Source : https://arxiv.org/abs/2411.18814
- Modello ibrido LIGER: La nuova frontiera nelle raccomandazioni sequenziali
“Unifying Generative and Dense Retrieval for Sequential Recommendation” è il titolo della ricerca firmata da Liu Yang, Fabian Paischer e Kaveh Hassani, in collaborazione con l’Università del Wisconsin (Madison), l’ELLIS Unit del LIT AI Lab presso la JKU di Linz (Austria) e Meta AI. Lo studio esplora i sistemi di raccomandazione sequenziali, confrontando due approcci: il recupero denso, che punta sull’apprendimento di rappresentazioni complesse per ogni item, e il recupero generativo, basato su modelli in grado di predire direttamente l’indice dell’oggetto successivo. Alcuni elementi si rivelano di particolare interesse per le aziende, poiché coinvolgono aspetti di efficienza, gestione della memoria, integrazione di nuovi contenuti (cold-start) e prestazioni generali dei sistemi di raccomandazione. Modello ibrido LIGER: La nuova frontiera nelle raccomandazioni sequenziali Recupero denso e generativo: Come il modello LIGER rivoluziona le raccomandazioni sequenziali Le raccomandazioni sequenziali rappresentano una delle aree più studiate nell’ambito dei sistemi di suggerimento. L’idea è di analizzare la cronologia di interazioni di un utente per predire l’articolo successivo, facendo emergere correlazioni tra la sequenza di click o acquisti passati e la probabilità di interessare l’utente con un nuovo contenuto. La ricerca di Liu Yang e colleghi indaga proprio l’impatto di due diverse metodologie: da un lato il recupero denso, dall’altro un approccio generativo che punta a produrre l’indice dell’item da raccomandare. Il recupero denso, come descritto nella letteratura scientifica, si basa su tecniche avanzate di rappresentazione dei dati. Ogni articolo presente nel database viene trasformato in un embedding , ossia una rappresentazione numerica unica che sintetizza le caratteristiche fondamentali del suo contenuto. Il processo di raccomandazione si sviluppa calcolando il prodotto interno (una misura matematica di somiglianza) tra l'embedding associato all'utente o alla sequenza delle sue interazioni e l'insieme di tutte le rappresentazioni degli articoli disponibili. L'articolo che ottiene il punteggio di somiglianza più alto viene suggerito come opzione preferita. Tuttavia, quando si lavora con dataset di grandi dimensioni, questo approccio richiede di confrontare l'utente con tutti gli articoli presenti, comportando un elevato dispendio in termini di memoria e potenza computazionale. Nonostante ciò, il recupero denso offre spesso prestazioni superiori rispetto ad approcci più semplici. Il recupero generativo rappresenta un approccio alternativo al recupero denso. Invece di calcolare la similarità tra l'utente e tutti gli articoli disponibili, questa metodologia utilizza un modello di tipo Transformer , progettato per prevedere direttamente la prossima "etichetta semantica" associata all'articolo successivo. Con il termine "semantic ID" si intende un identificatore composto da più componenti che sintetizzano le principali caratteristiche dell'articolo, come titolo, marchio, categoria e prezzo. Ogni articolo viene quindi descritto attraverso una combinazione strutturata di questi attributi, spesso rappresentata come una tupla di codici. Durante la fase di addestramento, il modello generativo apprende a predire la sequenza successiva di codici basandosi sullo storico delle interazioni dell'utente. Una volta completata questa fase, il sistema può individuare l'articolo successivo mediante un algoritmo di beam search . Questo è un metodo euristico di ricerca che esplora più percorsi possibili in modo simultaneo, mantenendo solo quelli più promettenti, limitati a un numero prefissato di opzioni ("beam width"). In altre parole, invece di esaminare tutte le possibili combinazioni, il sistema si concentra su un sottoinsieme di percorsi che sembrano più probabili, migliorando così l'efficienza senza sacrificare troppo la qualità della soluzione. Un aspetto rilevante di questa strategia, nota come generative retrieval , è la sua capacità di scalare in modo più efficiente con l'aumentare del numero di articoli. Ciò è possibile grazie a una significativa riduzione dei costi di memoria: invece di conservare un embedding per ogni articolo, il sistema mantiene soltanto t codici, dove t rappresenta il numero di elementi distinti utilizzati per descrivere gli articoli. Per esempio, se nel database ci sono 10.000 articoli, ma solo 100 categorie e 50 marchi diversi, t sarà dato dalla somma degli elementi distinti necessari per rappresentarli (in questo caso, 100 categorie + 50 marchi = 150 codici), indipendentemente dal numero totale di articoli N . Questa caratteristica rende il recupero generativo particolarmente vantaggioso quando si lavora con dataset di grandi dimensioni, garantendo una migliore scalabilità e una gestione più efficiente delle risorse computazionali. L’analisi della ricerca evidenzia come i due approcci mostrino rispettivamente punti di forza e debolezze. Il recupero denso eccelle in termini di accuratezza, soprattutto nei test condotti su dataset con item noti o "in-set" , ossia insiemi di dati in cui gli articoli da raccomandare durante la fase di valutazione erano già presenti nel set utilizzato per l'addestramento del modello. Questo scenario semplifica il compito del sistema, poiché si tratta di identificare elementi già "visti" e memorizzati. In questi contesti, il recupero denso ha ottenuto valori di Recall@10 (una metrica che misura l'efficacia nel recuperare elementi rilevanti entro le prime dieci posizioni) nell’ordine di 0,18-0,20 in alcuni esperimenti. Di contro, il recupero denso paga il prezzo di costi di calcolo crescenti, soprattutto quando si deve raccomandare oggetti a milioni di utenti o lavorare con un numero molto elevato di articoli disponibili. Il recupero generativo, invece, si distingue per una struttura più leggera, che permette di gestire le informazioni sugli articoli in modo più compatto e consente inferenze rapide tramite l'algoritmo di beam search . Tuttavia, questo approccio mostra un divario di performance rispetto al recupero denso, specialmente in termini di accuratezza. Questo gap appare evidente quando si analizzano i risultati numerici ottenuti sui medesimi dataset: nei test, la differenza nelle prestazioni, misurata attraverso il Recall@10 , si attesta su uno scarto del 3-4%. Ciò significa che il recupero generativo, pur essendo più efficiente e scalabile, potrebbe non essere altrettanto efficace nel proporre articoli rilevanti, soprattutto in contesti in cui la precisione è cruciale. Per le aziende, questo confronto diretto mette in luce la necessità di bilanciare precisione della raccomandazione con costi di infrastruttura e flessibilità di aggiornamento del catalogo. Investire in un sistema di recupero denso può essere ideale quando si hanno risorse di calcolo abbondanti e l’obiettivo è massimizzare la pertinenza degli articoli suggeriti. Un sistema generativo, invece, può consentire un più agile adattamento a contesti con item in continuo mutamento, soprattutto se è cruciale ridurre gli oneri di archiviazione. Cold-start e recupero generativo: sfide e soluzioni con il modello LIGER Il fenomeno del cold-start è un nodo da sempre centrale nei sistemi di raccomandazione. Quando un articolo fa il suo ingresso sul mercato o quando si acquisisce un nuovo partner commerciale che fornisce prodotti inediti, può mancare uno storico di interazioni, rendendo complesso l’aggancio tra utente e articolo. La ricerca analizza in che modo gli approcci densi e generativi reagiscono alla comparsa di item completamente nuovi. I risultati mostrati in alcune tabelle di performance restituiscono uno scenario contrastante. Nel recupero denso, la presenza di rappresentazioni testuali per ogni articolo (per esempio descrizioni, brand e categorie) consente di generare un embedding anche per prodotti mai visti in precedenza. In questo modo, il modello conserva una capacità di raccomandazione non nulla per quei contenuti che non hanno ancora interazioni registrate. I ricercatori evidenziano che il Recall@10 in caso di cold-start rimane su valori positivi, sebbene inferiori ai corrispondenti item noti. Il recupero generativo rivela invece limiti più marcati. Il problema discusso è l’overfitting verso item già esistenti nel training: quando il modello cerca di generare il codice semantico del prossimo articolo, tende a privilegiare quelli già incontrati. Durante l’inferenza, si ottiene una probabilità di generazione p⋆ per l’oggetto corretto decisamente inferiore rispetto alla soglia pK necessaria perché l’item appaia nelle scelte di beam search. In altre parole, se l’item è nuovo e non è presente nel training set, la sua probabilità di generazione risulta estremamente bassa, tanto da escluderlo dalle raccomandazioni finali. Dalle analisi risulta che su dataset come Amazon Toys o Amazon Sports, generative retrieval fatica a superare lo 0.0 in Recall@10 per gli item non presenti in addestramento. Da un punto di vista imprenditoriale, quando ci si aspetta un ricambio frequente di prodotti o si ha l’esigenza di lanciare novità in modo continuo, diventa cruciale porre rimedio a questo deficit. Alcuni propongono di impostare una soglia che riservi una quota di K candidati al cold-start, forzando il modello a suggerire un certo numero di item inesplorati. Ciò però presuppone di conoscere in anticipo la proporzione degli articoli nuovi rispetto a quelli vecchi, un’informazione che non sempre è disponibile. È chiaro allora come, secondo gli autori della ricerca, il recupero generativo necessiti di strategie più raffinate per trattare i contenuti mai visti, lasciando un margine di miglioramento e di ricerca aperto. Una conferma ulteriore emerge dai test su quattro insiemi di dati: Amazon Beauty, Amazon Sports, Amazon Toys e Steam. Sui primi tre, la differenza in cold-start è la più evidente, con generative retrieval che oscilla attorno allo zero in molte misurazioni. Su Steam, che è un insieme di giochi con attributi più ricchi come genere, specifiche, tag e prezzo, l’approccio generativo appare più competitivo ma non risolve completamente la lacuna del cold-start. Chi gestisce un portale di e-commerce, una piattaforma di servizi o un catalogo in costante evoluzione dovrebbe dunque valutare con attenzione l’adozione di un metodo generativo “puro”, tenendo presente che, almeno su dataset di piccola o media scala, il recupero denso rimane superiore nel trattare item non visti. Modello ibrido LIGER: superamento delle lacune del recupero generativo Per affrontare il problema del divario nelle prestazioni e risolvere le difficoltà legate al cold-start, la ricerca propone un modello ibrido chiamato LIGER (LeveragIng dense retrieval for GEnerative Retrieval), progettato per combinare i punti di forza di entrambi gli approcci. L’architettura di LIGER è progettata per combinare le informazioni testuali degli articoli con i loro codici semantici e utilizza due distinti metodi di ottimizzazione. Il primo metodo si basa sul calcolo della similarità coseno tra l’output del Transformer e la rappresentazione testuale dell’elemento successivo. Questo approccio serve a misurare quanto le due rappresentazioni siano vicine in termini di significato. Il secondo metodo, invece, si focalizza sulla predizione diretta del codice semantico associato all’elemento futuro. Il modello utilizza una funzione obiettivo composta da due componenti principali. La prima parte considera una funzione logaritmica che normalizza il valore di similarità coseno attraverso un parametro chiamato "fattore di temperatura" (τ). Questo parametro regola la distribuzione delle probabilità, rendendo più o meno marcata la differenza tra le varie opzioni. In pratica, il modello cerca di massimizzare la similarità tra l’output del Transformer e la rappresentazione testuale corretta, minimizzando al contempo la probabilità associata a rappresentazioni non corrette. La seconda parte della funzione obiettivo si concentra sulla predizione del codice semantico. Il modello prevede ogni componente del codice semantico, utilizzando l’output del Transformer e le informazioni provenienti dagli elementi precedenti della sequenza. In sintesi, la funzione combinata spinge il modello a integrare due capacità fondamentali: Recupero denso : Massimizza la corrispondenza tra l’output del Transformer e l’elemento testuale corretto, favorendo un’accurata associazione semantica. Predizione generativa : Si occupa di prevedere la sequenza di codici semantici, migliorando la capacità del modello di anticipare informazioni complesse basate su ciò che ha già analizzato. Questa duplice strategia permette al modello LIGER di eccellere sia nell’identificazione accurata di elementi correlati sia nella generazione di predizioni utili e dettagliate. I ricercatori sottolineano che tale approccio consente di sfruttare congiuntamente i vantaggi di entrambi i metodi, ottimizzando le prestazioni su compiti che richiedono sia comprensione che generazione di contenuti. Durante la fase di inferenza, il modello ibrido LIGER impiega un numero K di candidati ottenuti attraverso il recupero generativo, integrandoli con eventuali nuovi elementi e valutandoli successivamente mediante metodologie dense. I test evidenziano che, all'aumentare di K, LIGER riesce progressivamente a ridurre il divario rispetto al recupero completamente denso. Il cosiddetto "Normalized Performance Gap (NPG)" mostra una diminuzione costante della differenza: si parte da una performance vicina a quella del recupero generativo (con valori di K bassi) fino a raggiungere risultati più comparabili al recupero denso (con valori di K alti). Ad esempio, nei casi di studio relativi ad Amazon Beauty e Amazon Toys, è stato osservato che incrementando K da 20 a 80, i valori di Recall@10 per elementi "in-set" tendono a convergere ai risultati del recupero denso, consentendo al contempo di esplorare nuovi elementi. Questa strategia trova notevoli riscontri nel mondo imprenditoriale. Abilitare un modello che sia in grado di gestire con efficienza la mole di contenuti (limitando lo sforzo computazionale) e allo stesso tempo proporre raccomandazioni efficaci, anche su item appena pubblicati, si traduce in un concreto valore di business. Ridurre i costi di stoccaggio delle informazioni d’item (grazie alle semantic ID) e mantenere un buon livello di accuratezza spinge le aziende a considerare con favore un’architettura ibrida, specialmente in scenari dove la varietà di prodotti cresce rapidamente. Modello LIGER: test e prestazioni su quattro dataset Amazon Il lavoro di confronto è stato svolto su quattro dataset emblematici: Amazon Beauty, Amazon Sports, Amazon Toys e Steam. Nel caso di Amazon Beauty si parla di 22.363 utenti, 12.101 articoli e 198.502 azioni, con 43 articoli totalmente nuovi in cold-start. Amazon Sports conta 35.598 utenti, 11.924 articoli e 296.337 azioni, con 56 item nuovi; Amazon Toys ne presenta 19.412, 11.924 articoli, 167.597 azioni e 81 item di cold-start. Steam, infine, con 47.761 utenti e 18.357 articoli, racchiude 599.620 azioni e 400 item nuovi. Gli autori hanno testato una serie di metodi tradizionali, come SASRec, S3-Rec, FDSA e altre varianti basate su Transformers, tra cui UniSRec e RecFormer, affiancandole a TIGER (recupero generativo puro) e poi al modello LIGER. Si evidenzia come i metodi che si basano esclusivamente sull’ID dell’articolo risultino deboli nel caso di item inediti, perché mancano di informazioni su come posizionare quei contenuti mai visti. Questo spiega punteggi di Recall@10 pressoché pari a zero in scenario cold-start. Nei test di in-set, i valori di NDCG@10 e Recall@10 raggiungono picchi elevati per i modelli densi e per alcuni modelli generativi potenziati con testo, ma il recupero generativo tende a rimanere indietro di qualche punto percentuale. In Amazon Beauty, per esempio, si registra un Recall@10 che per denso può superare lo 0.07 in determinate configurazioni, mentre la versione generativa si ferma più in basso. Nel caso di Amazon Toys, i valori di generative retrieval sfiorano 0.05782 in Recall@10, ben al di sotto di alcune soluzioni dense che arrivano oltre 0.07. La situazione appare più complessa per i cold-start. Qui, i dati mostrano che i valori generativi scendono fino a 0.0 su più dataset, riflettendo l’impossibilità del modello di “indovinare” codici semantici che non ha mai incontrato in fase di addestramento. LIGER, invece, porta un miglioramento tangibile. Sulla categoria Toys, per esempio, nei test riportati si nota come LIGER possa arrivare anche a 0.13063 in Recall@10 per item in cold-start (quando K=20), mentre TIGER rimane a 0.0. Un aspetto rilevante è la gestione della soglia K. L’aumento di K fa sì che aumentino le possibilità di includere l’articolo corretto nel set di generazione, ma ciò impatta i costi di inferenza. La ricerca mostra che con un K intorno a 40 o 60, su Amazon Sports e Amazon Toys, LIGER raggiunge un compromesso tra costi computazionali e accuratezza. Per un’azienda che gestisce grandi volumi di articoli e non vuole perdere opportunità su novità e prodotti a bassa frequenza, LIGER appare un compromesso interessante: in base alle risorse e agli obiettivi, si possono regolare i parametri per avvicinarsi il più possibile ai risultati del recupero denso, tenendo a bada al contempo la complessità computazionale. Modello LIGER: opportunità strategiche per il futuro delle raccomandazioni L’integrazione di un metodo ibrido come LIGER non è solo un esercizio di ingegneria algoritmica, ma tocca diversi aspetti dell’organizzazione e delle strategie di sviluppo del business. In primo luogo, esiste la questione della scalabilità. Quando la base di articoli raggiunge numeri ragguardevoli, l’idea di memorizzare un embedding unico per ciascun oggetto può diventare un problema in termini di costi di archiviazione e di aggiornamento. Al contrario, un sistema generativo riduce il numero di vettori da stoccare, poiché si concentrano quasi esclusivamente i codici semantici. Ciò si traduce in un risparmio tangibile, utile per aziende che offrono milioni di prodotti e subiscono un notevole turnover. In secondo luogo, la questione della personalizzazione diventa più sottile. Il recupero denso fornisce una ricerca accurata per item già “rodati”, mentre l’approccio generativo permette di cogliere connessioni latenti tra item e utenti grazie al potere del Transformer di produrre codici semantici nuovi. LIGER, abbinando i due procedimenti, offre risultati incoraggianti: evita di rimanere intrappolato nei bias del generativo puro e insieme conserva quella flessibilità essenziale per non penalizzare i contenuti emergenti. Questo si riflette in un miglioramento diretto per i clienti, che potrebbero ricevere suggerimenti più pertinenti su prodotti inediti o di nicchia. Sul piano dell’integrazione con sistemi aziendali, chi già possiede un’infrastruttura basata su modelli densi e desidera ridurre i costi può sfruttare LIGER gradualmente. Da un lato, si mantiene la rete di embedding esistente per la fase di ranking fine; dall’altro, si affianca un modulo generativo per la generazione di candidati. Il modello ibrido tende a coprire un ampio ventaglio di situazioni e diventa rilevante anche nei verticali come le piattaforme streaming o i marketplace di prodotti digitali. La ricerca sottolinea infine alcune possibili estensioni future. L’impiego di Large Language Models (LLM) per il recupero generativo potrebbe cambiare ancora gli equilibri tra i due paradigmi, anche se per ora i test qui citati si concentrano su dataset piccoli e medi. Manca una prova definitiva sui volumi industriali, dove gli autori stessi ammettono che i parametri di tuning, la distribuzione dei dati e l’ottimizzazione dell’infrastruttura possono trasformare i risultati. È plausibile che ulteriori perfezionamenti degli algoritmi generativi permettano di raggiungere prestazioni prossime a quelle del recupero denso, se non superiori, specie qualora i flussi di item nuovi fossero molto intensi. Conclusioni Le informazioni fornite dalla ricerca suggeriscono che recupero denso e recupero generativo rappresentano due facce di uno stesso obiettivo: facilitare la migliore interazione tra utenti e articoli in base alla cronologia dei comportamenti. La differenza più evidente sta negli oneri di memorizzazione e di calcolo. Il recupero denso offre accuratezza ma richiede risorse notevoli, mentre il generativo si distingue per la memoria ridotta e la capacità di manipolare codici semantici. LIGER, fondendo il ranking denso e la componente generativa, appare come un’alternativa realistica che ridimensiona il divario prestazionale e consente di includere item in cold-start con buoni risultati di Recall@10. Comparando i risultati con le tecnologie esistenti, emerge che l’adozione di grandi modelli pre-addestrati per il recupero denso, come BERT o T5, presenta potenzialità straordinarie, ma resta ancorata alla necessità di archiviare molteplici vettori. Al contempo, i metodi generativi di ultima generazione guadagnano terreno, specie se si utilizzano meccanismi di tokenizzazione più scalabili o se si integra il potere di modelli di linguaggio generali. LIGER si situa su una linea di convergenza strategica: è abbastanza leggero rispetto al denso puro, senza trascurare la precisione necessaria a mantenere alto l’engagement. Per le imprese, i dati suggeriscono che la scelta di un sistema ibrido possa rappresentare un vantaggio concreto, soprattutto quando si gestisce un catalogo in continuo aggiornamento o si temono costi di storage troppo elevati. Non esiste un’unica soluzione preferibile in maniera assoluta, poiché il contesto di scala e le risorse a disposizione determinano gran parte dell’efficacia. Ciò che emerge è la spinta verso un futuro in cui denso e generativo possano coesistere, magari con ulteriori ottimizzazioni che migliorano la generazione di item inesplorati e riducono il tempo di risposta. L’equilibrio dinamico tra i due metodi, già mostrato da LIGER, potrebbe innescare nuove idee per chi costruisce soluzioni di raccomandazione sempre più flessibili e pronte a adattarsi alla costante evoluzione dei mercati. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/LIGER-il-modello-ibrido-che-combina-recupero-denso-e-generativo-per-raccomandazioni-sequenziali-precise-e-scalabili-e2sv9i5 Fonte: https://arxiv.org/abs/2411.18814
- AI-Driven Materials Innovation: Transforming Research, Product Development, and Workforce Dynamics
In the United States, a growing body of work explores how advanced artificial intelligence, particularly deep learning, can accelerate scientific discovery and reshape the process of material innovation. A notable example is the research paper “Artificial Intelligence, Scientific Discovery, and Product Innovation” by Aidan Toaner-Rodgers , developed at MIT with the collaboration of economists Daron Acemoglu and David Autor . This research scrutinizes how the introduction of a specialized deep learning tool in a large industrial laboratory impacts scientists’ productivity and alters the strategic decisions companies make about which projects to pursue. The study focuses on a cohort of 1,018 scientists working for a major corporation eager to expedite the creation of novel materials by tapping into AI-driven techniques. In doing so, the paper illustrates how AI can bring significant changes not only to the nuts and bolts of research and development (R&D) but also to the skill sets and roles of the workforce involved. Its findings are crucial for executives and entrepreneurs alike, highlighting both the substantial gains in patent activity and the broader diversification of prototypes. Yet the authors also discover an uneven distribution of these benefits among different categories of researchers—an imbalance that intensifies the need for strategic oversight and training. A recurring theme is that human expertise remains indispensable for interpreting and validating the AI’s output. The best outcomes surface when experienced scientists leverage the model’s suggestions effectively. This synergy of technology and specialized knowledge underscores the transformative potential of AI-driven materials innovation for corporate management and scientific progress and beyond. How AI-Driven Materials Innovation Expands Corporate Horizons The study offers a detailed narrative about how AI-driven materials innovation might spur the development of new materials in critical industries—think consumer electronics, medical devices, or advanced manufacturing. Historically, creating a new type of functional material often involved a significant amount of guesswork. Researchers spent countless hours devising hypothetical combinations of chemical elements, measuring their properties using expensive tools, and discarding a large portion of these attempts as unviable. High failure rates and the need to control costs pushed many R&D teams toward incremental adjustments rather than bold leaps into the unknown. In contrast, the deep learning system described in Toner-Rodgers’s paper uses graph neural networks (GNNs) to propose fresh “recipes” for new chemical structures. In essence, the algorithm is trained on substantial datasets detailing known materials and their physical or chemical traits—such as mechanical strength, resistance to temperature extremes, or unique optical properties. Building on that foundation, it synthesizes new formulas by scanning the statistical relationships in the data. Additional methods—often described as “diffusion models” and sophisticated probabilistic estimations—help identify solutions that might never have been tried but show promise on paper. It is vital to note that this AI-driven process is not purely automated. The scientists still take center stage in verifying the feasibility of the AI’s recommendations. They identify which material proposals are suitable for lab synthesis, weeding out those that might fail a practical test. The MIT researchers had a prime vantage point to witness these steps, as the rollout of AI tools occurred in several waves across various teams, allowing for direct comparisons between those already using the AI tool and those who had not yet received access. This staggered adoption schedule formed the backbone of a robust research design. It enabled the authors to isolate the effect of the AI system by comparing the performance of scientists actively engaging with it to the outcomes of scientists still working under conventional protocols. As a result, the study captured both quantitative metrics—like the number of patents produced, the novelty of the chemical structures, and the eventual prototyping rate—and qualitative shifts in how scientists spend their time and adapt their approach to problem-solving. Unprecedented Advances in Material Science with AI Across the board, results point to a marked uptick in productivity following the introduction of the AI platform. Scientists using the system saw a surge in the number of new formulas generated, many of which possessed unique chemical backbones or properties not previously explored in the lab’s portfolio. This had a ripple effect on multiple R&D metrics: Higher Count of Newly Validated Materials The study reports a 44% increase in new materials validated by researchers who had switched over to using the AI tool. These materials tended to align better with the performance targets R&D teams had in mind, suggesting that the AI’s recommendations were not just more numerous but also more precisely tailored. Growth in Patent Applications Patent filing activity rose by 39% among the scientists with AI access, an important gauge of how well a company can protect its intellectual property and achieve a competitive edge. Increased Prototyping Moving from the realm of theoretical studies to creating tangible prototypes, the study found a 17% jump in the number of lab projects that reached an advanced stage of physical development. One of the more intriguing findings is that these increases are not limited to volume. The study also notes an uptick in the intrinsic novelty of the discoveries. Patents began referencing technical terms that were new to the corporate lexicon, and entire product lines emerged that would have seemed impractical in earlier eras. This challenges the idea that AI might only recycle existing knowledge or push scientists to remain in familiar territory. Instead, it appears that the algorithm actively explores undercharted sections of the design space, occasionally coming up with materials that deviate significantly from existing norms. Balancing AI and Human Expertise in Material R&D Yet, the successful exploration of these uncharted territories hinges critically on the expertise of human scientists. When faced with large volumes of AI-generated suggestions, researchers with considerable knowledge in chemistry, physics of materials, or advanced synthesis techniques can rapidly spot which leads are truly viable. They can also detect “false positives”—seemingly impressive solutions that fail under the practical constraints of manufacturing, cost, or long-term stability. In the absence of robust human judgment, the AI might generate a flood of marginally useful formulas. Although the cost of creating new ideas with AI drops significantly—for example, reusing computational simulations is much more economical than running each set of experiments from scratch—there is a separate cost in weeding through poor-quality recommendations. The research suggests that scientists began devoting a larger share of time to screening, refinement, and validation, while automatic generation consumed a smaller chunk of the overall workflow. This transformation of research routines has fundamental implications for how labs structure their teams and set budgets for various research phases. Tackling Challenges in AI-Driven Research Designs One of the aspects that makes Toner-Rodgers’s analysis especially persuasive is the multi-phase experimental design. The laboratory introduced the AI tool to different groups of scientists in a staggered manner, using something akin to a randomized assignment. Because of that structure, the researchers could observe real-time changes in both the group that had immediate AI access and the group awaiting the rollout. Interestingly, the comparison groups did not show a drop in motivation or productivity—they did not, for instance, scramble to file as many patent applications as possible for fear of losing out. That observation helps debunk a simplistic assumption that the introduction of AI mainly creates an “arms race” dynamic where everyone is desperate to outdo the competition, whether or not the tool itself has inherent merits. To bolster their findings, the authors documented each step of the scientists’ work—from scanning academic literature to setting up real-world experiments—and tracked how these activities evolved. A sharp spike in validated materials signaled that, on average, AI suggestions were valuable. However, deeper data show a growing load of “false starts” for some teams, underscoring that AI systems can produce misleading ideas if not properly curated. Still, for teams capable of navigating those pitfalls, the payoff was substantial. They leveraged the AI tool not merely to add incremental variants to existing formula sets but to conceive entire new categories of compounds with higher odds of commercializing. This progression was especially notable in areas where advanced mechanical or thermal properties are vital, indicating that for certain specialized domains, AI drastically broadens the design range researchers consider plausible. Addressing Workforce Inequality in AI-Powered Labs One of the more socially and organizationally significant findings is that the gains from AI are not spread evenly across the workforce. The study draws attention to a phenomenon in which “top scientists”—those who were already highly productive before the AI introduction—reap the greatest improvements, often doubling their output. Meanwhile, scientists in the lower-performing tiers see more modest benefits, if any at all. Why does this disparity matter? For one, it magnifies existing inequalities. If a laboratory or a company prizes patent generation as a metric of success, then the “star performers” capable of handling AI-driven workflows get even further ahead, both in prestige and in compensation. This dynamic could eventually spur a reorganization of R&D hierarchies, with management teams choosing to invest more resources in the high achievers while phasing out less productive personnel. Indeed, the paper points out that the company studied eventually downsized a small subset of researchers who consistently underperformed, effectively consolidating resources among those most adept at leveraging AI. From a talent management standpoint, this reality prompts questions about training and recruitment. Could specialized upskilling programs help mid-tier researchers improve their capacity to filter AI proposals effectively, thus narrowing the performance gap? Or will the workforce naturally gravitate toward intensifying the dominance of the most knowledgeable experts? Interviews with the scientists revealed that domain knowledge—like familiarity with prior attempts, specific interactions among chemical elements, and unique conditions for synthesis—is crucial for sorting the good leads from the worthless ones. The massive influx of computationally suggested formulas does not negate the need for seasoned judgment. On the contrary, it heightens the need for people who can quickly detect whether an algorithmic output is truly workable. These dynamic challenges the perception that “AI can replace experience” and instead places a premium on those who can blend sophisticated computational tools with a deep grasp of the field’s underlying principles. Strategic Shifts in Management with AI in R&D Business leaders face a dual set of promises and perils when contemplating how best to incorporate AI into R&D. On one hand, the data highlight significant gains in the speed and volume of patentable ideas and prototypes. The corporation studied saw new product lines emerging that would have been unlikely under traditional practices. Such leaps are especially enticing in high-stakes industries where being first to secure a patent can lead to market dominance and robust revenue streams. On the other hand, these breakthroughs require an equally robust infrastructure for testing and vetting. AI can generate a near-endless supply of theoretical solutions, but a company must also invest heavily in the lab capacity, engineering teams, and pilot production lines needed to turn those theories into tangible products. If such downstream resources are in short supply, the organization might experience bottlenecks, leading to frustration and diminishing the real value of AI-driven innovation. Additionally, the study suggests that once AI starts delivering promising leads, management must address tension between building upon successful existing products and venturing into uncharted territory. While incremental improvements remain essential for stable revenue, the AI tool fosters exploration of dramatically different approaches that might demand substantial new investments and greater lead time to get to market. Deciding how to allocate resources between these parallel R&D channels becomes a critical strategic question. Licensing and data ownership concerns also come to the forefront. As more businesses rely on proprietary machine learning solutions or external cloud-based platforms, safeguarding intellectual property becomes complicated. The underlying code, training datasets, and resulting materials constitute valuable assets that may require specialized legal arrangements. Large corporations may opt to develop in-house AI solutions, thus keeping full control of the knowledge base. Smaller firms could partner with vendors or academic institutions, potentially sacrificing some independence but acquiring immediate access to advanced tools that would be impractical to build from scratch. Overall, Toner-Rodgers and his collaborators posit that AI might accelerate innovation in ways that macroeconomic literature has historically underemphasized. While AI’s role in assembly lines and supply chain optimization is well established, its contribution to frontline scientific discovery could exert an even more profound impact, especially if companies learn to integrate these tools effectively into their R&D pipelines. Yet the authors caution that any robust adoption plan must factor in labor dynamics, intellectual property management, and the strategic realignment of R&D resources. Adapting Workforce Morale in the Age of AI A lesser known yet critical dimension of this AI adoption story is the effect on job satisfaction. The study’s surveys reveal that the overall satisfaction levels among researchers dropped by 82% (as measured by an internal metric) due mainly to diminished feelings of creativity. Many scientists expressed the sentiment that their primary enjoyment stemmed from the imaginative act of conceiving new compounds. In this new environment, the machine handles most of the “ideation” phase, and human participants are left predominantly with the job of evaluating and filtering. While such a shift in responsibilities yields tangible gains in productivity and patent counts, it can erode the sense of personal fulfillment many researchers derive from the creative aspects of their job. Even high-performing scientists, who see their overall productivity rise, sometimes report a hollow victory. Their success feels less tied to their individual ingenuity and more to the fact that they have become efficient gatekeepers of the AI’s output. Consequently, management teams must walk a fine line. As AI becomes more ingrained in R&D, the workforce might split into those who thrive under this new mode of work—often the experts with deep knowledge and strong screening abilities—and those who feel disenchanted because they are no longer applying the same level of intellectual originality. Over the long term, that disenchantment could undermine an organization’s culture of innovation, particularly if it triggers the departure of employees who once brought vitality to the team. On a more optimistic note, the data show that the majority of respondents do understand the capacity of AI to accelerate the pace of scientific exploration, and many express a willingness to “reskill” or further refine their expertise to stay aligned with changing job demands. Some see a silver lining: freed from manual data searches, they can focus on analyzing the deeper rationale behind which ideas get flagged by the AI, creating a knowledge feedback loop that enriches both the human expert and the machine-learning system. Expanding AI’s Impact Beyond Material Science Although Toner-Rodgers’s case study centers on materials science, the authors propose that the same pattern will likely play out in any field where researchers must sift through countless possible configurations—pharmaceuticals (e.g., discovering new drug molecules), advanced robotics (e.g., designing novel sensor-actuator assemblies), climatology (e.g., modeling global climate variables), or even mathematical conjectures in pure research. Any problem domain with a vast “solution space” can benefit from AI’s capacity to propose creative possibilities grounded in data patterns, but such a domain also depends on human discernment to validate those possibilities in real-world contexts. From a managerial standpoint, the biggest lure is the promise of drastically reduced time-to-market for breakthroughs. Managers at large corporations see AI solutions as a way to compress multi-year R&D cycles into significantly shorter spans, thus beating competitors or securing an early patent in a niche area. This impetus for faster innovation might reshape how companies’ budget for R&D, how they organize interdisciplinary teams, and how they distribute risk across a portfolio of short-term and long-term projects. However, the authors repeatedly emphasize that greater speed in generating ideas does not magically ensure those ideas will be grounded in practicality or cost-effectiveness. The presence of AI makes it easier to produce large volumes of speculation, and some portion of that speculation will always be illusory unless curated by skilled personnel. This inherent dependence on expert oversight underscores the continuing need for robust education, specialized hiring, and dynamic upskilling programs. The study even cites the reduction of about 3% of the staff in the company’s less experienced ranks, a move that the firm believed was necessary to optimize the synergy between advanced modeling and seasoned human assessment. The Future of AI in Sustainable Scientific Innovation Another intriguing takeaway is how AI-driven R&D can prompt the creation of product lines that diverge significantly from a firm’s legacy offerings, thereby expanding market possibilities. Yet these radical new directions require a broader supply chain, additional training for engineers, and possibly new manufacturing processes. Even if the AI tool offers an impressive initial concept, the path to large-scale commercialization can still take years—especially if the technology is fundamentally different from anything the company has produced before. On a larger scale, there is the question of who ultimately benefits from this accelerated innovation cycle. If, for instance, a handful of multinational corporations perfect AI-empowered labs, they may secure a near-monopoly on cutting-edge patents, potentially raising barriers to entry for smaller competitors. Some might argue that a more democratized model, in which open-source AI tools help smaller labs, fosters healthy competition and innovation. But that, too, requires accessible training resources, robust data-sharing channels, and frameworks to protect intellectual property without stifling creativity. Toner-Rodgers’s study projects that as AI models become more sophisticated, we are likely to see an even greater impact on how scientific research unfolds in industrial settings. Costs associated with experimentation may continue to fall, encouraging a surge in bold product proposals. The flip side is that researchers might feel less ownership of projects where AI has done much of the conceptual heavy lifting, potentially fueling the ongoing talent reshuffling and motivation dilemmas mentioned earlier. In the face of these rapid advances, it remains critical for R&D directors and senior management to nurture a balanced workplace. The best outcomes will likely come from frameworks that keep top scientists motivated to push boundaries while ensuring mid-level talent receives sufficient training and involvement in truly creative tasks. This environment can help maintain a sense of purpose and collective problem-solving, which, over time, can strengthen a company’s capability to integrate computational insights with human-driven expertise. Conclusions Toner-Rodgers’s research reveals a vivid picture of how advanced deep learning can dramatically enhance an organization’s capacity to devise and patent novel materials, offering tantalizing prospects for corporate growth. The empirical data and interviews paint a scenario in which AI is not merely a tool for incremental improvement but a mechanism that accelerates the very formation of new scientific ideas. By analyzing nearly every step of the R&D process and examining how teams responded to the technology, the study offers a nuanced view that goes well beyond standard assessments of productivity gains. Nonetheless, the findings underscore a more complex landscape than one might expect. While overall productivity and patent numbers rise, there is also a stark divergence in performance across different skill levels, which in turn influences hiring practices, training programs, and corporate structures. Beyond pure metrics of efficiency, the study highlights significant shifts in job satisfaction and creativity, along with the need for advanced screening competencies—a blend of algorithmic insight and deep, experience-based knowledge. Ultimately, these observations inform corporate leaders that adopting AI tools for materials research (and likely for other scientific domains) is not just a matter of plugging in a new software platform. It demands a serious reevaluation of internal roles, the creation or enhancement of high-level “judgment” positions, a willingness to invest in and empower top experts, and thoughtful planning for the workers who might feel their creative drive diminished. The journey toward AI-augmented science involves recalibrating an entire organizational ecosystem to tap into the promise of large-scale automation without losing sight of the intangible spark that fuels human ingenuity. As companies look to the future, they will find themselves balancing the incredible promise of more efficient and wide-ranging innovation with the challenges of fostering an engaged and skilled research community. Those that succeed in melding computational power with domain-specific expertise stand poised to achieve dynamic leaps in product development. Yet they must remain attentive to the people behind the process—ensuring that passion, creativity, and collective knowledge continue to propel discovery forward on both scientific and human terms. Podcast : https://creators.spotify.com/pod/show/andrea-viliotti/episodes/AI-Driven-Materials-Innovation-Transforming-Research--Product-Development--and-Workforce-Dynamics-e2sv0f7 Source : https://arxiv.org/abs/2412.17866