I dati Stanford dietro l'appello dei ricercatori sull'IA

Un modello che vince le olimpiadi di matematica sbaglia a leggere un orologio analogico quasi una volta su due. Questo è uno dei dati del rapporto Stanford AI Index 2026 che ha spinto un gruppo di ricercatori a lanciare un appello: riportare la discussione pubblica sull'intelligenza artificiale su basi chiare e realistiche, lontano dalle narrazioni commerciali che la vendono come infallibile.

La frontiera dentellata dell'IA

Il Stanford Human-Centered AI Institute ha documentato quello che i ricercatori chiamano "frontiera dentellata". I modelli che ottengono punteggi record su test di fisica avanzata leggono un orologio analogico correttamente solo nel 50,1% dei casi. I sistemi di manipolazione robotica raggiungono l'89,4% di successo nelle simulazioni, ma nelle abitazioni reali il tasso scende al 12%. I benchmark più difficili si saturano in mesi: i migliori modelli hanno guadagnato 30 punti percentuali in un anno sull'esame più complesso mai progettato per testare l'IA.

Il punto non è che l'intelligenza artificiale non avanzi. Avanza, e rapidamente. Il problema è che avanza in modo disomogeneo, e le misurazioni disponibili spesso non riflettono la realtà operativa in cui gli strumenti vengono poi impiegati. In campo scientifico, dove l'AI supporta la scoperta di nuovi materiali o l'analisi di fenomeni complessi come l'impatto del sole sull'attività sismica, la validazione sperimentale rimane insostituibile: l'AI accelera l'analisi dei dati, ma l'esperimento fisico non si sostituisce. Secondo il rapporto Stanford, mancano metriche coerenti che colleghino le performance sui benchmark ai contesti con conseguenze reali: sanità, giustizia, istruzione.

Trasparenza in calo mentre i modelli avanzano

Il Foundation Model Transparency Index ha registrato un crollo del 31% in un solo anno: la media è passata da 58 a 40 punti su 100. I modelli più potenti sono anche i meno trasparenti. Codice di addestramento, dimensione dei dataset, parametri e durata del training: tutto viene progressivamente tenuto riservato. Questo include i principali sviluppatori mondiali, da OpenAI a Google. In un settore dove il modello diventa infrastruttura critica, la mancanza di trasparenza non è solo un problema etico: è un rischio operativo per chi lo usa senza sapere cosa c'è dentro.

L'Italia si è già mossa. L'Autorità Garante della Concorrenza e del Mercato ha avviato indagini su DeepSeek, Mistral AI e Scaleup Yazilim per la mancata comunicazione trasparente dei limiti dei propri sistemi, imponendo disclosure permanente. DeepSeek ha dovuto riconoscere che le allucinazioni non sono un bug correggibile: sono una caratteristica strutturale dei modelli generativi. Qualsiasi output, per quanto coerente, resta una previsione statistica, non una verità.

I tre punti dell'appello

L'appello dei ricercatori non riguarda il rallentamento dello sviluppo. Riguarda la qualità del dibattito attorno a esso. Tre richieste emergono: standard di misurazione comuni che riflettano l'uso reale, non solo i test di laboratorio; obbligo di trasparenza esteso a tutti i principali sviluppatori; investimento in governance proporzionale alla velocità di diffusione degli strumenti. Un modello che entra nei sistemi di selezione del personale, nella valutazione creditizia o nelle diagnosi mediche va valutato con metriche nate in quei contesti, non in una gara di fisica astratta o di olimpiadi di codice.

L'AI è già uno strumento prezioso per la ricerca scientifica pura: il suo contributo nell'accelerare la scoperta di nuovi materiali, come nei recenti studi su diamanti sintetici più duri del naturale, è documentato. Ma anche in questi casi il valore dell'AI sta nel supporto all'esperimento fisico, non nella sua sostituzione. Il rapporto Stanford AI Index 2026 avverte: senza investimenti proporzionali in misurazione e governance, il divario tra capacità tecnica e capacità istituzionale di gestirla si allargherà.

È una dinamica che accomuna ambiti diversi della scienza: anche l'appello degli esperti sulla preparazione a una pandemia di influenza aviaria parte dalla stessa premessa: la velocità dello sviluppo scientifico supera spesso i tempi della risposta istituzionale. I ricercatori non chiedono meno IA. Chiedono che i numeri reali siano al centro del dibattito, non quelli del marketing.

Domande frequenti

Cosa si intende per 'frontiera dentellata' dell'IA?

La 'frontiera dentellata' descrive la natura irregolare dei progressi dell'intelligenza artificiale: eccelle in alcune aree molto specifiche ma mostra forti limiti in altre, anche elementari, come leggere un orologio analogico.

Perché i ricercatori hanno lanciato un appello sull'IA?

I ricercatori chiedono di riportare il dibattito sull'IA su basi realistiche, con standard di misurazione comuni, maggiore trasparenza da parte degli sviluppatori e investimenti in governance proporzionati alla diffusione degli strumenti.

Quali sono i principali problemi di trasparenza nei modelli di IA?

I modelli di IA più avanzati sono anche i meno trasparenti: dettagli su codice, dataset e parametri vengono spesso tenuti riservati, aumentando i rischi operativi ed etici per gli utenti.

Qual è il ruolo dell'IA nella ricerca scientifica secondo il rapporto Stanford?

L'IA è considerata preziosa per accelerare l'analisi dei dati e la scoperta di nuovi materiali, ma non può sostituire la validazione sperimentale che rimane fondamentale nel processo scientifico.

Quali azioni ha intrapreso l'Italia riguardo la trasparenza dell'IA?

L'Autorità Garante della Concorrenza e del Mercato ha avviato indagini su alcune aziende di IA per mancata trasparenza, imponendo la disclosure permanente dei limiti dei sistemi e riconoscendo le allucinazioni come una caratteristica strutturale dei modelli.

Cosa chiedono i ricercatori riguardo alle metriche di valutazione dell'IA?

Chiedono che le metriche di valutazione riflettano gli usi reali nei vari contesti applicativi, non solo i risultati dei test di laboratorio o delle competizioni accademiche.