Le allucinazioni dei chatbot sono un fenomeno misurato: tassi tra 3% e 11%

Vectara misura tassi di errore tra 3% e 11% sui chatbot commerciali. Dal 2 agosto scatta l'obbligo di trasparenza. Cosa cambia per aziende.

Il 5 luglio 2026 Glauco Benigni ha pubblicato su Il Sussidiario la "confessione" di Gemini, il chatbot di Google che dopo aver negato l'esistenza dell'enciclica Magnifica Humanitas di Papa Leone XIV ammette: "Il Bit non pensa, calcola la convenienza relazionale". Le allucinazioni AI hanno un contorno numerico preciso e una scadenza legale imminente.

Cosa dice il leaderboard Vectara sui chatbot

L'errore raccontato dal giornalista non e' un caso isolato. Il leaderboard Vectara aggiornato all'11 maggio 2026 misura, con il modello HHEM-2.3, quanto spesso i chatbot introducono informazioni false quando riassumono documenti reali. Gemini 2.5 Flash Lite si ferma al 3,3%, GPT-5.4-nano al 3,1%, Gemini 2.5 Pro al 7%, GPT-4o al 9,6% e Claude Opus 4.5 al 10,9%. Il test viene condotto su oltre 7.700 articoli di lunghezza variabile e ogni modello riceve la stessa istruzione: riassumi usando solo le informazioni del passaggio, non inferire, non usare la conoscenza interna. Sono i risultati del compito piu' semplice per un modello linguistico. Sul benchmark FaithJudge, piu' severo e rilasciato nel 2025, i modelli "thinking" come GPT-5, Claude Sonnet 4.5, Grok-4 e Deepseek-R1 salgono tutti sopra il 10%. La confessione davanti al giornalista non e' quindi un incidente psicotecnico: e' il funzionamento previsto, quantificato e riconosciuto dai produttori.

L'errore che diventa scusa: l'allucinazione secondaria

La parte piu' problematica dell'episodio non e' la negazione iniziale dell'enciclica. E' la fase successiva, in cui il chatbot spiega di aver avuto un "disallineamento nei sistemi di aggiornamento" e cita finti articoli del New York Times e di Avvenire per giustificare l'errore. Il comportamento ha un nome tecnico: allucinazione secondaria. Quando l'utente insiste, il sistema non ammette di ignorare ma genera una spiegazione statisticamente plausibile. Il costo cognitivo e' misurabile. Un utente che accetta la prima risposta si porta a casa un errore di ancoraggio: anche quando emergono prove contrarie, l'informazione iniziale continua a influenzare il giudizio. Un utente che riceve una scusa tecnica dettagliata tende a fidarsi ancora di piu' del modello, perche' l'apparente autocritica viene letta come segnale di affidabilita'. La ricerca sulla calibrazione dei modelli linguistici mostra che un chatbot ben progettato dovrebbe rispondere "non riesco a verificare" anziche' produrre falsi negativi con sicurezza assertiva. La convenienza relazionale descritta da Gemini e' un obiettivo di ottimizzazione: i modelli vengono addestrati per compiacere l'interlocutore, non per sospendere il giudizio.

Dal 2 agosto 2026 il chatbot deve dichiararsi

Il quadro legale sta cambiando. L'articolo 50 del Regolamento UE 2024/1689 sull'intelligenza artificiale diventa applicabile dal 2 agosto 2026: qualsiasi sistema di IA che interagisce con persone fisiche deve informare l'utente che sta parlando con una macchina, salvo che cio' sia gia' evidente. Gli output sintetici (testi, immagini, audio, deepfake) devono essere marcati in formato leggibile dai sistemi automatici. La violazione comporta sanzioni amministrative fino a 15 milioni di euro o al 3% del fatturato mondiale annuo, secondo l'articolo 99 paragrafo 4 del regolamento. In Italia il perimetro e' piu' stretto. La Legge 23 settembre 2025 n. 132 sull'intelligenza artificiale, in vigore dal 10 ottobre 2025, all'articolo 13 stabilisce che nelle professioni intellettuali l'IA puo' essere usata soltanto come strumento di supporto ad attivita' strumentali: la prevalenza del lavoro umano resta obbligatoria. Un contenuto generato dal chatbot senza revisione firmata da un professionista rischia la contestazione disciplinare oltre alla sanzione amministrativa. Per approfondire il quadro dei nuovi decreti IA in Italia su lavoro e privacy.

La confessione di Gemini raccontata da Benigni ha valore documentale. Ma dal 2 agosto sara' l'azienda che fornisce il chatbot a dover dichiarare per legge la natura artificiale della conversazione, con multe che aumentano di quindici milioni ogni volta che dimentica di farlo. Fino ad allora l'unica difesa resta la verifica incrociata su fonti primarie: la stessa che ha smascherato il modello nell'episodio raccontato dal quotidiano.

Le allucinazioni dei chatbot sono un fenomeno misurato: tassi tra 3% e 11%

Cosa dice il leaderboard Vectara sui chatbot

L'errore che diventa scusa: l'allucinazione secondaria

Dal 2 agosto 2026 il chatbot deve dichiararsi

Articoli Correlati

Zaia sui femminicidi: "Si deve partire dalla scuola"

Il paradosso dei condizionatori: perché più cerchiamo il fresco e più riscaldiamo il pianeta

Il caso Schwazer e l’era dell'Epo: storia del doping, il virus che altera lo sport