Cos'è ChatMinerva, l'AI multimodale di Sapienza con accesso al web

Il 3 giugno 2026 il gruppo di ricerca Sapienza NLP dell'Università La Sapienza di Roma, guidato da Roberto Navigli, ha presentato ChatMinerva: un assistente AI multimodale capace di leggere testi, interpretare immagini, eseguire OCR su documenti scannerizzati e navigare il web in tempo reale, dialogando in italiano. Il progetto, sviluppato in collaborazione con lo spin-off accademico Babelscape, è l'evoluzione diretta di Minerva 7B ed è stato addestrato sul supercomputer Leonardo del CINECA. Il punto qualificante, prima ancora che tecnico, è il controllo diretto rivendicato dal team sull'intero ciclo di vita del modello, dal pre-addestramento al fine-tuning fino alla moderazione dei contenuti.

In breve

Sviluppatore: gruppo Sapienza NLP, diretto da Roberto Navigli, in collaborazione con lo spin-off accademico Babelscape.

Architettura: assistente multimodale evoluto da Minerva 7B, con finestra contestuale fino a 32.000 token.

Accesso al web: pipeline di Retrieval-Augmented Generation basata sul motore di ricerca aperto DuckDuckGo.

Funzioni: OCR, analisi di immagini e documenti, interazione vocale, filtro di sicurezza su input e output.

Infrastruttura: addestramento sul supercomputer Leonardo del CINECA.

Le cinque novità tecniche del modello

Il sistema combina cinque blocchi che lo differenziano dai modelli generalisti già diffusi nel mercato italiano. Ognuno copre un aspetto specifico del ciclo di vita, dal trattamento dei contenuti visivi alla gestione delle fonti esterne.

Multimodalità: il modello elabora fotografie, pagine scannerizzate, report e articoli scientifici, combinando informazioni visive e testuali. Sul fronte documentale esegue il riconoscimento ottico dei caratteri (OCR) sui materiali digitalizzati.
Web RAG via DuckDuckGo: la generazione si appoggia a un motore aperto, scelta che evita la dipendenza da provider proprietari e permette di attingere a fonti aggiornate al momento della risposta.
Finestra contestuale a 32.000 token: estensione ottenuta tramite continual training, utile per analizzare documenti lunghi e mantenere coerenza nelle conversazioni articolate.
Interazione vocale: l'utente può parlare al sistema invece di digitare, integrando la voce nei flussi multimodali.
Filtro di sicurezza: un componente dedicato analizza input e output per intercettare contenuti indesiderati, non affidabili o sensibili.

Dalle radici di Minerva 7B alla versione interattiva

Il sistema non nasce dal nulla: è l'evoluzione diretta di Minerva 7B, il Large Language Model presentato in precedenza dallo stesso gruppo come la principale iniziativa italiana sui modelli linguistici di grandi dimensioni curata da un ateneo pubblico. Quella prima fase aveva già tracciato una rotta alternativa rispetto ai modelli proprietari dei colossi tecnologici internazionali, puntando su apertura, rigore scientifico e indipendenza. La nuova versione amplifica quella scommessa trasformando il modello base in un assistente interattivo a tutto tondo, con capacità che lo avvicinano agli standard internazionali di riferimento.

La rettrice Antonella Polimeni ha inquadrato il risultato nella strategia dell'ateneo: «L'evoluzione del progetto Minerva verso assistenti AI multimodali e interattivi conferma la capacità della Sapienza di trasformare la ricerca di frontiera in innovazione concreta, al servizio della conoscenza e della società». Un percorso che, secondo Polimeni, poggia sull'integrazione fra competenze scientifiche, infrastrutture avanzate e collaborazione con realtà innovative del territorio.

Trasparenza, comunità e infrastruttura pubblica

Sapienza NLP rivendica il controllo diretto su pre-addestramento, fine-tuning e moderazione dei contenuti, una posizione rara fra i modelli proprietari oggi sul mercato. La collaborazione con Babelscape, spin-off attivo da dieci anni, e l'utilizzo del supercomputer Leonardo del CINECA documentano il legame fra ricerca pubblica e infrastrutture nazionali. Il fine-tuning si è poggiato anche sulla comunità degli utenti: le interazioni raccolte durante la fase pubblica di Minerva 7B hanno alimentato l'addestramento su milioni di esempi, testuali e multimodali.

Roberto Navigli ha sintetizzato l'ambizione del team: «Vogliamo dimostrare che è possibile costruire tecnologia AI di frontiera anche in Europa e in Italia, con un approccio aperto, scientificamente rigoroso e indipendente». A questa dichiarazione si aggiunge una nota più personale dello stesso Navigli: «ChatMinerva è stato costruito con molta più passione che budget», un riferimento esplicito al divario di risorse fra ricerca pubblica e privata.

Errori comuni nel valutare ChatMinerva

Confondere il modello con un competitor di ChatGPT consumer: il sistema nasce in ambito accademico, con priorità diverse rispetto a un prodotto di massa. La presenza di un filtro di sicurezza esplicito, di un Web RAG su motore aperto e di un fine-tuning documentato risponde a logiche di ricerca, non solo di esperienza utente.

Sottovalutare il ruolo della trasparenza: aprire il ciclo di vita del modello significa rendere ispezionabili dati di addestramento e logiche di moderazione. È una differenza sostanziale rispetto ai modelli proprietari, dove queste informazioni restano opache e affidate alla buona fede dell'utente.

Trascurare la dimensione infrastrutturale: l'addestramento sul supercomputer Leonardo del CINECA mostra che la ricerca AI italiana dipende dalla disponibilità di risorse computazionali pubbliche. Senza Leonardo, un progetto di questa portata sarebbe difficilmente sostenibile nei tempi e nei costi di un singolo ateneo.

Domande frequenti

Chi ha sviluppato il modello?

Il sistema è stato realizzato dal gruppo di ricerca Sapienza NLP dell'Università La Sapienza di Roma, guidato dal professor Roberto Navigli, in collaborazione con lo spin-off accademico Babelscape. L'addestramento è avvenuto sul supercomputer Leonardo del CINECA.

È una nuova versione di Minerva 7B?

Sì, si tratta dell'evoluzione diretta di Minerva 7B, il Large Language Model presentato dallo stesso gruppo come la principale iniziativa italiana sui modelli linguistici curata da un ateneo pubblico. Ne mantiene l'impostazione aperta e indipendente, ampliandola con multimodalità, Web RAG e finestra contestuale a 32.000 token.

Cosa significa che ha accesso al web in tempo reale?

Il modello integra una pipeline di Retrieval-Augmented Generation (Web RAG) basata sul motore di ricerca aperto DuckDuckGo. Quando la richiesta dell'utente lo richiede, consulta il web, recupera fonti recenti e le integra nella risposta, superando il limite tipico dei modelli addestrati solo su dati statici.

Su quali infrastrutture è stato addestrato?

L'addestramento è avvenuto sul supercomputer Leonardo del CINECA. Una parte significativa del fine-tuning è stata costruita anche grazie alle interazioni raccolte durante la fase pubblica di Minerva 7B, che hanno alimentato l'addestramento su milioni di esempi testuali e multimodali. Per docenti, ricercatori e operatori dell'informazione l'arrivo di un assistente AI sviluppato interamente in Italia cambia la cornice in cui si discute di sovranità tecnologica europea. Resta da osservare come la comunità di utenti contribuirà al fine-tuning futuro e quanto il sistema reggerà il confronto, in casi d'uso quotidiani, con i modelli proprietari internazionali.