La Sapienza Università di Roma ha presentato il 3 giugno ChatMinerva, evoluzione multimodale dell'LLM Minerva 7B sviluppato dal gruppo Sapienza NLP guidato dal professor Roberto Navigli con lo spin-off Babelscape. Il nuovo assistente comprende testi, immagini e documenti, accede al web in tempo reale e dialoga in italiano con un sistema di moderazione integrato, e si presenta come progetto di ricerca interamente sviluppato in Italia, con un approccio aperto e controllabile in tutte le fasi: dal pretraining al fine-tuning fino alla sicurezza.
Multimodale, vocale e con finestra da 32mila token
ChatMinerva amplia in modo radicale le funzioni dell'LLM originale. Gli utenti possono caricare fotografie, immagini, pagine scansionate, articoli scientifici, report e documentazione tecnica e chiedere al modello di interpretarli, riassumerli, analizzarli o rispondere a domande sul contenuto. Il sistema combina informazioni visuali e testuali, applica l'OCR ai testi acquisiti ed è in grado di sostenere anche conversazioni vocali oltre a quelle scritte.
La finestra contestuale è stata estesa fino a 32.000 token attraverso un processo di continual training, sufficiente per elaborare documenti complessi e dialoghi prolungati. L'accesso al web in tempo reale è affidato a un meccanismo di Web RAG che formula le interrogazioni sul motore di ricerca aperto DuckDuckGo, scelta che evita la dipendenza dai servizi commerciali. Un componente di sicurezza dedicato valida input e risposte per moderare contenuti non affidabili o sensibili.
L'unico LLM curato da un'università pubblica italiana
L'addestramento del modello è stato svolto sul supercomputer Leonardo del Cineca, impiegato per tutti i processi di fine-tuning, con milioni di esempi di istruzioni testuali e multimodali. Anche le interazioni raccolte durante l'utilizzo pubblico di Minerva 7B hanno contribuito a migliorare le capacità conversazionali del modello. La rettrice Antonella Polimeni definisce il lancio una nuova tappa nel percorso di innovazione dell'ateneo, frutto dell'integrazione tra competenze scientifiche, infrastrutture avanzate e collaborazione con realtà del territorio, in cui la ricerca di frontiera si traduce in innovazione concreta al servizio della conoscenza e della società.
Roberto Navigli rivendica un approccio aperto, scientificamente rigoroso e indipendente, e ricorda che Minerva resta l'unica iniziativa italiana sui Large Language Model curata da un'università pubblica e con controllo diretto sulle fonti di addestramento. Il progetto, sottolinea, è stato costruito con molta più passione che budget, grazie al lavoro di decine di ricercatori, dottorandi e studenti e alla collaborazione con Babelscape, spin-off Sapienza attivo da dieci anni nella ricerca e nell'innovazione industriale.
Il team Sapienza NLP ha già aperto quattro filoni di sviluppo: aggiornamenti settimanali alle funzioni di ChatMinerva, una versione Agentic Minerva capace di pianificare azioni e utilizzare strumenti in autonomia, un modello più grande attualmente in addestramento sull'infrastruttura HPC del Cineca e nuove linee di ricerca pensate per differenziare l'assistente dagli omologhi internazionali. Per docenti, studenti e ricercatori italiani significa avere a disposizione un LLM aperto e verificabile, sviluppato dentro un'università pubblica.
Domande frequenti
Che cos'è ChatMinerva e quali sono le sue principali caratteristiche?
ChatMinerva è un assistente AI multimodale sviluppato dalla Sapienza Università di Roma che comprende testi, immagini e documenti, accede al web in tempo reale, dialoga in italiano e integra un sistema di moderazione. È progettato con un approccio aperto e controllabile, garantendo trasparenza e sicurezza in tutte le fasi di sviluppo.
In che modo ChatMinerva gestisce contenuti multimodali e vocali?
Gli utenti possono caricare fotografie, immagini, documenti scansionati e file tecnici, chiedendo al modello di interpretarli, riassumerli o analizzarli. ChatMinerva supporta anche conversazioni vocali oltre che scritte e applica l'OCR ai testi acquisiti dalle immagini.
Come funziona l'accesso al web in tempo reale di ChatMinerva?
ChatMinerva utilizza un sistema di Web RAG che interroga il motore di ricerca DuckDuckGo, evitando dipendenze da servizi commerciali. Questo meccanismo consente di reperire informazioni aggiornate e valide per rispondere alle richieste degli utenti.
Quali sono i vantaggi di ChatMinerva rispetto ad altri LLM?
ChatMinerva è l'unico LLM curato da un'università pubblica italiana, con controllo diretto sulle fonti di addestramento e trasparenza sulle modalità di sviluppo. Offre una finestra contestuale estesa a 32.000 token e viene continuamente aggiornato e migliorato grazie alla collaborazione tra università e spin-off.
A chi è destinato ChatMinerva e quali benefici offre alla comunità accademica?
ChatMinerva è pensato per docenti, studenti e ricercatori italiani che necessitano di uno strumento aperto, affidabile e sviluppato all'interno di una realtà pubblica. Fornisce supporto concreto all'innovazione, alla ricerca e all'accesso alla conoscenza tramite tecnologie AI avanzate.
Quali sono le prospettive future per lo sviluppo di ChatMinerva?
Il team Sapienza NLP sta lavorando su aggiornamenti settimanali, una versione agentica capace di pianificare e utilizzare strumenti autonomamente, un modello ancora più grande in addestramento e nuove linee di ricerca. L'obiettivo è differenziare ChatMinerva dai concorrenti internazionali e ampliare le sue funzionalità.