- Il nuovo approccio di Microsoft: due cervelli artificiali meglio di uno
- Come funziona Copilot Researcher: Critique e Council
- I numeri parlano chiaro: il benchmark DRACO
- Cosa cambia per la ricerca accademica
- Microsoft e la strategia dei modelli ibridi
- Domande frequenti
Il nuovo approccio di Microsoft: due cervelli artificiali meglio di uno
Far collaborare intelligenze artificiali rivali anziché metterle in competizione. È questa, in estrema sintesi, la scommessa che Microsoft ha deciso di giocare con l'ultimo aggiornamento di Copilot Researcher, lo strumento di ricerca basato su AI integrato nel proprio ecosistema. Il colosso di Redmond ha lanciato due nuove funzionalità, battezzate Critique e Council, che per la prima volta combinano i modelli linguistici di OpenAI (la famiglia GPT) e di Anthropic (Claude) all'interno di un unico flusso di lavoro.
Non si tratta di un semplice affiancamento. Il sistema è stato progettato per sfruttare i punti di forza specifici di ciascun modello, assegnando ruoli distinti nella catena della ricerca. Un'architettura ibrida che, stando ai primi risultati, supera in modo significativo le prestazioni di qualunque modello utilizzato singolarmente.
Come funziona Copilot Researcher: Critique e Council
Il cuore dell'innovazione sta nella separazione netta tra due fasi: la generazione dei contenuti e la loro revisione critica. Critique, il primo dei due moduli, divide il processo di ricerca esattamente lungo questa linea.
In pratica, quando un utente avvia una ricerca su Copilot Researcher, il modello GPT si occupa di produrre il materiale iniziale, raccogliendo informazioni, sintetizzando fonti e costruendo una prima bozza strutturata. A quel punto entra in gioco Claude, il modello di Anthropic, con un compito specifico e complementare: verificare l'accuratezza fattuale del testo generato e controllare la qualità delle citazioni. Non un semplice fact-checking automatico, ma un processo di revisione che analizza la coerenza interna, la pertinenza delle fonti e l'affidabilità complessiva dell'output.
Council, il secondo modulo, gestisce invece il coordinamento tra i due modelli, orchestrando il dialogo tra generazione e revisione in modo iterativo. Il risultato è un testo finale che ha attraversato più cicli di controllo incrociato, riducendo drasticamente il rischio di hallucination, il problema più insidioso degli attuali strumenti di AI generativa.
È un'architettura che ricorda, per certi versi, il meccanismo della peer review accademica: chi scrive non è lo stesso che giudica.
I numeri parlano chiaro: il benchmark DRACO
I risultati ottenuti dal sistema ibrido non sono passati inosservati nella comunità scientifica. Nel benchmark DRACO, uno degli standard di riferimento per valutare la qualità della ricerca assistita da intelligenza artificiale, Copilot Researcher con Critique e Council ha raggiunto un punteggio di 57,4, superando tutti i modelli singoli testati nelle medesime condizioni.
Un dato che merita una contestualizzazione. I benchmark per gli strumenti di ricerca AI misurano non solo la capacità di trovare informazioni pertinenti, ma anche la precisione delle citazioni, l'assenza di contenuti inventati e la coerenza argomentativa. Ottenere un punteggio superiore combinando modelli diversi suggerisce che l'approccio multi-modello potrebbe rappresentare il futuro della ricerca assistita, più che la corsa al singolo modello sempre più grande e potente.
Cosa cambia per la ricerca accademica
Le implicazioni per il mondo universitario e della ricerca sono tutt'altro che trascurabili. Gli strumenti di AI per la ricerca stanno già entrando nei laboratori e nei dipartimenti italiani, spesso con risultati alterni proprio a causa del problema dell'inaffidabilità delle fonti citate. Un sistema che integra nativamente un meccanismo di verifica potrebbe abbattere una delle barriere principali all'adozione di queste tecnologie in ambito accademico.
In Italia, peraltro, il tema degli investimenti nella ricerca universitaria resta centrale. Come emerso dal recente stanziamento di 37,5 milioni di euro per il contratto di ricerca 2025, le risorse ci sono ma vanno accompagnate da strumenti adeguati. L'arrivo di piattaforme come Copilot Researcher potrebbe moltiplicare l'efficacia di quei fondi, consentendo ai ricercatori di dedicare meno tempo alla raccolta bibliografica e più tempo all'analisi e all'interpretazione.
Va detto che non mancano le perplessità. La dipendenza da infrastrutture proprietarie di colossi tecnologici statunitensi solleva interrogativi legittimi sulla sovranità digitale della ricerca europea. E la qualità del fact-checking automatico, per quanto migliorata, non può ancora sostituire il giudizio critico di un esperto di dominio.
Microsoft e la strategia dei modelli ibridi
La mossa di Microsoft si inserisce in una strategia più ampia. Da tempo Redmond non si limita a puntare tutto su OpenAI, ma diversifica le proprie collaborazioni nel campo dell'intelligenza artificiale. L'integrazione di Claude accanto a GPT è il segnale più chiaro di questa filosofia: non esiste un modello perfetto per tutto, ma combinazioni intelligenti possono produrre risultati superiori alla somma delle parti.
Non è la prima volta che Microsoft cerca di posizionarsi come protagonista dell'innovazione tecnologica con annunci di grande impatto. Basta pensare al dibattito che ha accompagnato i suoi progressi nel quantum computing, dove entusiasmo e scetticismo si sono alternati. Con Copilot Researcher, tuttavia, i dati del benchmark DRACO offrono una base concreta su cui valutare le promesse.
La partita, naturalmente, è appena iniziata. Google, Meta e le stesse OpenAI e Anthropic stanno lavorando su approcci paralleli. Ma il fatto che un'azienda decida di mettere insieme modelli concorrenti, anziché insistere su un campione unico, rappresenta un cambio di paradigma che il mondo della ricerca, accademica e non, farà bene a seguire con attenzione.