- Cosa è successo: i fatti
- Claude Mythos: perché Anthropic lo considera troppo pericoloso
- La falla: credenziali di terze parti e catena di fiducia
- Il canale Discord e la comunità underground
- Le implicazioni per il settore
- Domande frequenti
Un modello di intelligenza artificiale che non doveva uscire dai laboratori di Anthropic è finito, almeno temporaneamente, nelle mani di chi non avrebbe dovuto toccarlo. È questa la sintesi di un incidente di sicurezza che sta facendo discutere l'intera comunità tech e che, stando a quanto emerge nelle ultime ore, potrebbe rappresentare uno dei casi più significativi di accesso non autorizzato a un sistema AI avanzato.
Cosa è successo: i fatti
Nelle scorse settimane, un gruppo non identificato ha ottenuto accesso a Claude Mythos Preview, un modello linguistico sperimentale sviluppato da Anthropic e mai reso disponibile al pubblico. L'intrusione non è avvenuta attraverso un sofisticato attacco informatico, bensì sfruttando le credenziali di un contractor esterno che collaborava con l'azienda di San Francisco.
Una porta lasciata socchiusa, in sostanza. Nessun exploit zero-day, nessuna violazione crittografica: semplicemente, qualcuno ha usato le chiavi di qualcun altro.
Anthropic ha confermato l'incidente e ha fatto sapere di aver avviato un'indagine interna per ricostruire l'intera catena degli eventi, determinare l'ampiezza della violazione e identificare i responsabili. L'azienda non ha ancora rilasciato dichiarazioni dettagliate sulle contromisure adottate.
Claude Mythos: perché Anthropic lo considera troppo pericoloso
Per comprendere la gravità dell'accaduto bisogna capire cosa sia Claude Mythos e perché Anthropic abbia deciso di non rilasciarlo.
A differenza dei modelli della famiglia Claude già disponibili al pubblico, Mythos Preview rappresenta un salto qualitativo nelle capacità legate alla cybersecurity. Stando alle informazioni circolate negli ambienti specializzati, il modello sarebbe in grado di individuare vulnerabilità nei sistemi informatici, generare codice offensivo con un livello di sofisticazione inedito e, più in generale, operare in ambiti dove il confine tra ricerca difensiva e strumento d'attacco diventa pericolosamente sottile.
È la stessa Anthropic ad aver classificato il modello come troppo pericoloso per il rilascio pubblico, una decisione coerente con la filosofia aziendale della cosiddetta Responsible Scaling Policy, il framework interno che prevede soglie di rischio oltre le quali un modello non può essere distribuito. La domanda, ora, è se quelle precauzioni siano state sufficienti.
Il settore dell'intelligenza artificiale attraversa del resto una fase in cui le capacità dei modelli più avanzati crescono a una velocità che mette sotto pressione i protocolli di sicurezza esistenti. Lo abbiamo visto anche in ambiti apparentemente distanti: perfino applicazioni come l'asfalto autoriparante sviluppato con l'AI di Google dimostrano quanto rapidamente queste tecnologie stiano permeando settori diversi, con tutte le sfide di governance che ne conseguono.
La falla: credenziali di terze parti e catena di fiducia
L'aspetto forse più inquietante della vicenda non riguarda il modello in sé, ma il vettore d'attacco. Le credenziali compromesse appartenevano a un contractor, un collaboratore esterno con accesso ai sistemi interni di Anthropic.
È un copione già visto mille volte nella storia della cybersecurity: le aziende blindano i propri sistemi, investono milioni in protezioni perimetrali, e poi il punto debole si rivela essere un fornitore terzo con standard di sicurezza inferiori. Pensiamo al caso SolarWinds del 2020, o alla violazione di Target nel 2013: la catena è forte quanto il suo anello più debole.
Nel caso di Anthropic, però, la posta in gioco è diversa. Non si tratta di dati finanziari o informazioni personali. Si tratta di un modello AI con capacità offensive che l'azienda stessa aveva giudicato inadatto alla distribuzione. Il paradosso è evidente: un sistema ritenuto troppo pericoloso per essere rilasciato in modo controllato è finito in circolazione in modo del tutto incontrollato.
Alcune domande restano senza risposta. Perché un contractor esterno aveva accesso a un modello classificato come ad alto rischio? Quali protocolli di access management erano in vigore? L'accesso del contractor era limitato a funzionalità specifiche o comprendeva l'intero modello?
Il canale Discord e la comunità underground
Secondo le ricostruzioni disponibili, il gruppo che ha ottenuto l'accesso operava attraverso un canale Discord privato, un dettaglio che dice molto sulla natura dell'incidente. Non si tratta, con ogni probabilità, di un'operazione sponsorizzata da uno Stato o di un attacco sofisticato da parte di un gruppo APT (Advanced Persistent Threat). Il profilo è piuttosto quello di una comunità underground di appassionati e ricercatori indipendenti, forse motivati dalla curiosità di testare un modello che Anthropic aveva circondato di un'aura di mistero.
Questo non rende l'incidente meno grave. Anzi. Se un gruppo relativamente informale è riuscito a ottenere accesso a Mythos Preview, la domanda è cosa potrebbe fare un attore statale o un'organizzazione criminale strutturata con le stesse vulnerabilità nella catena dei fornitori.
La vicenda richiama anche il dibattito più ampio sulla corsa tecnologica nel settore AI, dove i confini tra innovazione legittima e rischio sistemico si fanno sempre più sfumati. Un tema che, in forme diverse, attraversa l'intero comparto, come dimostra anche la discussione attorno alle reali implicazioni del quantum computing e degli annunci di Microsoft sul fronte della potenza di calcolo.
Le implicazioni per il settore
L'incidente Claude Mythos arriva in un momento delicato per la governance dell'intelligenza artificiale a livello globale. L'AI Act europeo è entrato nella fase di piena applicazione, gli Stati Uniti stanno ridefinendo il proprio approccio regolatorio dopo gli executive order dell'amministrazione Biden, e la Cina ha varato le proprie regole sui modelli generativi.
In nessuno di questi framework, tuttavia, è stata affrontata in modo compiuto la questione dei modelli non rilasciati, quelli che le aziende sviluppano e poi decidono autonomamente di non distribuire perché giudicati troppo rischiosi. Chi vigila su questi sistemi? Con quali standard? E, soprattutto, chi garantisce che restino effettivamente confinati all'interno dei laboratori?
La vicenda di Anthropic mette in luce almeno tre nodi critici:
- La sicurezza della supply chain nell'ecosistema AI, dove contractor e vendor esterni rappresentano superfici d'attacco spesso sottovalutate
- L'inadeguatezza dei protocolli di accesso privilegiato quando si tratta di modelli con capacità potenzialmente offensive
- Il vuoto normativo attorno ai modelli AI classificati come pericolosi ma non ancora soggetti a obblighi di custodia specifici
Per Anthropic, che ha costruito la propria reputazione sulla narrativa della sicurezza come priorità, l'episodio rappresenta un colpo significativo alla credibilità. L'azienda fondata da Dario e Daniela Amodei, ex ricercatori di OpenAI, ha sempre insistito sulla necessità di sviluppare l'AI in modo responsabile. Ora dovrà dimostrare che quella responsabilità si estende anche alla protezione concreta dei propri sistemi più sensibili.
La questione, come si dice, resta aperta. Ma una cosa è chiara: nell'era dei modelli AI sempre più capaci, la sicurezza non può fermarsi al perimetro aziendale. Deve abbracciare l'intera rete di soggetti coinvolti nello sviluppo, dalla prima riga di codice all'ultimo contractor con un badge d'accesso.