Wayback Machine, cosa sta succedendo: sempre più siti limitano l’archivio del web

Editori e piattaforme limitano l'accesso del crawler di Internet Archive. Cosa cambia per chi consulta la memoria digitale del web.

In breve

* Internet Archive raccoglie pagine web dal 1996 e ha superato i mille miliardi di documenti conservati

* USA Today, New York Times e Reddit limitano l'accesso del crawler di Internet Archive ai loro contenuti

* Il Guardian non blocca il crawler ma esclude i propri articoli dall'API pubblica dell'archivio

* Le motivazioni ruotano attorno alle oltre cento cause sul copyright avviate negli Stati Uniti contro le aziende di intelligenza artificiale

* Senza un'alternativa pubblica equivalente, intere stagioni del giornalismo digitale rischiano di non essere più consultabili in versione originale

Cos'è la Wayback Machine e perché conta

La Wayback Machine è il servizio di Internet Archive che dal 1996 conserva copie delle pagine pubblicate online. Secondo il direttore Mark Graham, l'archivio ha superato i mille miliardi di pagine indicizzate, raccolte attraverso crawler automatici che scansionano periodicamente il web. Per chi consulta archivi giornalistici, verifica contenuti rimossi o modificati dopo la pubblicazione e ricostruisce serie storiche di dati pubblici, è di fatto l'unico strumento aperto con una copertura paragonabile. Il valore civile dello strumento è documentato anche da inchieste recenti: i giornalisti di USA Today lo hanno usato per analizzare le statistiche sulle detenzioni dell'Agenzia statunitense per l'immigrazione e le dogane (ICE), confrontando i dati pubblicati negli anni precedenti con quelli successivi al cambio di amministrazione.

I principali blocchi degli editori

Negli ultimi due anni diverse testate e piattaforme hanno limitato in modo esplicito l'accesso dell'archivio ai loro contenuti. Le forme di restrizione variano per profondità tecnica e portata: alcune fermano il crawler all'origine, altre lasciano archiviare le pagine ma ne riducono la consultazione.

1. USA Today Co. (Gannett): il gruppo che gestisce il quotidiano statunitense e oltre duecento testate locali impedisce all'archivio di conservare i propri articoli. La portavoce Lark-Marie Anton ha precisato che la scelta fa parte di un impegno più ampio del gruppo contro tutti i bot di scraping e non è diretta nello specifico contro Internet Archive. 2. New York Times: il quotidiano ha cominciato a limitare l'accesso del crawler di Internet Archive ai propri contenuti. Il portavoce Graham James ha motivato la decisione con l'utilizzo degli articoli del Times conservati nell'archivio da parte di aziende di intelligenza artificiale, descritto come una violazione del diritto d'autore e una concorrenza diretta alla testata. 3. Reddit: la piattaforma sociale blocca attualmente il crawler usato da Internet Archive per il proprio progetto di archiviazione. Il blocco si inserisce nella stretta più ampia sulla raccolta automatica dei dati, avviata per regolare le partnership commerciali con le aziende di intelligenza artificiale. 4. The Guardian: il quotidiano britannico non blocca il crawler, ma esclude i propri contenuti dall'API di Internet Archive e filtra gli articoli dall'interfaccia pubblica del servizio. Le copie restano nell'archivio, ma diventano molto più difficili da consultare per gli utenti comuni.

Perché gli editori limitano l'archivio

Le motivazioni dei blocchi non sono uniformi, ma si raccolgono attorno a tre nodi che spesso vengono confusi nel dibattito pubblico.

Confondere l'archiviazione con la diffusione: nelle dichiarazioni rese dagli editori l'oggetto della contestazione non è la copia storica dell'articolo, ma il suo riutilizzo come materiale di addestramento per modelli di intelligenza artificiale. Le oltre cento cause aperte negli Stati Uniti per violazione del copyright in ambito IA si concentrano proprio su questo passaggio dell'uso dei contenuti.

Sottovalutare la portata dell'archivio: il servizio offre una mole di materiale così vasta da risultare particolarmente attraente per i sistemi di IA, anche perché aggrega contenuti provenienti da testate diverse in un unico punto di accesso. Per gli editori, ridurre la presenza del proprio catalogo all'interno della raccolta significa anche limitarne la disponibilità come dataset.

Trattare l'API come una porta tecnica: la scelta del Guardian di lasciare aperto il crawler ma chiudere l'API mostra che il vero confine, per molte testate, non è la copia in sé ma la possibilità di consultarla in modo massivo e programmato. È una soglia tecnica che separa la conservazione storica dalla raccolta industriale di dati.

Cosa cambia per chi consulta la memoria del web

Per giornalisti, ricercatori e cittadini la conseguenza pratica è che intere stagioni del giornalismo digitale potrebbero non essere più consultabili in versione originale tra qualche anno. Con la chiusura di numerose testate locali e in assenza di un percorso strutturato che permetta alle biblioteche pubbliche di preservare il reportage solo digitale, la conservazione della documentazione giornalistica ricade in misura crescente su Internet Archive. Non esiste, ad oggi, uno strumento pubblico paragonabile per copertura e accessibilità: se l'accesso alle fonti principali continuerà a ridursi, i primi documenti digitali della storia potrebbero diventare molto più difficili da consultare, o andare perduti del tutto.

Domande frequenti

Cos'è la Wayback Machine?

È il servizio di Internet Archive che dal 1996 raccoglie copie delle pagine web. Le copie sono accessibili pubblicamente tramite il sito archive.org e permettono di consultare lo stato di un sito a una data specifica del passato, anche quando la versione attuale è stata modificata o rimossa.

Quante pagine ha archiviato Internet Archive?

Secondo il direttore Mark Graham, l'archivio ha superato i mille miliardi di pagine raccolte in trent'anni di attività. È il più grande archivio web liberamente consultabile mai costruito ed è alimentato in continuazione da crawler automatici.

Quali editori limitano oggi l'archivio?

Tra i casi documentati: USA Today Co. (Gannett) blocca i bot di scraping, il New York Times limita l'accesso del crawler, Reddit blocca il crawler usato da Internet Archive e The Guardian filtra i propri contenuti dall'API. Altre testate potrebbero adottare misure simili nei prossimi mesi.

Per quale motivo gli editori bloccano l'archivio?

La giustificazione ricorrente è la difesa del copyright nelle cause contro le aziende di intelligenza artificiale, che usano grandi quantità di contenuti per addestrare i propri modelli. Negli Stati Uniti sono in corso oltre cento procedimenti su questo tema e l'archivio viene considerato una fonte particolarmente sensibile.

Esiste un'alternativa pubblica all'archivio?

Allo stato attuale non esiste un servizio pubblico equivalente per copertura, profondità storica e accessibilità. Alcune biblioteche nazionali archiviano selettivamente porzioni del web, ma nessuna offre un punto di accesso unico e aperto comparabile a quello di Internet Archive.

Il punto che si sta consolidando non riguarda solo l'archivio, ma chi può raccontare il passato digitale e con quale completezza. Le scelte degli editori, inserite nel quadro delle cause sull'intelligenza artificiale, ridisegnano l'accessibilità della memoria pubblica. Resta da capire se nei prossimi anni emergerà un perimetro condiviso tra editori, archivi e ricerca, oppure se la conservazione del giornalismo digitale resterà affidata a un solo soggetto privato sempre più sotto pressione.