Internet sta marcendo: stiamo perdendo la nostra memoria digitale?

Ogni giorno, migliaia di pagine web scompaiono senza lasciare traccia. E con esse, svaniscono ricordi, conoscenze e frammenti della nostra storia. Quando tutto sembra a portata di clic, è paradossale che il World Wide Web (WWW) che chiamiamo Internet – quell'immenso archivio digitale della nostra civiltà globale – stia silenziosamente evaporando.
Quasi 4.000 anni fa, un mercante scrisse su una tavoletta d'argilla un reclamo per lingotti di rame difettosi. Quel reclamo è sopravvissuto fino a oggi. Tuttavia, blog, forum e siti web personali pubblicati solo quindici anni fa sono scomparsi. Com'è possibile che un reclamo risalente all'età del bronzo sia più duraturo di un post del 2009?
La chiave sta nella fragilità di internet. I contenuti digitali, se non vengono conservati attivamente, sono per loro natura effimeri.
A differenza dei supporti fisici come l'argilla, il papiro o la carta, i siti web dipendono da server che richiedono manutenzione, da domini che devono essere rinnovati e da formati che prima o poi diventano obsoleti.
Quando un server scompare, un dominio scade, i reindirizzamenti sono gestiti male o un sito web si basa su tecnologie obsolete, il risultato è lo stesso: i contenuti diventano inaccessibili e, quando finalmente scompaiono, nessuno se ne accorge.
Questo fenomeno si chiama link rot ed è in corso. In un'analisi dei tweet che ho pubblicato tra il 2007 e il 2023, è emerso che il 13% dei link era rotto e, se il tweet aveva più di dieci anni, la percentuale saliva al 30%. In altre parole, quasi un terzo dei contenuti linkati a dieci anni fa è diventato inaccessibile... se non completamente scomparso.
Il blackout silenzioso In Blade Runner 2049 , un blackout di massa causato da attivisti replicanti cancella tutti i dati digitali. Ma non serve uno scenario così estremo perché enormi quantità di informazioni spariscano in un batter d'occhio. Tuttavia, come nel film, queste cancellazioni sono il risultato di decisioni consapevoli, solitamente prese da aziende private. Ad esempio, la chiusura di piattaforme come Yahoo! Answers, Geocities, Tuenti o i forum di Meristation ha comportato la perdita di milioni di testi, immagini e conversazioni che documentavano parte delle nostre vite e della nostra cultura digitale.
D'altro canto, a differenza delle precedenti amministrazioni che hanno implementato politiche per preservare le informazioni disponibili sui siti web governativi, l'amministrazione di Donald Trump ha sistematicamente rimosso migliaia di pagine e dati ufficiali da agenzie come i Centers for Disease Control and Prevention (CDC), la National Oceanic and Atmospheric Administration (NOAA) e l'Environmental Protection Agency (EPA).
Queste cancellazioni hanno interessato principalmente contenuti relativi a salute pubblica, cambiamenti climatici, diversità e diritti sociali. Hanno portato a una significativa perdita di informazioni pubbliche e scientifiche e hanno generato allarme, in particolare nella comunità scientifica.
Il paradosso è evidente: la nostra civiltà produce più contenuti che mai, ma lo fa in formati volatili e, per giunta, li sta perdendo più velocemente di quanto immaginiamo.
Tutto questo accade mentre sempre più informazioni (verbali parlamentari, bollettini ufficiali, articoli scientifici, manuali tecnici, tra gli altri) vengono pubblicate in formato digitale, spesso senza una copia fisica.
Il paradosso è evidente: la nostra civiltà produce più contenuti che mai, ma lo fa in formati volatili e, per giunta, li sta perdendo più velocemente di quanto immaginiamo.
Nonostante questa situazione, sono in atto iniziative per preservare la nostra memoria digitale. La più nota è la Wayback Machine dell'Internet Archive, che ha archiviato miliardi di pagine web dal 1996. A livello nazionale, istituzioni come la Biblioteca Nazionale di Spagna, o le sue equivalenti nel Regno Unito e in Australia, stanno lavorando per preservare parte del nostro patrimonio digitale.
Cosa si sta facendo? Allo stesso modo, di fronte a cancellazioni di massa e deliberate come quelle perpetrate dall'amministrazione Trump, diverse organizzazioni stanno collaborando per archiviare le informazioni cancellate. Queste iniziative mirano a garantire l'accesso futuro ai dati pubblici, non solo a fini di ricerca, ma anche per preservare la documentazione storica.
Certo, non è un compito semplice. Il Web di oggi è molto più complesso rispetto agli anni '90: i contenuti sono dinamici e interattivi, non più semplici documenti HTML. Inoltre, archiviare contenuti multimediali o provenienti dai social media non solo rappresenta un'enorme sfida tecnica, aggravata dagli ostacoli imposti dalle piattaforme stesse, ma solleva anche dilemmi etici e legali relativi alla privacy e al consenso degli utenti. In altre parole, non tutto può o deve essere conservato.
Tuttavia, possiamo tutti dare il nostro contributo: strumenti come Save Page Now, Wayback Machine o Archive.today consentono a chiunque di archiviare una copia di qualsiasi pagina web semplicemente inserendone l'URL.
Forse tra 4000 anni nessuno troverà le nostre lamentele sui lingotti difettosi, ma troveranno le nostre ricette, i nostri meme e le nostre discussioni sui forum e, con essi, uno scorcio di chi eravamo.
In definitiva, dire che il WWW sta marcendo è come dire che sta marcendo una foresta: qualcosa muore sempre, ma anche qualcosa nasce , poiché la rete è in continua evoluzione. L'importante è sapere che possiamo catturare frammenti, preservare l'essenziale e costruire una memoria digitale più solida, meno vulnerabile alle fluttuazioni tecnologiche o alle decisioni di poche aziende o governi.
Forse tra 4000 anni nessuno troverà le nostre lamentele sui lingotti difettosi, ma troveranno le nostre ricette, i nostri meme e le nostre discussioni sui forum e, con essi, uno scorcio di chi eravamo.
(*) Professore ordinario presso il Dipartimento di Informatica dell'Università di Oviedo.
(**) Si tratta di un'organizzazione senza scopo di lucro che si propone di condividere idee e conoscenze accademiche con il pubblico. Questo articolo è riprodotto qui con licenza Creative Commons.
Quattro siti web su dieci del 2013 non esistono più 
Foto: iStock
Il 1° gennaio, Internet come lo conosciamo ha compiuto 42 anni e, in questi oltre quattro decenni, gli utenti hanno generato un'enorme quantità di informazioni sul web: solo nel 2023, c'erano 120 zettabyte (ZB) di dati, e quest'anno si prevede che questa cifra aumenterà del 150%, raggiungendo i 181 ZB, secondo i dati raccolti da Statista. Per mettere in prospettiva questa cifra, uno ZB equivale a un miliardo di terabyte (TB), e le schede di memoria di tipo SDUC più grandi attualmente sul mercato raggiungono solo i 128 TB.
Tuttavia, ciò che viene caricato online non sempre dura. Probabilmente hai cliccato su un link più di una volta e hai ricevuto un messaggio "404 Not Found", che non ti indirizza a ciò che stavi cercando. Un rapporto del 2024 del Pew Research Center ha rivelato che alcuni contenuti digitali vengono persi nel tempo, anche su siti considerati affidabili, come portali governativi, agenzie di stampa, social media e Wikipedia.
"Internet è un archivio incredibilmente vasto della vita moderna, con centinaia di miliardi di pagine web indicizzate. Ma mentre gli utenti di tutto il mondo si rivolgono al web per accedere a libri, immagini, notizie e altre risorse, a volte questi contenuti scompaiono", afferma il documento.
Lo studio ha analizzato un campione di quasi un milione di pagine web salvate tra il 2013 e il 2023 tramite Common Crawl, un servizio di archiviazione che compila periodicamente istantanee di Internet così come esisteva in diversi momenti. I risultati hanno indicato che il 25% di tutte le pagine analizzate non era più accessibile entro ottobre 2023. Scomposta, questa cifra include il 16% delle pagine inattive ma provenienti da un dominio principale ancora attivo e il 9% dei siti web inaccessibili perché il loro dominio principale non era più attivo.
L'analisi ha inoltre rilevato che più vecchia era la pagina, maggiore era la probabilità che fosse scomparsa: dei campioni raccolti nel 2013, il 38% non era più accessibile entro il 2023 ; ma anche delle pagine raccolte nel 2021, circa una su cinque non era più utilizzabile due anni dopo.
Il decadimento digitale non riguarda solo le pagine personali o i siti a basso traffico. Il Pew Research Center ha analizzato 500.000 pagine web di enti governativi locali, statali e federali negli Stati Uniti utilizzando l'istantanea di Common Crawl di marzo/aprile 2023 e ha scoperto che, entro ottobre 2023, il 21% di queste pagine conteneva almeno un link non funzionante e il 16% dei link all'interno delle pagine web reindirizzava a URL diversi da quello a cui puntava originariamente.
Per le testate giornalistiche, il campione includeva anche 500.000 pagine tratte dall'istantanea di Common Crawl di marzo/aprile 2023. Le pagine provenivano da 2.063 siti web classificati come "Notizie/Informazione" dalla società di analisi del pubblico comScore, e si è scoperto che al momento dello studio, nell'ottobre 2023, il 23% delle pagine presentava link non funzionanti.
Anche Wikipedia, uno dei siti più visitati al mondo, ha questo problema: su un campione di 50.000 pagine in lingua inglese, il 54% aveva almeno un link nella sezione “Riferimenti” che reindirizzava a una pagina che non esisteva più.
eltiempo