Das Internet verrottet: Verlieren wir unser digitales Gedächtnis?

Täglich verschwinden Tausende von Webseiten spurlos. Und mit ihnen verschwinden Erinnerungen, Wissen und Fragmente unserer Geschichte. Wenn alles nur einen Klick entfernt scheint, ist es paradox, dass das World Wide Web (WWW), das wir Internet nennen – dieses riesige digitale Archiv unserer globalen Zivilisation – still und leise verschwindet.
Vor fast 4.000 Jahren beschwerte sich ein Kaufmann auf einer Tontafel über fehlerhafte Kupferbarren. Diese Beschwerde hat bis heute überlebt. Blogs, Foren und persönliche Websites, die erst vor fünfzehn Jahren veröffentlicht wurden, sind jedoch verschwunden. Wie kann eine Beschwerde aus der Bronzezeit beständiger sein als ein Beitrag aus dem Jahr 2009?
Der Schlüssel liegt in der Fragilität des Internets. Digitale Inhalte sind von Natur aus flüchtig, wenn sie nicht aktiv bewahrt werden.
Im Gegensatz zu physischen Medien wie Ton, Papyrus oder Papier sind Websites auf Server angewiesen, die gewartet werden müssen, auf Domänen, die erneuert werden müssen, und auf Formate, die früher oder später veralten.
Wenn ein Server verschwindet, eine Domäne abläuft, Weiterleitungen falsch verwaltet werden oder eine Website auf veralteten Technologien basiert, ist das Ergebnis immer dasselbe: Auf Inhalte kann nicht mehr zugegriffen werden, und wenn diese schließlich verschwinden, bemerkt es niemand.
Dieses Phänomen nennt sich Linkrot und hält an. Eine Analyse meiner Tweets zwischen 2007 und 2023 ergab, dass 13 % der Links defekt waren. War der Tweet älter als zehn Jahre, stieg dieser Wert sogar auf 30 %. Anders ausgedrückt: Fast ein Drittel der vor zehn Jahren verlinkten Inhalte ist nicht mehr zugänglich – wenn nicht sogar komplett verschwunden.
Der stille Blackout In Blade Runner 2049 löscht ein massiver Blackout, verursacht durch Replikanten-Aktivisten, sämtliche digitalen Aufzeichnungen. Doch es braucht kein so extremes Szenario, um riesige Informationsmengen im Handumdrehen verschwinden zu lassen. Wie im Film sind diese Löschungen jedoch das Ergebnis bewusster Entscheidungen, die meist von privaten Unternehmen getroffen werden. So bedeutete beispielsweise die Schließung von Plattformen wie Yahoo! Answers, Geocities, Tuenti oder den Meristation-Foren den Verlust von Millionen von Texten, Bildern und Gesprächen, die einen Teil unseres Lebens und unserer digitalen Kultur dokumentierten.
Andererseits hat die Regierung von Donald Trump im Gegensatz zu früheren Regierungen, die Maßnahmen zum Schutz der auf Regierungswebsites verfügbaren Informationen ergriffen haben, systematisch Tausende von Seiten und offiziellen Daten von Behörden wie den Centers for Disease Control and Prevention (CDC), der National Oceanic and Atmospheric Administration (NOAA) und der Environmental Protection Agency (EPA) entfernt.
Diese Löschungen betrafen vor allem Inhalte zu den Themen öffentliche Gesundheit, Klimawandel, Vielfalt und soziale Rechte. Sie führten zu einem erheblichen Verlust öffentlicher und wissenschaftlicher Informationen und lösten insbesondere in der wissenschaftlichen Gemeinschaft Besorgnis aus.
Das Paradox ist offensichtlich: Unsere Zivilisation produziert mehr Inhalte als je zuvor, aber sie tut dies in unbeständigen Formaten und verliert diese darüber hinaus schneller, als wir uns vorstellen können.
Dies alles geschieht, während immer mehr Informationen (u. a. Parlamentsprotokolle, offizielle Bulletins, wissenschaftliche Artikel und technische Handbücher) in digitalem Format veröffentlicht werden, oft ohne dass eine physische Kopie vorliegt.
Das Paradox ist offensichtlich: Unsere Zivilisation produziert mehr Inhalte als je zuvor, aber sie tut dies in unbeständigen Formaten und verliert diese darüber hinaus schneller, als wir uns vorstellen können.
Trotz dieser Situation gibt es Bemühungen, unser digitales Gedächtnis zu bewahren. Die bekannteste ist die Wayback Machine des Internetarchivs, die seit 1996 Milliarden von Webseiten archiviert hat . Auch auf nationaler Ebene arbeiten Institutionen wie die Spanische Nationalbibliothek oder ihre Pendants in Großbritannien und Australien daran, einen Teil unseres digitalen Erbes zu bewahren.
Was wird getan? Angesichts massenhafter und gezielter Löschungen, wie sie die Trump-Regierung durchführte, arbeiten verschiedene Organisationen zusammen, um gelöschte Informationen zu archivieren. Diese Initiativen zielen darauf ab, den zukünftigen Zugriff auf öffentliche Daten sicherzustellen, nicht nur für Forschungszwecke, sondern auch zur Bewahrung historischer Aufzeichnungen.
Natürlich ist das keine einfache Aufgabe. Das heutige WWW ist deutlich komplexer als in den 1990er Jahren: Die Inhalte sind dynamisch und interaktiv, keine einfachen HTML-Dokumente mehr. Darüber hinaus stellt die Archivierung von Social-Media- oder Multimedia-Inhalten nicht nur eine enorme technische Herausforderung dar, die durch die von den Plattformen selbst auferlegten Hürden noch verstärkt wird, sondern wirft auch ethische und rechtliche Fragen im Zusammenhang mit der Privatsphäre und Einwilligung der Nutzer auf. Mit anderen Worten: Nicht alles kann und sollte erhalten bleiben.
Dennoch können wir alle einen Beitrag leisten: Tools wie Save Page Now, die Wayback Machine oder Archive.today ermöglichen es jedem, eine Kopie einer beliebigen Webseite zu archivieren, indem er einfach ihre URL eingibt.
Vielleicht wird in 4.000 Jahren niemand mehr unsere Beschwerden über fehlerhafte Barren finden, aber sie werden unsere Rezepte, Memes und Forendiskussionen finden und damit einen Einblick, wer wir waren.
Letztendlich ist die Behauptung, das WWW verrotte, dasselbe wie die Behauptung, ein Wald verrotte: Immer stirbt etwas, aber es entsteht auch etwas Neues , da sich das Netzwerk ständig verändert. Wichtig ist zu wissen, dass wir Fragmente erfassen, das Wesentliche bewahren und ein stabileres digitales Gedächtnis aufbauen können, das weniger anfällig für technologische Schwankungen oder die Entscheidungen einzelner Unternehmen oder Regierungen ist.
Vielleicht wird in 4.000 Jahren niemand mehr unsere Beschwerden über fehlerhafte Barren finden, aber sie werden unsere Rezepte, Memes und Forendiskussionen finden und damit einen Einblick, wer wir waren.
(*) Ordentlicher Professor im Fachbereich Informatik der Universität Oviedo.
(**) Es handelt sich um eine gemeinnützige Organisation, die Ideen und wissenschaftliches Wissen mit der Öffentlichkeit teilt. Dieser Artikel wird hier unter einer Creative Commons-Lizenz wiedergegeben.
Vier von zehn Websites aus dem Jahr 2013 existieren nicht mehr 
Foto: iStock
Am 1. Januar dieses Jahres feierte das Internet, wie wir es kennen, seinen 42. Geburtstag. In diesen über vier Jahrzehnten haben Nutzer im Web enorme Datenmengen generiert: Allein im Jahr 2023 waren es 120 Zettabyte (ZB), und in diesem Jahr wird ein Anstieg um 150 % auf 181 ZB erwartet, wie aus Daten von Statista hervorgeht. Zum Vergleich: Ein ZB entspricht einer Milliarde Terabyte (TB), und die größten SDUC-Speicherkarten auf dem Markt erreichen derzeit nur 128 TB.
Online hochgeladene Inhalte sind jedoch nicht immer von Dauer. Sie haben wahrscheinlich schon öfter auf einen Link geklickt und die Meldung „404 Not Found“ erhalten, die Sie nicht zu dem führt, wonach Sie gesucht haben. Ein Bericht des Pew Research Center aus dem Jahr 2024 ergab, dass einige digitale Inhalte im Laufe der Zeit verloren gehen, selbst auf Websites, die als vertrauenswürdig gelten, wie Regierungsportalen, Nachrichtenagenturen, sozialen Medien und Wikipedia.
„Das Internet ist ein unvorstellbar riesiger Fundus des modernen Lebens mit Hunderten von Milliarden indexierten Webseiten. Doch während Nutzer weltweit das Internet nutzen, um auf Bücher, Bilder, Nachrichten und andere Ressourcen zuzugreifen, verschwinden diese Inhalte manchmal“, heißt es in dem Dokument.
Die Studie analysierte eine Stichprobe von fast einer Million Webseiten, die zwischen 2013 und 2023 über Common Crawl gespeichert wurden. Common Crawl ist ein Archivdienst, der regelmäßig Momentaufnahmen des Internets zu verschiedenen Zeitpunkten erstellt. Die Ergebnisse zeigten, dass 25 % aller analysierten Seiten bis Oktober 2023 nicht mehr erreichbar waren. Darunter befanden sich 16 % der Seiten, die zwar nicht erreichbar waren, aber von einer noch aktiven primären Domain stammten, sowie 9 % der Websites, die nicht erreichbar waren, weil ihre Stammdomain nicht mehr erreichbar war.
Die Analyse ergab außerdem, dass die Wahrscheinlichkeit, dass eine Seite verschwunden ist, umso größer ist, je älter sie ist: Von den im Jahr 2013 gesammelten Beispielen waren 38 % im Jahr 2023 nicht mehr zugänglich ; aber selbst von den im Jahr 2021 gesammelten Seiten war etwa jede fünfte zwei Jahre später nicht mehr nutzbar.
Der digitale Verfall betrifft nicht nur persönliche Seiten oder Websites mit geringem Datenverkehr. Das Pew Research Center untersuchte 500.000 Webseiten lokaler, staatlicher und bundesstaatlicher Behörden in den USA mithilfe der Common Crawl-Snapshots vom März/April 2023 und stellte fest, dass bis Oktober 2023 21 % dieser Seiten mindestens einen defekten Link enthielten und 16 % der Links innerhalb der Webseiten auf andere URLs als die ursprüngliche umgeleitet wurden.
Für Nachrichtenagenturen umfasste die Stichprobe auch 500.000 Seiten aus der Common Crawl-Snapshot-Datei vom März/April 2023. Die Seiten stammten von 2.063 Websites, die vom Publikumsmetrik-Unternehmen comScore als „Nachrichten/Informationen“ klassifiziert wurden. Zum Zeitpunkt der Studie im Oktober 2023 wiesen 23 % der Seiten defekte Links auf.
Sogar Wikipedia, eine der meistbesuchten Websites der Welt, hat dieses Problem: Von den 50.000 englischsprachigen Seiten in einer Stichprobe enthielten 54 % im Abschnitt „Referenzen“ mindestens einen Link, der auf eine Seite umleitete, die nicht mehr existierte.
eltiempo