Интернет гниет: теряем ли мы свою цифровую память?

Каждый день тысячи веб-страниц исчезают бесследно. А вместе с ними исчезают воспоминания, знания и фрагменты нашей истории. Когда кажется, что всё находится на расстоянии одного клика, парадоксальным образом Всемирная паутина (WWW), которую мы называем Интернетом, — этот огромный цифровой архив нашей глобальной цивилизации — бесшумно испаряется.

Почти 4000 лет назад торговец написал на глиняной табличке жалобу на бракованные медные слитки. Эта жалоба сохранилась до наших дней. Однако блоги, форумы и личные сайты, опубликованные всего пятнадцать лет назад, исчезли. Как может жалоба бронзового века оказаться более устойчивой, чем сообщение 2009 года?

Всё дело в хрупкости интернета. Цифровой контент, если его активно не сохранять, по своей природе недолговечен.

В отличие от физических носителей, таких как глина, папирус или бумага, веб-сайты зависят от серверов, которые требуют обслуживания, доменов, которые необходимо обновлять, и форматов, которые рано или поздно устаревают.

Когда сервер исчезает, срок действия домена истекает, перенаправления работают неправильно или веб-сайт использует устаревшие технологии, результат один и тот же: контент становится недоступным, а когда он окончательно исчезает, никто этого не замечает.

Это явление называется «гниением ссылок» (link rot) , и оно продолжается. Анализ твитов, опубликованных мной с 2007 по 2023 год, показал, что 13% ссылок были нерабочими, а если твит был старше десяти лет, этот показатель возрастал до 30%. Другими словами, почти треть контента, на который ссылались десять лет назад, стала недоступной… если не исчезла полностью.

Тихое отключение электроэнергии

В фильме «Бегущий по лезвию 2049» масштабное отключение электроэнергии, вызванное активистами-репликантами, уничтожает все цифровые записи. Но для того, чтобы огромные объёмы информации исчезли в мгновение ока, не требуется столь экстремального сценария. Однако, как и в фильме, эти стирания являются результатом осознанных решений, обычно принимаемых частными компаниями. Например, закрытие таких платформ, как Yahoo! Answers, Geocities, Tuenti или форумов Meristation, привело к потере миллионов текстов, изображений и разговоров, задокументировавших часть нашей жизни и нашей цифровой культуры.

С другой стороны, в отличие от предыдущих администраций, которые проводили политику сохранения информации, доступной на правительственных веб-сайтах, администрация Дональда Трампа систематически удаляла тысячи страниц и официальных данных из таких агентств, как Центры по контролю и профилактике заболеваний (CDC), Национальное управление океанических и атмосферных исследований (NOAA) и Агентство по охране окружающей среды (EPA).

Эти удаления затронули в первую очередь контент, связанный с общественным здравоохранением, изменением климата, многообразием и социальными правами. Они привели к значительной потере общественной и научной информации и вызвали тревогу, особенно в научном сообществе.

Парадокс очевиден: наша цивилизация производит больше контента, чем когда-либо, но делает это в изменчивых форматах и, более того, теряет его быстрее, чем мы себе представляем.

Все это происходит на фоне того, что все больше информации (протоколы парламентских заседаний, официальные бюллетени, научные статьи, технические руководства и т. д.) публикуется в цифровом формате, часто без физической копии.

Несмотря на сложившуюся ситуацию, предпринимаются усилия по сохранению нашей цифровой памяти. Наиболее известным является Wayback Machine Интернет-архива, который с 1996 года архивировал миллиарды веб-страниц . На национальном уровне такие учреждения, как Национальная библиотека Испании и её аналоги в Великобритании и Австралии, также работают над сохранением части нашего цифрового наследия.

Что делается?

Аналогичным образом, столкнувшись с массовыми и преднамеренными удалениями, подобными тем, что проводила администрация Трампа, различные организации объединяют усилия для архивации удалённой информации. Эти инициативы направлены на обеспечение будущего доступа к публичным данным не только в исследовательских целях, но и для сохранения исторических данных.

Конечно, это непростая задача. Сегодняшний WWW гораздо сложнее, чем в 1990-х: контент динамичен и интерактивен, это уже не просто HTML-документы. Более того, архивирование контента социальных сетей или мультимедиа не только представляет собой огромную техническую проблему, усугубляемую препятствиями, создаваемыми самими платформами, но и порождает этические и юридические дилеммы, связанные с конфиденциальностью и согласием пользователей. Другими словами, не всё можно и нужно сохранить.

Тем не менее, мы все можем внести свой вклад: такие инструменты, как Save Page Now, Wayback Machine или Archive.today, позволяют любому человеку архивировать копию любой веб-страницы, просто введя ее URL-адрес.

Возможно, через 4000 лет никто не найдет наших жалоб на дефектные слитки, но они найдут наши рецепты, мемы и обсуждения на форумах, а вместе с ними и проблеск того, кем мы были.

В конечном счёте, утверждать, что WWW гниёт, всё равно что утверждать, что лес гниёт: что-то всегда умирает, но что-то и рождается , поскольку сеть постоянно меняется. Важно понимать, что мы можем запечатлеть фрагменты, сохранить главное и создать более надёжную цифровую память, менее подверженную технологическим изменениям или решениям нескольких компаний или правительств.

(*) Профессор кафедры компьютерных наук Университета Овьедо.

(**) Это некоммерческая организация, стремящаяся делиться идеями и научными знаниями с общественностью. Данная статья воспроизводится здесь по лицензии Creative Commons.

Четыре из десяти сайтов 2013 года больше не существуют.

1 января интернету в его нынешнем виде исполнилось 42 года. За эти четыре десятилетия пользователи накопили в сети огромный объём информации: только в 2023 году объём данных составил 120 зеттабайт (ЗБ), а в этом году, согласно данным Statista, ожидается, что этот показатель увеличится на 150%, достигнув 181 ЗБ. Для сравнения: один ЗБ эквивалентен миллиарду терабайт (ТБ), а самые большие карты памяти типа SDUC, представленные сегодня на рынке, достигают объёма всего 128 ТБ.

Однако то, что выложено в сеть, не всегда хранится долго. Вы, вероятно, не раз нажимали на ссылку и получали сообщение «404 Not Found», которое не перенаправляло вас на нужный сайт. В отчёте Pew Research Center за 2024 год говорится, что часть цифрового контента со временем теряется, даже на сайтах, считающихся надёжными, таких как правительственные порталы, новостные агентства, социальные сети и Википедия.

«Интернет — невероятно обширное хранилище современной жизни, с сотнями миллиардов проиндексированных веб-страниц. Но пока пользователи по всему миру обращаются к интернету за книгами, изображениями, новостями и другими ресурсами, этот контент иногда исчезает», — говорится в документе.

В исследовании была проанализирована выборка из почти миллиона веб-страниц, сохранённых в период с 2013 по 2023 год с помощью Common Crawl — архива, который периодически собирает «снимки» интернета в разные моменты времени. Результаты показали, что 25% всех проанализированных страниц к октябрю 2023 года стали недоступны. В разбивке по категориям это число включает 16% страниц, которые были недоступны, но были созданы на основном домене, который всё ещё был активен, и 9% веб-сайтов, которые были недоступны из-за прекращения работы их корневого домена.

Анализ также показал, что чем старше страница, тем выше вероятность ее исчезновения: из образцов, собранных в 2013 году, 38% уже не были доступны к 2023 году ; но даже из страниц, собранных в 2021 году, примерно каждая пятая уже не могла использоваться два года спустя.

Цифровая деградация затрагивает не только личные страницы или сайты с низкой посещаемостью. Исследовательский центр Пью проанализировал 500 000 веб-страниц местных, региональных и федеральных органов власти США, используя обзор Common Crawl за март/апрель 2023 года, и обнаружил, что к октябрю 2023 года 21% этих страниц содержали как минимум одну неработающую ссылку, а 16% ссылок на веб-страницах перенаправляли на URL-адреса, отличные от тех, на которые они изначально указывали.

Для новостных агентств выборка также включала 500 000 страниц из обзора Common Crawl за март/апрель 2023 года. Страницы были взяты с 2063 веб-сайтов, классифицированных компанией comScore, занимающейся оценкой аудитории, как «Новости/Информация». На момент исследования, в октябре 2023 года, 23% страниц имели неработающие ссылки.

Даже у Википедии, одного из самых посещаемых сайтов в мире, есть эта проблема: из выборки в 50 000 ее англоязычных страниц, 54% имели в разделе «Ссылки» по крайней мере одну ссылку, которая перенаправляла на страницу, которая больше не существует.