Интернет-архив достиг триллиона веб-страниц: историческая веха в цифровом сохранении

США - Информационное агентство Эхбари

Интернет-архив достиг триллиона веб-страниц: историческая веха в цифровом сохранении

В знаковом достижении, подчеркивающем его важнейшую роль в сохранении цифровой истории, Интернет-архив объявил об успешном архивировании своей триллионной веб-страницы. Эта монументальная веха, достигнутая после почти трех десятилетий неустанных усилий, знаменует собой важный момент в продолжающейся миссии цифрового сохранения. Интернет-архив, некоммерческая организация, стал незаменимым ресурсом для исследователей, историков и общественности, стремясь сохранить обширный и постоянно меняющийся ландшафт Всемирной паутины.

Интернет, будучи неотъемлемой частью современной жизни, всегда характеризовался своей присущей непостоянностью. Цифровой контент прискорбно эфемерный, исчезающий без следа, если его активно не поддерживать. Ярким напоминанием об этой хрупкости стало событие 2019 года, когда MySpace, некогда доминирующая платформа социальных сетей, сообщила, что случайная ошибка при миграции серверов привела к безвозвратной потере пользовательских загрузок за период с 2003 по 2015 год. Этот инцидент привел к исчезновению примерно 50 миллионов песен от 14 миллионов артистов, подчеркнув критическую потребность в надежных решениях для архивирования.

Читайте также

Именно таких потерь стремится избежать Интернет-архив. С момента своего основания в 1996 году организация посвятила себя созданию "постоянной записи эволюции Интернета". Эта миссия в основном осуществляется с помощью сложных веб-краулеров, которые систематически захватывают и сохраняют общедоступные веб-сайты. В дополнение к этому автоматизированному процессу, преданное сообщество волонтеров вносит свой вклад, загружая широкий спектр материалов, включая оцифрованные печатные публикации, редкие музыкальные и аудиозаписи, а также различные другие медиаформаты. За свою почти 30-летнюю историю Архив собрал поразительную коллекцию, превышающую 866 миллиардов веб-страниц, 41 миллион текстов и миллионы других цифровых активов. Масштаб этого предприятия еще более подчеркивается ежедневным добавлением примерно 500 миллионов новых веб-сайтов, что составляет около 100 000 терабайт данных – емкость хранения, эквивалентная заполнению 50 000 iPhone самой большой емкости, доступных в настоящее время.

Несмотря на свою незаменимую ценность для ученых, журналистов, архивистов и любопытных посетителей, Интернет-архив сталкивается с растущим давлением. Быстрая эволюция Интернета и появление мощных технологий искусственного интеллекта представляют новые вызовы. Технологические компании, в своей гонке за обучение больших языковых моделей (LLM), все чаще сканируют Интернет в поисках огромных наборов данных. Этот сбор данных часто происходит в юридически неоднозначных обстоятельствах. В результате несколько крупных медиаорганизаций, включая The New York Times, The Guardian и USA Today/Gannett, начали ограничивать доступ к своему новейшему контенту, стремясь защитить его от поглощения системами генеративного ИИ без четких рамок для компенсации или атрибуции.

Хотя опасения создателей контента относительно компенсации и интеллектуальной собственности являются обоснованными, особенно в отсутствие установленных правовых и финансовых структур, эта тенденция представляет собой значительную угрозу для сохранения того, что, возможно, является самой хрупкой и жизненно важной информационной экосистемой в истории человечества. Остается надежда, что все заинтересованные стороны смогут наладить конструктивный диалог для установления справедливых практик, гарантируя, что Интернет-архив сможет продолжать свою жизненно важную работу и потенциально достичь своего второго триллионного рубежа сохранения и далее. Долгосрочные последствия цифрового сохранения глубоки, влияя на будущий доступ к знаниям, культурной памяти и историческому пониманию.

Интернет-архив достиг триллиона веб-страниц: историческая веха в цифровом сохранении

Некоммерческая организация отмечает историческое достижение

Интернет-архив достиг триллиона веб-страниц: историческая веха в цифровом сохранении

Читайте также

Похожие новости

Похожие новости

Переосмысление орбитального мусора: от статистического подхода к дозовому для космической безопасности

Новая теория исследования атмосфер экзопланет усиливает поиск жизни

Сигналы от инопланетян могли достичь нас в прошлом незамеченными, но новое исследование считает это маловероятным

Экзолуны могут обнаружить себя через лунные затмения

Поиск

Последние новости

Европа ускоряет прогресс в освоении космоса благодаря испытаниям многоразовых ракет-носителей

Инженерия EarthDaily: Достижение Ежедневного Глобального Охвата, Научного Качества и Высокого Спектрального Разнообразия

Переосмысление орбитального мусора: от статистического подхода к дозовому для космической безопасности

Momentus готовится к ключевой миссии Vigoride 7, развивая орбитальные услуги

Космическая комиссия Техаса завершает выделение $150 млн и готовится к более крупному второму раунду финансирования

Израильский стартап нацелился на экономику наблюдения Земли высокого разрешения

Немецкий оборонный гигант Rheinmetall рассматривает возможность покупки компании Mynaric, специализирующейся на лазерной связи

NASA готовится к возвращению Artemis 2 для устранения проблемы верхней ступени

Бруно заявил, что присоединился к Blue Origin для работы над «срочными» проектами национальной безопасности

Aalto планирует создать базу в Австралии для усиления сервиса псевдоспутников

NASA нацелилась на 6 марта для запуска "Артемиды-2" после успешных испытаний

Boeing наращивает производство датчиков слежения за ракетами для военных спутников

Самые читаемые