Веб-архивирование - Web archiving
Веб-архивирование это процесс сбора порций Всемирная паутина чтобы гарантировать, что информация сохранился в архив для будущих исследователей, историков и общественности.[1] Веб-архивисты обычно используют поисковые роботы для автоматического захвата из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, использующей метод массового сканирования, является Wayback Machine, который стремится поддерживать архив всего Интернета.
Растущая часть человеческой культуры, создаваемой и записываемой в Интернете, неизбежно приводит к тому, что все больше и больше библиотек и архивов будут вынуждены сталкиваться с проблемами веб-архивирования.[2] Национальные библиотеки, национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно важного веб-контента.
Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать свой собственный веб-контент для корпоративного наследия, нормативных или юридических целей.
История и развитие
В то время как курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был проект Интернет-архив, некоммерческая организация, созданная Брюстер Кале в 1996 г.[3] Интернет-архив выпустил собственную поисковую систему для просмотра заархивированного веб-контента, Wayback Machine, в 2001.[3] По состоянию на 2018 год в Интернет-архиве было 40 петабайт данных.[4] Интернет-архив также разработал множество собственных инструментов для сбора и хранения данных, в том числе Petabox для эффективного и безопасного хранения больших объемов данных и Hertrix, поисковый робот, разработанный совместно с национальными библиотеками Скандинавии.[3] Другие проекты, запущенные примерно в то же время, включали австралийский Пандора и тасманские веб-архивы и шведская Kulturarw3.[5]
С 2001 г. к 2010 г.,[неудачная проверка ] Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями.[6][7] В Международный консорциум сохранения Интернета (IIPC), созданная в 2003 году, способствовала международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов.[8]
Ныне несуществующий Фонд Интернет-памяти была основана в 2004 году и основана Европейская комиссия для того, чтобы заархивировать Интернет в Европе.[3] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «захват мультимедийных данных, анализ временной когерентности, оценка спама и обнаружение эволюции терминологии».[3] Данные фонда сейчас хранятся в Интернет-архиве, но не являются общедоступными.[9]
Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальным рекордом. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления.[10]
Сбор сети
Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML веб-страница, таблицы стилей, JavaScript, картинки, и видео. Они также архивируют метаданные о собранных ресурсах, таких как время доступа, Тип MIME и длина содержимого. Эти метаданные полезны при установлении подлинность и происхождение архивной коллекции.
Методы сбора
Удаленный сбор урожая
Наиболее распространенный метод веб-архивирования: поисковые роботы автоматизировать процесс сбора веб-страница. Поисковые роботы обычно обращаются к веб-страницам таким же образом, как пользователи с браузером видят сеть, и поэтому предоставляют сравнительно простой метод удаленного сбора веб-контента. Примеры веб-сканеров, используемых для веб-архивирования:
Существуют различные бесплатные сервисы, которые можно использовать для архивации веб-ресурсов «по запросу» с использованием методов веб-сканирования. Эти услуги включают Wayback Machine и WebCite.
Архивирование базы данных
Архивирование базы данных относится к методам архивирования основного контента веб-сайтов, управляемых базами данных. Обычно требуется извлечение база данных содержание в стандарт схема, часто используя XML. После сохранения в этом стандартном формате заархивированное содержимое нескольких баз данных можно сделать доступным с помощью единой системы доступа. Примером такого подхода является DeepArc и Xinq инструменты, разработанные Bibliothèque Nationale de France и Национальная библиотека Австралии соответственно. DeepArc позволяет структурировать реляционная база данных быть сопоставленным с Схема XML, и содержимое экспортировано в документ XML. Затем Xinq позволяет доставлять этот контент онлайн. Хотя исходный макет и поведение веб-сайта не могут быть точно сохранены, Xinq позволяет воспроизвести базовые функции запросов и извлечения.
Транзакционное архивирование
Архивирование транзакций - это управляемый событиями подход, который собирает фактические транзакции, которые происходят между веб сервер и веб-браузер. Он в основном используется как средство сохранения доказательств того, что контент действительно просматривался на конкретном интернет сайт, в заданную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования в отношении раскрытия и хранения информации.
Система транзакционного архивирования обычно работает путем перехвата каждого HTTP запрос и ответ от веб-сервера, фильтрация каждого ответа для устранения дублированного контента и постоянное сохранение ответов в виде битовых потоков.
Трудности и ограничения
Краулеры
Веб-архивы, которые полагаются на сканирование в качестве основного средства сбора данных в Интернете, подвержены влиянию трудностей сканирования в Интернете:
- В протокол исключения роботов может запросить у сканеров запретить доступ к частям веб-сайта. Некоторые веб-архивисты могут игнорировать запрос и сканировать эти части в любом случае.
- Большие части веб-сайта могут быть скрыты в Глубокая паутина. Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
- Гусеничные ловушки (например, календари) могут привести к тому, что сканер загрузит бесконечное количество страниц, поэтому поисковые роботы обычно настраиваются так, чтобы ограничивать количество просматриваемых динамических страниц.
- Большинство инструментов архивирования не захватывают страницу как она есть. Замечено, что при архивировании часто упускаются рекламные баннеры и изображения.
Однако важно отметить, что веб-архив в собственном формате, т. Е. Полностью просматриваемый веб-архив с рабочими ссылками, носителями и т. Д., Действительно возможен только с использованием технологии поисковых роботов.
Интернет настолько велик, что сканирование значительной его части требует большого количества технических ресурсов. Сеть меняется так быстро, что части веб-сайта могут измениться еще до того, как поисковый робот завершит сканирование.
Общие ограничения
Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора страницы, отличные от тех, которые они делали бы в ответ на обычные запросы браузера.[11] Обычно это делается для того, чтобы обмануть поисковые системы, заставляя их направлять больше пользовательского трафика на веб-сайт, и часто делается, чтобы избежать ответственности или предоставить расширенный контент только тем браузерам, которые могут его отображать.
Веб-архивисты должны не только решать технические проблемы веб-архивирования, они также должны бороться с законами об интеллектуальной собственности. Питер Лайман[12] заявляет, что «хотя Интернет обычно считается всеобщее достояние ресурс, это защищенный авторским правом; таким образом, архивисты не имеют законного права копировать Интернет ». Однако национальные библиотеки в некоторых странах[13] имеют законное право копировать части Интернета под расширением обязательный депозит.
Некоторые частные некоммерческие веб-архивы, которые являются общедоступными, например WebCite, то Интернет-архив или Фонд Интернет-памяти разрешить владельцам контента скрывать или удалять заархивированный контент, к которому они не хотят, чтобы у общественности был доступ. Другие веб-архивы доступны только из определенных мест или имеют регулируемое использование. WebCite цитирует недавний иск против кеширования Google, который Google выиграл.[14]
Законы
В 2017 г. Financial Industry Regulatory Authority, Inc. (FINRA), финансовая регулирующая организация США, выпустила уведомление, в котором говорится, что все компании, занимающиеся цифровой связью, обязаны вести учет. Сюда входят данные веб-сайтов, сообщения в социальных сетях и сообщения.[15] Немного законы об авторском праве может препятствовать архивированию в Интернете. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к академическим работам, в том числе к тем, которые не имеют открытый доступ лицензию и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны.[16][17]
Смотрите также
- Архив сайта
- Архивная команда
- archive.today (ранее archive.is)
- Коллективная память
- Обычное сканирование
- Цифровое сохранение
- Google Cache
- Список инициатив веб-архивирования
- Memento Project
- Инициатива Минервы
- Зеркало сайта
- Национальная программа по инфраструктуре и сохранению цифровой информации (НДИИПП)
- Национальная программа цифровой библиотеки (НДЛП)
- PADICAT
- PageFreezer
- Архив Пандоры
- Веб-архив Великобритании
- Виртуальный артефакт
- Wayback Machine
- Веб-сканирование
- WebCite
Рекомендации
Цитаты
- ^ Habibzadeh, P .; Sciences, Schattauer GmbH - Publishers for Medicine and Natural (1 января 2013 г.). «Уменьшение количества ссылок на веб-сайты в статьях, опубликованных в общих медицинских журналах: основные против небольших журналов». Прикладная клиническая информатика. 4 (4): 455–464. Дои:10.4338 / aci-2013-07-ra-0055. ЧВК 3885908. PMID 24454575.
- ^ "Трумэн, Гейл. 2016. Сканирование окружающей среды веб-архива. Отчет Гарвардской библиотеки". Гейл Трумэн. 2016 г. Цитировать журнал требует
| журнал =
(Помогите) - ^ а б c d е Toyoda, M .; Кицурегава, М. (май 2012 г.). «История веб-архивирования». Труды IEEE. 100 (Специальный выпуск к столетию): 1441–1443. Дои:10.1109 / JPROC.2012.2189920. ISSN 0018-9219.
- ^ «Внутри Wayback Machine, капсулы времени Интернета». Суета. 28 сентября 2018 г. сек. Уйыы назад. Получено 21 июля, 2020.
- ^ Коста, Мигель; Гомеш, Даниэль; Сильва, Марио Дж. (Сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал электронных библиотек. 18 (3): 191–205. Дои:10.1007 / s00799-016-0171-9. ISSN 1432-5012.[требуется проверка ]
- ^ «IWAW 2010: 10-й международный семинар по веб-архивированию». www.wikicfp.com. Получено 19 августа, 2019.
- ^ «IWAW - Международные семинары по веб-архивированию». bibnum.bnf.fr. Получено 19 августа, 2019.
- ^ «О IIPC». IIPC. Получено 19 августа, 2019.[требуется проверка ]
- ^ «Internet Memory Foundation: бесплатный Интернет: бесплатное скачивание, заимствование и потоковая передача». archive.org. Интернет-архив. Получено 21 июля, 2020.
- ^ Регис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз». History Associates. Получено 14 июля, 2019.
- ^ Хабибзаде, Пархам (30 июля 2015 г.). "Достаточно ли надежны существующие системы архивирования?". Международный журнал урогинекологии. 26 (10): 1553. Дои:10.1007 / s00192-015-2805-7. ISSN 0937-3462. PMID 26224384.
- ^ Лайман (2002)
- ^ "Обязательный депозит | IIPC". netpreserve.org. В архиве из оригинала 16 марта 2017 г.. Получено 31 января, 2017.
- ^ "Часто задаваемые вопросы о WebCite". Webcitation.org. Получено 20 сентября, 2018.
- ^ «Социальные сети и цифровые коммуникации» (PDF). finra.org. FINRA.
- ^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из Интернета, Интернет-архив готов заполнить пробелы». Реестр.
- ^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (3 сентября 2020 г.). «Открытость не вечна: исследование исчезнувших журналов открытого доступа». arXiv: 2008.11933 [cs]. Получено 11 октября, 2020. Текст и изображения доступны под Международная лицензия Creative Commons Attribution 4.0.
Общая библиография
- Браун, А. (2006). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией. Лондон: Facet Publishing. ISBN 978-1-85604-553-7.
- Брюггер, Н. (2005). Архивирование сайтов. Общие соображения и стратегии. Орхус: Центр интернет-исследований. ISBN 978-87-990507-0-3. Архивировано из оригинал 29 января 2009 г.
- Дэй, М. (2003). «Сохранение ткани нашей жизни: обзор инициатив по сохранению Интернета» (PDF). Исследования и передовые технологии для электронных библиотек: материалы 7-й Европейской конференции (ECDL). Конспект лекций по информатике. 2769: 461–472. Дои:10.1007/978-3-540-45175-4_42. ISBN 978-3-540-40726-3.
- Айзенбах, Г. и Трудель, М. (2005). «Идет, идет, все еще там: использование службы WebCite для постоянного архивирования цитируемых веб-страниц». Журнал медицинских интернет-исследований. 7 (5): e60. Дои:10.2196 / jmir.7.5.e60. ЧВК 1550686. PMID 16403724.
- Фитч, Кент (2003). «Архивирование веб-сайта - подход к записи каждого существенно отличающегося ответа, производимого веб-сайтом». Ausweb 03. Архивировано из оригинал 20 июля 2003 г.. Получено 27 сентября, 2006.
- Джейкоби, Роберт (19 августа 2010 г.). «Архивирование веб-страницы». Архивировано из оригинал 3 января 2011 г.. Получено 23 октября, 2010.
- Лайман, П. (2002). «Архивирование всемирной паутины». Создание национальной стратегии сохранения: проблемы архивирования цифровых медиа.
- Масанес, Дж.), Изд. (2006). Веб-архивирование. Берлин: Springer-Verlag. ISBN 978-3-540-23338-1.
- Пеннок, Морин (2013). Веб-архивирование. Отчеты о наблюдении за технологиями DPC. Великобритания: Коалиция цифрового сохранения. Дои:10.7207 / twr13-01. ISSN 2048-7916.
- Тойода, М., Китсурегава, М. (2012). «История веб-архивирования». Труды IEEE. 100 (специальный столетний выпуск): 1441–1443. Дои:10.1109 / JPROC.2012.2189920.CS1 maint: использует параметр авторов (ссылка на сайт)
внешняя ссылка
В этом разделе использование внешняя ссылка может не следовать политикам или рекомендациям Википедии.Март 2014 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Библиотечные ресурсы около Веб-архивирование |
- Международный консорциум сохранения Интернета (IIPC) —Международный консорциум, миссия которого состоит в том, чтобы приобретать, сохранять и делать доступными знания и информацию из Интернета для будущих поколений.
- Международный семинар по веб-архивированию (IWAW) - Ежегодный семинар по архивированию в Интернете.
- Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
- Библиотека Конгресса - Интернет-архив
- Библиография веб-архивирования —Долгий список ресурсов для веб-архивирования
- «На пути к непрерывному веб-архивированию» —Жюльен Масанес, Национальная библиотека Франции
- Сравнение сервисов веб-архивирования
- Список блогов о веб-архивировании, 2015