Wayback machine официальный сайт: Internet Archive: Wayback Machine

история проекта, и том как использовать архив веб-страниц

Веб-архив сайтов (The Wayback Machine): история проекта, и том как использовать архив веб-страниц

Подробная информация о сервисе

История интернет архива, описание проекта, награды и блокировка

The Wayback Machine — это архив интернета (Internet Archive). По сути это некоммерческая организация, которая была основана в 1996 году. Задачей данной организации является сбор и хранение всевозможной публичной информации собранной из интернета: веб-страницы, электронные книги, фото- и, видео материалы. Основные сервера расположены в Сан-Франциско. Размер архива на февраль 2017 года составляет 13 петабайт и включает в себя 525 миллиардов копий веб-страниц.

Краткая история Archive.org

Основателем является Брюстер Кейл, который основал организацию в 1996 году. В том же оду начал процесс по архивации веб страниц. Проект назывался Wayback Machine. По сей день сохраненные копии доступны любому пользователю посетившему сайт.

Расширение организации в 1999 году, ознаменовалось хранением не только веб-страниц, но и видео, аудио, изображения и даже программное обеспечение.

Основные направления работы

Archive.org имеется два основных проекта

В интернете не существует аналогов данному проекту. База архива собиралась в общей сложности около 20 лет. При этом, можно смело заявить что проект является волантерским.

The Wayback Machine

Работает с 1996 года

Веб-сервис по сбору и хранению веб-страниц сайтов со всем их содержимым.

Фиксирует копии специальный робот. Результатом работы является возможность просмотра сайтов которых уже не существует, или не поддерживаются.

Open Library

Работает с 2005 года

Это общественный проект по сканированию всех книг в по всему миру. Проект имеет 13 центров оцифровки оцифровки книг в крупных библиотеках. Архив книг насчитывает более 1, миллионов книг, и коллекция постоянно растет.

Проблемы на законодательном уровне

На сервис не единожды подавались иски в суд за нарушение авторских прав. Поэтому по требованию правообладателей архив удаляет из публичного доступа соответствующие материалы.

Мануал: как пользоваться сайтом archive.org?

Открываем сайт по адресу — https://archive.

org. В поле сверху вводим доменное имя. Если сайт найден, то вы увидите в первом блоке выбор года и ниже месяцы и годы. Кликнув на определенную дату, Вам откроется сохраненная копия которую вы можете просмотреть перейдя по внутренним ссылкам.

Как найти нужный сайт и восстановить копию из веб-архива?

Чтобы скачать страницы сайта, Вам необходимо использовать специализированные сервисы или соответствующее программное обеспечение. В открытом доступе такого программного обеспечения нет. Мы предлагаем Вам воспользоваться услугами сервиса — WEBARCHIVEORG.RU.

Почему именно мы?

Восстановленный сайт будет работать на простом движке. По качеству нет аналогов. Неограниченное количество страниц за фиксированную цену. Адекватная служба поддержки.

Инструкция по настройке https, и редиректа www на нашей платформе

Как настроить редиректы http и www на восстановленном из веб-архива сайте? Подробнее об этом читайте. ..

Как установить счетчики, почистить и сделать замену участков кода?

Рассматриваем на примерах как самостоятельно отредактировать максимальное количество страниц с миним…

Руководство по установке сайта на ISPManager

Если на вашем хостинге установлена панель ISPManager, то данная инструкция поможет вам установить во…

Archivarix — Wayback Machine Downloader альтернативы и похожие программы

Загрузчик архива Wayway Machine онлайн — это сервис для воссоздания веб-сайтов с Wayback Machine web.archive.org
— Загрузка и обработка контента происходит на нашем сервере. Вам не нужно тратить на это время, мы вышлем вам готовый zip-архив со всем сайтом.
— Восстановленные файлы с текстом (html, css, js) находятся в отдельной папке, чтобы упростить поиск и замену. Внутренняя связь восстанавливается с помощью mod_rewrite в .htaccess

— Вы получаете готовый и работоспособный веб-сайт, который не содержит 404 страниц, неработающие изображения, внешние ссылки, скрипты и другой мусор, который не работает. Все битые файлы заменяются на фиктивные, которые вы можете редактировать. Все баннеры, счетчики и другие внешние скрипты удаляются с помощью базы данных AdBlock.
— И что самое важное, наш сервис оптимизирует восстановленный контент в соответствии с рекомендациями разработчиков Google. Файлы изображений сжимаются, и из них удаляются все файлы EXIF. Наш скрипт удаляет комментарии из html, оптимизирует css и js и делает намного больше, чтобы сделать сайт лучше, чем был.

Ссылки на официальные сайты

Официальный сайт      Twitter      Facebook

Теги

wayback-machine-downloader wayback-machine internet-archive archives archive. org

Официальный сайт

  • Wayback Machine Downloader by WebsiteDownloader.io

    Wayback Machine Downloader позволяет загружать веб-сайты с archive.org на локальный жесткий диск вашего компьютера. Wayback Downloader упорядочивает загруженный сайт по исходной ссылочной структуре сайтов. Загруженный веб-сайт можно просмотреть, отк…

    Бесплатно Web

    Сохранить веб-страницу для автономного использования

  • Wayback Machine Downloader by Harator

    wayback-machine-downloader — загрузите весь сайт с Wayback Machine. Он загрузит последнюю версию каждого файла, представленного на Wayback Machine, на ./websites/example.com/. Он также заново создаст структуру каталогов и автоматически создаст стран…

    Открытый исходный код Бесплатно Ruby Linux Windows

    0

  • Wayback Machine Downloader by wayback2hosting

    Что такое веб-архив? Веб-архив представляет собой всеобъемлющую резервную копию сети, которая выглядит так, как в разные периоды времени. Задача веб-архива состоит в том, чтобы хранить Интернет целиком в разные моменты времени в течение последних 15…

    Платно Web

    0

[email protected]

Как восстановить ваш контент с Wayback Machine (Интернет-архив)

Обновлено Джоном-Полем Брионесом 16 мая 2022 г.

2 минуты 45 секунд на чтение

задача восстановления содержимого. Мы всегда рекомендуем делать регулярные резервные копии вашего сайта, но если они недоступны, у вас есть другой вариант.

Интернет-архив, также известный как Wayback Machine, периодически делает снимки многих сайтов в Интернете и может иметь копию вашего сайта. Итак, продолжайте, и мы научим вас, как искать архивы и восстановить ваш контент с Wayback Machine . Затем вы можете использовать эти части, чтобы восстановить свой сайт с нуля.

Создаете новый сайт? Мы рекомендуем использовать WordPress с BoldGrid. Он очень прост в использовании и включен в наши пакеты хостинга WordPress.

Поиск в архивах

  1. Посетите Wayback Machine по адресу https://archive.org/web.
  2. Введите свой веб-адрес в поле поиска, затем нажмите кнопку Browse History . В нем будет указано, сколько раз ваш сайт был сохранен за определенный период времени. Например:
    » Сохранено 34 раза в период с 9 ноября 2008 г. по 28 мая 2019 г. »
  3. Вы также увидите временную шкалу и календарь. Нажмите на год , чтобы узнать, когда ваш сайт был заархивирован.
  4. Щелкните дату в календаре, чтобы просмотреть моментальный снимок того, что было сохранено. Вы можете попробовать перемещаться по сайту, чтобы просмотреть любой доступный контент. Имейте в виду, что он может не выглядеть точно так же, как ваш сайт, поскольку это зависит от того, что было заархивировано в то время.
  5. Рекомендую проверять каждые год и дата , чтобы убедиться, что вы найдете все содержимое.

Копирование содержимого вручную

Теперь, когда вы знаете, как искать и находить снимки своего веб-сайта, вы можете копировать текст и изображения на свой компьютер.

  1. Перейдите на каждую страницу сайта и скопируйте текст, затем вставьте его в текстовый редактор, такой как Notepad , Google Docs или MS Word .
  2. Посетите каждую страницу Интернет-архива, затем щелкните правой кнопкой мыши и сохраните любые изображения, которые вы хотите восстановить, в папку на вашем компьютере.
  3. В некоторых случаях вы можете восстановить часть кода веб-сайта. Щелкните правой кнопкой мыши , затем выберите Просмотреть исходный код страницы , чтобы получить доступ к коду сайта. Сохраните его в текстовом редакторе для дальнейшего использования.

Очистка содержимого интернет-архива

Если у вас нет времени вручную копировать каждую страницу восстанавливаемого веб-сайта, другой вариант — извлечь или очистить все содержимое сайта с помощью сценария. Ниже приведены некоторые из наиболее популярных доступных вариантов. Имейте в виду, что они часто кодируются третьими сторонами или отдельными лицами и могут потребовать тестирования и устранения неполадок, чтобы они работали успешно.

  • Wayback Scraper
  • Wayback Machine Scraper
  • Hartator Wayback Machine Downloader (Ruby)

Сторонние услуги

Хотите сэкономить время? Вы можете заплатить стороннему сервису за очистку и восстановление вашего веб-сайта. Некоторые даже восстанавливают контент из CMS, таких как WordPress. Цены и объем услуг будут различаться в зависимости от сайта, поэтому мы рекомендуем проверить и сравнить их, чтобы увидеть, какой из них лучше всего соответствует вашим потребностям.

  • Загрузчик Wayback
  • Загрузчик Wayback Machine
  • Archivarix

Теперь, когда вы знаете, как найти и восстановить содержимое веб-сайта с Wayback Machine (Интернет-архив), вы можете приступить к восстановлению своего сайта. Надеюсь, ваш сайт вернет былую славу с помощью архивной копии. Мы рекомендуем заархивировать ваш веб-сайт с помощью Wayback Machine, чтобы у вас были обновленные снимки.

Джон-Пол Брионес Автор контента II

Джон-Пол — инженер-электронщик, который большую часть своей карьеры посвятил ИТ. Он был техническим писателем InMotion с 2013 года.

Другие статьи Джона-Пола


Какую часть Интернета действительно архивирует Wayback Machine?

Интернет-архиву в следующем году исполняется 20 лет, в нем хранится почти два десятилетия и 23 петабайта информации об эволюции Всемирной паутины. Тем не менее, на удивление мало известно о том, что именно находится в хваленой Wayback Machine Архива. Помимо того, что он заархивировал более 445 миллиардов веб-страниц, Архив никогда не публиковал список архивируемых веб-сайтов или алгоритмов, которые он использует для определения того, что и когда следует захватывать. Учитывая недавние заявления Архива о новых попытках сделать свой веб-архив доступным для научных исследований, крайне важно понять, что именно составляет этот 445-миллиардный архив страниц и как этот состав может повлиять на виды исследований, которые ученые могут проводить с ним. .

Постоянные пользователи Wayback Machine знакомы с бесчисленными странностями ее владений. Например, несмотря на то, что CNN.com был запущен в сентябре 1995 г., первый снимок домашней страницы Архива появился только в июне 2000 г. Напротив, веб-сайт BBC был заархивирован с декабря 1996 г., но количество снимков то убывало, то убывало. 2012. Чтобы по-настоящему понять Архив, очевидно, что мы должны перейти от случайных анекдотов к систематической оценке фондов коллекции.

Поскольку Архив не публикует основной перечень доменов, сохраненных в Wayback Machine, был использован рейтинг Alexa одного миллиона самых популярных веб-сайтов в мире, составленный на основе активности просмотра в более чем 70 странах. Полная история всех моментальных снимков, когда-либо записанных Архивом для домашней страницы каждого веб-сайта, была запрошена с помощью API-интерфейса Wayback CDX Server до 5 ноября 2015 г. Хотя это отражает только моментальные снимки домашних страниц, а не сайтов в целом, ключевой показатель того, как часто Архив сканирует каждый сайт.

В этих данных можно увидеть огромные технические ресурсы, необходимые для сканирования и архивирования открытой сети. В целом, с 1996 года Интернет-архив сделал снимки домашних страниц одного миллиона самых популярных сайтов Alexa чуть более 240 миллионов раз. Для загрузки этих домашних страниц потребовалось чуть более 2 терабайт пропускной способности, при этом только в 2015 году потребовалось более 307 гигабайт.

Если посмотреть на 2015 год, то топ-15 сайтов с наибольшим количеством снимков были seriesyonkis.sx (испанский сайт, предлагающий бесплатный доступ к телевидению и фильмам, который Chrome в настоящее время блокирует из-за угроз безопасности и который ранее был закрыт из-за предполагаемого пиратства фильмов), avtozapchasty.ru (российский сайт автозапчастей), savy.lt (литовский сайт кредитов), videox-amateur.org (порнографический сайт), most.bg (болгарский сайт компьютерных запчастей), fastpic.ru (российский хостинг изображений). сайт, на котором размещено большое количество порнографии), royalkona.com (гавайский курортный отель), trampolinepartsandsupply.com (веб-сайт запчастей для батутов), radikal.ru (еще один российский сайт для размещения изображений), youtube.com, zohraa.com (индийский сайт женской моды), arcelikal.com (турецкий веб-сайт бытовой техники и электроники), localiser-ip. com (поиск IP-адресов whois), jobsalibaba.com (веб-сайт онлайн-вакансий) и myspace.com.

Таким образом, из 15 лучших веб-сайтов с наибольшим количеством снимков, сделанных Архивом в этом году, один является предполагаемым бывшим пиратским сайтом фильмов, один — гавайским отелем, два — порнографическими сайтами и пять — сайтами онлайн-покупок. На втором месте по популярности — веб-сайт российских автозапчастей, а на восьмом — сайт поставщика запчастей для батутов.

При более подробном рассмотрении архива Wayback на сайте литовских кредитов savy.lt видно, что с 19 января Архив периодически сканировал сайт.99 по май 2003 г., после чего не возвращался более десяти лет. В 2015 году он сильно обползал его в конце марта и апреле, затем очень сильно в мае и июне, несколько раз 1 июля и ни разу в последующие четыре месяца. В общей сложности поисковые роботы Архива обращались к savy.lt в общей сложности 203 945 раз за этот период, в основном за один массивный цикл сканирования. Тем не менее, общедоступный профиль Wayback сайта утверждает, что он был просканирован всего 868 раз.

Причина этого в том, что общедоступный веб-сайт Wayback сообщает о количестве часов, в течение которых был сделан хотя бы один снимок, а не о фактическом общем количестве снимков, поэтому он сообщает максимум о 24 снимках в день, а не о тысячи захватов в день, которые он фактически видит для некоторых веб-сайтов. К сожалению, Архив не разъясняет это на своем веб-сайте, вместо этого небрежно ссылаясь на него в технической документации для своего API сервера CDX на GitHub.

Переранжирование одного миллиона лучших сайтов по количеству часов с хотя бы одним снимком за этот час и вычисление процента часов с 00:01 1 января 2015 года, с которого есть снимок, 15 лучших сайтов — это myspace.com ( 93%), yahoo.com (86%), cnn.com (80%), youtube.com (78%), msn.com (76%), twitter.com (76%), facebook.com (72% ), msnbc.com (70%), abcnews.go.com (70%), today.com (69%), nbcnews.com (67%), cbsnews.com (65%), infoseek.co.jp ( 65%), cnbc.com (63%) и tinypic.com (58%). Девять из 15 лучших веб-сайтов по почасовым снимкам являются новостными веб-сайтами, предлагающими более разумный рейтинг. Действительно, новостные веб-сайты составляют многие из доменов в топ-509.0003

Тем не менее, более пристальный взгляд на этот рейтинг также обнаруживает ряд аномалий. Сайт walb.com имеет рейтинг Alexa 100 803, но при этом занимает 24-е место по количеству часов со снимками, в то время как mountvernonnews.com занимает 363 013 место в Alexa и 43-е место по количеству часов снимков. Похоже, это общая тенденция, без заметной связи между рейтингом Alexa и количеством снимков домашней страницы веб-сайта или часов.

На самом деле общее количество снимков и общее количество часов хотя бы с одним снимком слабо коррелируют при r=0,35. Рейтинг Alexa и количество снимков не имеют значимой корреляции при r = -0,03, в то время как рейтинг Alexa и количество отдельных часов со снимками имеют обратную корреляцию при r = -0,15. Проще говоря, эти цифры означают, что количество снимков и количество часов с хотя бы одним снимком в значительной степени не связаны с его рейтингом Alexa. У более популярных сайтов не больше моментальных снимков, чем у менее популярных. С одной стороны, это может иметь смысл, поскольку популярность сайта не обязательно указывает на то, как часто он обновляется. Тем не менее, в Интернете около 2015 года очень популярные сайты, как правило, постоянно обновляются новым контентом — сайт, который обновляется раз в несколько лет, скорее всего, будет привлекать мало трафика. Таким образом, можно утверждать, что скорость обновления контента сайта и его популярность, по крайней мере, в некоторой степени связаны.

В разные годы корреляция рейтинга Alexa с часами и снимками удивительно постоянна с 2013 по 2015 год, варьируясь от -0,15 до -0,17 для часов и от -0,03 до -0,04 для снимков. Однако корреляция между часами и снимками значительно варьируется: от 0,35 в 2015 г. до 0,29 в 2014 г., 0,46 в 2013 г. и 0,38 в 2012 г. не учитывать популярность при сканировании. С другой стороны, значительное изменение корреляции общего количества снимков с количеством часов снимков предполагает, что поведение повторного сканирования Архива постоянно меняется, что окажет глубокое влияние на исследования, использующие Архив в качестве набора данных для изучения эволюции сети.

Новостные агентства представляют собой особый тип веб-сайтов, которые сочетают в себе высокую скорость обновления нового контента и значительную общественную значимость с точки зрения архивирования. Чтобы проверить, насколько хорошо Архив сохраняет онлайн-новости, были выбраны 20 000 лучших новостных веб-сайтов по объему, отслеживаемому проектом GDELT, и определена страна происхождения для каждого источника. Общее количество часов моментальных снимков было суммировано для всех новостных агентств в каждой стране за 2013, 2014 и 2015 годы и разделено на общее количество отслеживаемых СМИ в каждой стране, что дало следующие карты среднего количества часов моментальных снимков на новостное агентство. в каждой стране по годам.

Среднее количество часов с хотя бы одним снимком по СМИ для интернет-изданий по странам в… [+] 2013 (Фото: Kalev Leetaru)

Среднее количество часов с хотя бы одним снимком по СМИ для интернет-изданий по странам в… [+] 2014 (Фото: Kalev Leetaru)

Среднее количество часов с хотя бы одним снимком по СМИ для интернет-изданий по странам в. .. [+] 2015 (Фото: Kalev Leetaru)

На этой последовательности карт отчетливо видна сильная централизация поисковых ресурсов Архива в отношении относительно небольшого числа стран с точки зрения часов снимка. В 2013 году было всего несколько выбросов, при этом в большинстве стран часы работы каждой точки были относительно одинаковыми. За три года произошла устойчивая переориентация в сторону более неравномерного распределения архивных ресурсов. Значительные географические изменения с течением времени добавляют еще одно свидетельство того, что поведение поисковых роботов Архива постоянно меняется глубокими и недокументированными способами.

В совокупности эти результаты показывают, что требуется гораздо более глубокое понимание Wayback Machine Интернет-архива, прежде чем его можно будет использовать для надежных научных исследований эволюции Интернета. Историческая документация по алгоритмам и входным данным его сканеров абсолютно необходима, особенно рабочие процессы и эвристики, которые сегодня контролируют его архивирование. Одна из возможностей заключается в том, чтобы Архив создал исторический архив, где он сохраняет каждую копию кода и рабочих процессов, приводящих в действие Wayback Machine с течением времени, что позволяет оглянуться назад на поисковые роботы с 19 года.97 и сравните их с 2007 и 2015 годами.

Более подробные данные журналов также явно необходимы, особенно в отношении тех решений, которые приводят к таким ситуациям, как чрезвычайно резкое архивирование savy.lt или почему домашняя страница CNN.com не была заархивирована. до 2000 года. Если Архив просто откроет свои двери и выпустит инструменты, позволяющие анализировать данные своего веб-архива, не проводя такого рода исследования предвзятости коллекции, ясно, что результаты, полученные в результате, будут сильно искажены и во многих случаях не соответствуют действительности. точно отражают изучаемые явления.

Чему мы можем научиться из всего этого? Возможно, самый важный урок заключается в том, что, подобно многим массивным архивам данных, которые определяют мир «больших данных», мы очень мало понимаем, что на самом деле содержится в данных, которые мы используем. Немногие исследователи останавливаются, чтобы задать такие вопросы, которые рассматриваются здесь, и еще меньшее количество архивов предоставляют какие-либо подробные статистические данные о своих владениях. Вместо этого эра «больших данных», к сожалению, все больше определяется захватывающими заголовками результатами, вычисленными на основе наборов данных, взятых с полки без особых попыток понять их внутренние предубеждения.

Еще одна тема — неожиданные открытия. Первоначально этот анализ начинался как исследование практики архивирования новостей в Интернете в Интернет-архиве с целью выяснить, чаще ли он архивирует западные СМИ, чем в других странах. Первоначально ожидалось, что фонды Архива будут отражать популярность и скорость изменений, а язык и географическое положение будут основными отличительными чертами. Однако после изучения данных стало ясно, что архивный ландшафт Wayback Machine гораздо сложнее.

Интерфейсы, которые мы используем для доступа к этим обширным архивам, часто незаметно трансформируют их способами, которые не очевидны и не задокументированы, но могут оказать глубокое влияние на наше понимание результатов, которые мы получаем от них. Например, ни домашняя страница Wayback, ни подробные ответы на часто задаваемые вопросы не информируют пользователей о том, что подсчет снимка в веб-интерфейсе сообщает о количестве отдельных часов с хотя бы одним снимком, а не о фактическом количестве обходов страницы архивом. Этот факт доступен только глубоко внутри справочной страницы технического API на Github.

В своем вступительном докладе на Генеральной ассамблее IIPC 2012 года в Библиотеке Конгресса я отметил, что для того, чтобы ученые могли использовать веб-архивы для исследований, нам нужно гораздо больше информации о том, как создаются эти архивы. Три с половиной года спустя несколько крупных веб-архивов подготовили такую ​​документацию, особенно в отношении алгоритмов, которые контролируют, какие веб-сайты посещают их поисковые роботы, как они просматривают эти веб-сайты и как они решают, какие части бесконечной сети сохранить с их ограниченными ресурсами. . На самом деле совершенно неясно, как была построена Wayback Machine, учитывая невероятно неравномерный ландшафт, который она предлагает из миллиона лучших веб-сайтов даже за последний год.

Приведенные выше результаты показывают, насколько важным является такое понимание. При архивировании бесконечной сети с ограниченными ресурсами необходимо принимать бесчисленные решения относительно того, какие узкие фрагменты сети следует сохранить. На самом базовом уровне можно выбрать либо полностью случайное архивирование (выбор страниц без учета каких-либо других факторов), либо архивирование с приоритетом по скорости изменения (чаще архивирование страниц, которые чаще изменяются — хотя это имеет тенденцию подчеркивать динамически генерируемые сайты) , или в архиве с приоритетом популярности (при этом выделяются страницы, которые большинство людей используют сегодня, но есть риск не сохранить относительно неизвестные страницы, которые могут стать важными в будущем). Человеческий вклад также может сыграть решающую роль, как в случае со специализированной программой Archive-It.

Каждый подход имеет свои преимущества и риски. Можно разумно спросить: через 20 лет на что мы с большей вероятностью захотим оглянуться: на литовский кредитный веб-сайт, поставщика запчастей для батутов или на домашнюю страницу с последними новостями крупного новостного агентства, такого как CNN? Такие важные решения, как то, что сохранить для будущего, требуют гораздо большего участия сообщества, особенно ученых, которые полагаются на эти коллекции.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *