Добыча контента из архивов web.archive.org

контент из веб архива

Где брать уникальный контент – в веб архиве web.archive?

1. Заходим на http://web.archive.org/
2. В поиске пишем интересующую тему
3. Необходимо выбрать сайты, где количество страниц в архиве будет хотя бы больше 100.
4. Повторяем найденные сайты пока не найдем домен, который не работает или имеет совершенно другую тематику (например дорвей, или сайт компании).
5. Сохраняем найденные домены в текстовый файл.
6. Обрабатываем эти домены в программе WALP – она дает в результатах ссылки на статьи. Далее можно уже вручную забрать статьи и проверить на уникальность. Но можно работать с программой:
7. Автоматический парсинг
– Запускаем старую версию CD из папки “Content Downloader II ver.2.79”
– открываем проект (CTR+O) – “автоматический парсинг с web.archive.org.cdp”.
– Вставляем список ссылок в окно парсера ( F8 + вставить + OK). Нажимаете правой
кнопкой по списку ссылок + “Применить фильтры к списку ссылок”
– Указываем куда сохранять полученные статьи:
– Ничего не меняем!
– Запускаем итоговый парсинг статей (F5): Ожидаем завершения парсинга.

Остается последний этап- проверка контента на уникальность. (прога тоже есть)

Программы у меня в наличии – пишите в личку.

 

Крайняя работа с парсингом статей – успешно 18.11.20 http://sushkadrevesiny.com/
http://ram-les.ru/
http://soushka.kaluga.com/
http://wood-ufa.ru/
http://west-wood.ru/
http://sushkam.ru/
http://domveko.ru/
http://derevodoub.com/
http://sushka-kotel.ru/
http://sushka.com/

http://pwood.ru/ – свойства древесины

Понравилась статья? Поделиться с друзьями:
Brings Luck
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.