понедельник, 7 октября 2013 г.

Результаты новой версии Хрефера

Добрый день! Недавно вышла новая версия Хрефера. У 4-ой версии появилось множество небольших плюшек для новичков, которые помогут им быстрее освоить парсер. Но главным нововведением является автораспознание каптчи Яндекса. Теперь можно не переживать о бане при парсинге яндекса, его сервисов и рамблера. Я это уже протестировал. Собрал базу форумов, которые поддерживает Хрумер. Парсил яндекс и рамблер! Конечно в выдаче присутствовали и иностранные форумы, но преимущественно были собраны ру-форумы. В базе 230571 сайт. Базу почистил на дубли и сделал пост-обработку. Еще прочекал базу на 200 OK. Ссылка на архив с базой.
P.S. Если нужно собрать базу форумов илии блогов с рунета, то обращайтесь через форму связи. Неизвестно сколько времени Яндекс будет это терпеть, поэтому надо пользоваться моментом :))