понедельник, 25 марта 2013 г.

Рассылаем по базам конкурентов


Здравствуйте! Данный материал размещен в рамках 4-го конкурса, проводимого BotmasterLabs. В этой статье будут продемонстрированы процессы поиска и сбора базы, обучение неизвестных движков и постинг по базе. Надеюсь, что кому-то будет полезен данный мануал.
Рынок программного обеспечения для продвижения сайтов растет очень быстрыми темпами. Существует большое количество программ для рассылки по базам. Этим мы и воспользуемся. Чтобы облегчить жизнь пользователям софта, разработчики делают готовые шаблоны для комментирования гостевых, блогов, галерей, для постинга в форумы, в вики и т.д. Так вот одним из таких шаблонов мы и воспользуемся. Софт, у которого мы возьмем готовый шаблон, это GSA Search Engine Ranker. На просторах интернета полно аналогичного софта. Наверняка у вас есть похожий софт. Скачать файл можно здесь.
Т.к. в шаблоне используются вариации, то нам потребуется размножить текст. Открываем файл, в начале и в конце ставим двойные кавычки, макрос “%image_title%” (без кавычек) заменяем на * (звездочку). Копируем содержимое в буфер! Открываем в браузере онлайн инструмент для размножения текста:
Вставляем содержимое из буфера. Настраиваем инструмент. В блоке “Основные” выставляем кодировку windows-1251, указываем количество вариантов (чем больше вариантов, тем больше будет база для рассылки хрумером), выбираем случайную генерацию. В блоке “Дополнительно” ставим галочки напротив “Удалить дубликаты” и “Перемешать результат”. В блоке “Пост-обработка” снимите все галочки. Жмем кнопку “Генерировать”. Вы можете воспользоваться каким-то другим аналогичным сервисом или софтом.
Полученный результат мы будем использовать в качестве запросов для парсинга. Создаем в папке “Words” текстовый файл и вставляем туда полученный результат.
Открываем Hrefer. Переходим Options – Parsing Options.
В блоке “Duplicates filtering” поставьте галочку напротив "Enable filtering of duplicated links by hostnames". В блоке “Duplicates filtering method” выберите "By hostnames". В блоке “Query options” установите галочки напротив “Do not use “Additive words”” и “Disable filtering harvested links by Sieve-filter”. В блоке “Query ordering” выберите "Words + Additive Words". Во вкладке “Words Database” выберите нашу базу с запросами. Парсить лучше выдачу Google. Можете воспользоваться методом парсинга поисковых систем, который я описал в первой статье.
Теперь база у нас есть! Теперь надо определить движки из этой базы. А сделать это можно с помощью инструмента Хрумера: Анализатор признаков ссылок.
Выбираете нашу напарсенную базу. В блоке “Область анализа” выбираете “/path/filename”. В блоке “Формат отчета” выбираете “Xrumer pattern”. Установите галочки напротив “Экспортировать в файл отчета LinksReport.txt”, “Показать количество в тексте”, “Ограничение в отчете на N признаков”. Как видно на скриншоте в базе приемущественно движки галерей.
С помощью Google можно определить какие именно это движки. Из этих движков Хрумер поддерживает DatsoGallery ("option=com_datsogallery"), ZenPhoto ("Photo Templates from Stopdesign" "Image Info"), Plogger ("powered by plogger" "Post a comment"). Хрумер пока не поддерживает 4image ("Powered by 4images" "Post comment"), Piwigo ("Powered by Piwigo" "Add a comment"), YaPig ("Powered by YaPig" "Add your comment"), Shutter ("Submit a comment for this photo" "View Slideshow"), Pixelpost ("Camera & Exposure Information" "Leave a Comment"), Gallery ("main.php?g2_itemId="), Coppermine Photo Gallery ("Add your comment" "Coppermine Photo Gallery"). На случай, если вы соберетесь напарсить отдельно базы под каждый движок, в скобках я указал признаки для запросов. Теперь нам нужно обучить Xrumer комментировать неизвестные движки.
"Обучаем движку Gallery"
Я покажу на примере одного из них. Это Gallery ("main.php?g2_itemId="). Остальные движки обучаются по аналогии. Я конечно обучил постить во все галереи. В конце статьи приложу архив с модификацией.
Приступим! Открываем инструмент ModCreator. В адресной строке инструмента вводим “http://www.frederickcastro.com/gallery2/main.php?g2_itemId=2480” (без кавычек). Жмем зеленую стрелочку. Далее кликаем по ссылке с анкором “Add Comment”. Перед нами форма для комментирования. Надо ознакомить хрумер с новыми полями.
Кликаем правой кнопкой мышки по полю “Name” и выбираем: Set Field – NICKNAME. Затем жмем кнопку “Добавить” (с зеленым крестиком). Аналагичную процедуру производим и с полями Subject, Comment и Captcha. В блоке "Результат" жмем "Сохранить". Еще нам нужно обучить Xrumer скачивать изображение каптчи. Поэтому открываем HTML-код страницы (правый клик мышки и выбираем View HTML-code).
На скриншоте видна ссылка на изображение каптчи. Поэтому в файл default.mask.txt из папки “ DeCaptcha” вставляем “[Include] [inLink]g2_view=captcha.CaptchaImage[/][/]” (без кавычек).
Теперь переходим во вкладку xmessages.txt. Нам нужно написать комментарий и узнать правило успеха для Хрумера. Значит заполняем поля Name, Subject, Comment, Captcha и сохраняем комментарий.
Перед нами появилось сообщение “Comment added successfully”. Вот его то мы и будем использовать. В блоке “Обучение” напротив “Признак” вставляем “Comment added successfully” (без кавычек), а напротив “Значение” из выпадающего списка выбираем “SUCCESS”. Жмем "Добавить".
Еще нам нужно узнать правило, указывающее Хрумеру, что произошла ошибка при комментировании.  Для этого создаем искусственную ошибку при комментировании, т.е. не заполняем одно из полей или неправильно вводим каптчу. Сайт нам выдаст ошибку.
Открываем HTML-код страницы и находим участок кода с ошибкой. В нашем случае я выдрал несколько правил для хрумера: Your comment has not been saved, Incorrect number, Incorrect letters. Далее в блоке “Обучение” напротив “Признак” вставляем по очереди правила “Incorrect number” и “Incorrect letters”, а напротив “Значение” выбираем из списка PICTOTRY.  Жмем "Добавить". Потом в блоке “Обучение” напротив “Признак” вставляем “Your comment has not been saved”, а напротив “Значение” выбираем из списка INVALID.  Жмем "Добавить". Затем в блоке "Результат" жмем "Сохранить". Все процедуры с ModCreator завершены. Открываем файл xurl.txt из папки LogicFiles.
Вставляем туда: “AddLinkRule([0,'?g2_view=comment.AddComment&g2_itemId='],URL_TONEWPOST);” (без кавычек). Согласно этому правилу Хрумер будет искать ссылку для комментирования.
Обучение завершено! Переходим к настройкам Хрумера и созданию проекта.
Переходим: Настройки – Скорость и Пробиваемость.
В блоке “Экспресс-настройка” переводим бегунок к “Выше пробиваемость”. В блоке ”Прецизионная настройка” устанавливаем галочки напротив: “Делать повторные попытки при таймаутах” и “Включить обработку фреймов”. В блоке “Опции распознавания пиктокода” устанавливаем галочку напротив “Включить распознавание ReCaptcha”. Укажите нужное вам количество попыток распознания пиктокода. Выберите “Полуручной режим” или один из режимов использования сервисов: Anti-Captcha или CaptchaBot.
Переходим: Настройки – Дополнительные настройки. Тут все по дефолту. В блоке “Рассылка” устанавливаем галочки напротив “Входить под текущим аккаунтом, если логин занят”, “Если не работает BB-код – трансформировать его в HTML”.
Переходим: Настройки – Активация профайлов по e-mail. Выбираем “Отключить”.
Создаем проект! Тут нас интересуют несколько полей: никнейм (тут можете использовать анкор), домашняя страница, почта (тут можете использовать фэйковую почту, т.к. активировать аккаунты нам не придется), тема (тут можно использовать кейворды) и тело сообщения (тут можно использовать bbcode, если сайт не будет поддерживать bbcode, то программа автоматически конвертнет в html).
И не забываем использовать вариации или макрос #file_links. Все готово! Выбираем базу и стартуем!
Если надоест вводить эти капчи вручную, и нет средств тратиться на сервис Антикапчи, можно просто попросить разработчика программы обучить её распознавать эти капчи на автомате - это будет сделано для вас бесплатно. XRumer автоматически распознаёт вот уже более 200 типов капч, в том числе РеКапчу и Яндекс-капчу, и с каждым месяцем этот набор пополняется (в последнем апдейте добавилось еще 25 типов капч).
К статье прилагаю архив со всеми нужными файлами: измененные файлы логики Хрумера, базу запросов для парсинга, базу для постинга. Всем спасибо за внимание!

четверг, 21 марта 2013 г.

Создание сетки блогов на Joomla

Приветствую, уважаемые! Пришла очередь и третей статьи в рамках 4-го конкурса, проводимого лабораторией Botmaster. В данном материале мы будем создавать сетку блогов на движке Joomla. Т.к. Xrumer не умеет создавать подобные блоги, то нам придется его обучить.
Для Joomla создано большое количество компонентов для ведения блогов. Мы рассмотрим один из них. Это компонент Smart Blog. Демо с оффициального сайта разработчиков.
На данных блогах зарегистрированный пользователь может добавлять блоги и комментарии. Нас интересует возможность создавать блоги.
Для начала нам нужно найти ресурсы, использующие компонент Smart Blog. Переходим в Google и вводим запрос типа: "Please login to write comment" "By: On *" "Comments(*)" "Views(*)" (с ковычками).
Заходим на несколько ресурсов и ищем признаки для парсинга.
Вот несколько для примера:
"Smart Blog" "Add New Post" (с ковычками)
inurl:com_blog
Базу можете собрать с помощью метода, описаного мною в первой статье.
После того как собрали базу, переходим к этапу создания мода. Создание модов для Хрумера осуществляется путем изменение файлов логики. Начиная с версии 7.7.40а Elite в программе появился инструмент ModCreator. Вот он то нам и поможет!
Открываем инструмент ModCreator. Вводим http://www.lrf-kenya.org/index.php?option=com_blog в адресной строке иструмента и жмем зеленую стрелочку. Заходим на сайт с использованием своего логина и пароля (заранее зарегистрируйтесь). Нажимаем на ссылку “Add New Post” и видим форму для добавления статьи.
Кликаем правой кнопкой мышки по полю “Title” и выбираем: Set Field – SUBJ1. Затем жмем кнопку “Добавить” (с зеленым крестиком). Такая же процедура с полем “Content ” у меня не прокатила. Поэтому открываем HTML-код страницы (правый клик мышки и выбираем View HTML-code).
Ищем поле контента! В нашем случае – это textarea. Имя у нее – post_desc. В блоке “Обучение” напротив “Имя поля” вставляем post_desc, а напротив “Значение” вставляем MESSAGE. Жмем "Добавить". В блоке "Результат" жмем "Сохранить".
Теперь переходим во вкладку xmessages.txt. Нам нужно запостить статью и узнать правило успешности для Хрумера. Значит заполняем поля Title и Content и сохраняем статью.
Перед нами появилось сообщение “Blog Post saved successfully”. Вот его то мы и будем использовать. В блоке “Обучение” напротив “Признак” вставляем “Blog Post saved successfully” (без ковычек), а напротив “Значение” из выпадающего списка выбираем “SUCCESS”. Жмем "Добавить".
Еще нам нужно узнать правило, указывающее Хрумеру, что произошла ошибка при постинге статьи.  Для этого создаем искусственную ошибку при постинге, т.е. не заполняем одно из полей. Сайт нам выдаст ошибку. Открываем HTML-код страницы и находим участок кода с ошибкой. В нашем случае я выдрал аж 2 правила для хрумера: <dt class="error">Error</dt> и <dd class="error message fade">. Далее в блоке “Обучение” напротив “Признак” вставляем поочереди правила <dt class="error">Error</dt> и <dd class="error message fade">, а напротив “Значение” выбираем из списка INVALID. Жмем "Добавить". Затем в блоке "Результат" жмем "Сохранить".
Как видно, с появлением ModCreator жизнь стала попроще. На форуме прочитал, что со следующего обновления функционал иснтрумента будет расширен. Надеемся, что заработает xurl.txt. Но сейчас в ModCreator править xurl.txt не предоставляется возможным, поэтому мы будем изменять его вручную. Открываем файл xurl.txt из папки LogicFiles.
Находим блок:
AddLinkRule([0,'option=com_fireboard',
             0,'func=post'
           ],URL_TONEWPOST);
Вставляем после его блок:
AddLinkRule([0,'option=com_blog',
             0,'view=addpost'
           ],URL_TONEWPOST);
AddLinkRule([0,'option,com_blog',
             0,'view,addpost'
           ],URL_TONEWPOST);
AddLinkRule([0,'addpost'],URL_TONEWPOST);
Согласно этим правилам Хрумер будет искать формы для добавления статей на сайты.
Находим блок:
AddLinkRule([0,'option=com_fireboard',
             0,'func=view',
             0,'id='],URL_TO_VIEWTOPIC);
Вставляем после его блок:
AddLinkRule([0,'option=com_blog',
             0,'view=comments',
             0,'pid='],URL_TO_VIEWTOPIC);
AddLinkRule([0,'option,com_blog',
             0,'view,comments',
             0,'pid,'],URL_TO_VIEWTOPIC);
AddLinkRule([0,'comments.html?pid='],URL_TO_VIEWTOPIC);
AddLinkRule([0,'/comments/'],URL_TO_VIEWTOPIC);
Согласно этим правилам Хрумер будет искать ссылку на статью.
Находим блок:
AddLinkRule([0,'option=com_fireboard',
             0,'func=fbprofile'],URL_TO_VIEWPROFILE);
Вставляем после его блок:
AddLinkRule([0,'option=com_blog',
             0,'view=blogger',
0,'bn='],URL_TO_VIEWPROFILE);
AddLinkRule([0,'option,com_blog',
             0,'view,blogger',
             0,'bn,'],URL_TO_VIEWPROFILE);
AddLinkRule([0,'blogger.html?bn='],URL_TO_VIEWPROFILE);
AddLinkRule([0,'/blogger/'],URL_TO_VIEWPROFILE);
Согласно этим правилам Хрумер будет искать профиль блогера.
Еще нужно дать хрумеру запрет на комментирвание статей. Ведь мы обучаем постингу статей. Для это в файле xas_near.txt к SUBJ1 добавляем comment_title, а к MESSAGE добавляем comment_desc. И в файле xas.txt заменяем !title на title, а !desc заменяем на desc. Файл xignoreforms.txt нам редактировать не придется, т.к. в нашем случае поле поиска хрумер при постинге не учитывает.
Что насчет регистрации и активации ссылок Хрумером на Joomla сайтах. Хрумер с этим справляется отлично, но из-за разнообразия видов сайтов на движке Joomla в файл xpop.txt нужно добавить “http://[...]option,com_comprofiler/task,confirm[...]” (без ковычек). В файле xmessages.txt к флажку ACTIVATION в конце добавьте “|Uw account is aangemaakt en een activatie link is verzonden naar het opgegeven e-mailadres|activation link has been sent to the e-mail address you entered|Note that you must activate the account by clicking on the activation link when you get the e-mail before you can login” (без ковычек), а к флажку REGISTERED добавьте “|Your account has been created” (без ковычек). Расширять файл default.mask.txt не будем, т.к. большинство сайтов не защищены каптчей, а случае с защищенными сайтами, дак тут админы банальны – ReCaptcha, которую Хрумер щелкает как орешки.
На этом процесс обучение закончен. По аналогии можете обучить Хрумер постить и в другие компонеты блогов для Joomla: LyftenBloggie, EasyBlog, MyBlog, JoomBlog и т.д.
Мод Готов! Переходим к созданию сетки блогов. Процесс будет происходить в два этапа: регистрация и постинг.
Настроим Хрумер и создадим проект. Переходим: Настройки – Скорость и Пробиваемость.
В блоке “Экспресс-настройка” устанавливаем бегунок к “Выше пробиваемость”. В блоке “Опции распознавания пиктокода” устанавливаем галочку напротив “Включить распознавание ReCaptcha”. Укажите нужное вам количество попыток распознания пиктокода. Переходим: Настройки – Дополнительные настройки.
В блоке “Рассылка” устанавливаем галочки напротив “Только регистрация (без постинга текста)”, “Входить под текущим аккаунтом, если логин занят”. В блоке "Спец-режим постинга” выбираем “Только создавать топик”. Переходим: Настройки – Активация профайлов по e-mail.
Выбираем “Автоматический фоновый режим”, в блоках “Периодичность проверки почты” и “Макс. длительность сессии скачивания” устанавливаем нужное вам количество минут, а также устанавливаем галочки напротив “До-скачивать письма по завершении рассылки” и “Скачивать все письма, без фильтрации по заголовку”.
Теперь к проекту! Используем “Автозаполнение”. Регистрируем gmail почту. Личные данные можете заполнить через макрос #file_links.
А теперь к главному! Поле сообщения! Первый вариант: если у вас есть белый проект, то вы можете написать качественную статью, посвященную вашему сайту, по желанию можете использовать картинки и видео. Не забывайте, что bbcode не работает, поэтому используйте htmlcode. Второй вариант: наверное более подходящий для многих. Чтобы не тратится на хостинг и домены, лучше монетизировать сразу нашу сетку блогов. Ищите тематического донора, берете у него статью, вставляете ее в поле сообщения и синонимизируете. В начале текста используем баннер партнерской программы Yesclick (к примеру), у которой есть удобный конструктор gFeed 2.0 (Graphics Feed), а в конце текста используем собственное видео из Youtube. Для того, чтобы зарабатывать на показах в Youtube, зарегистрируйтесь на Youtube и Adsense и в настройках Youtube включите платный показ. В тексте статьи используйте 1-2 ссылки на другие статьи из нашей сетки через макрос #file_links.
Затем установите количество потоков, выберете базу для рассылки и стартуем. После первой регистрации запустите: Инструменты – Доп. Рассылка по “Остальным”. Стоит учитывать тот факт, что не на всех сайтах, работающих на движке Joomla, есть ссылки, ведущие на страницу регистрации, хотя регистрация на сайтах открыта. Если бы на всех Joomla-сайтах страница регистрации выглядела бы так: "index.php?option=com_user&view=register" (без ковычек), то все ссылки в базе можно было бы привести к данной маске. Из этого делам вывод, что Хрумер не на всех Joomla-сайтах найдет форму для регистрации.
После регистрации переходим к режиму Постинга. Переходим: Настройки – Дополнительные настройки.
Уберите галочку напротив “Только регистрация (без постинга текста)” и установите галочку напротив “Рассылка от ранее зарегистрированного пользователя”, “Включить проверку активной ссылки после отправки”. Затем копируем в новый файл содержимое из файлов Registered Accounts.txt, Profiles.txt и Activation.txt из папки “Logs”. Помните, что в ссылках должно содержаться "com_blog" (без ковычек), иначе Хрумер не найдет форму для постинга. Сделать это можно через: Инструменты - Фильтр базы ссылок. В блоке "Базы ссылок" в качестве исходной базы выбираете базу собранную хрефером, а в качестве базы-фильтр выбираете файл с содержимым из файлов Registered Accounts.txt, Profiles.txt и Activation.txt. В блоке "База фильтр" выбираете "Присутствуют". Жмете старт! На выходе имеем базу для постинга. Перед постингом ее следует почистить. Переходим: Инструменты – “Удалить повторные ссылки” и Инструменты – “Пост-обработка ссылок”. Все готово! Выбираем нашу отфильтрованную базу и стратуем.
Чтобы проиндексировать нашу сетку блогов, вы может использовать twitter, addurl или какими-то другие способы, которые вы используете. Но зачем мудрить, когда есть Xrumer. Создайте проект с ссылками на нашу сетку блогов и напарсите хрефером базы гостевых, топиков, блогов и галерей. Начиная с версии 7.7.42 в системе расписания Хрумера появилась “Генерация расписаний по шаблону”. Откройте систему расписаний, выберите из выпадающего списка “Последовательный проход 1 проекта - по нескольким базам”, нажмите Генерацию и в появившемся окне выберите проект и базы. Поставьте галочку напротив “Система расписаний включена”.
К материалу прилагаю архив с файлами. Всем Спасибо!

четверг, 14 марта 2013 г.

Добыча тематического трафика и его монетизация

Добрый день! Я решил написать еще одну статью в рамках 4-го конкурса, проводимого BotmasterLabs. В этом мануале я покажу вам, как собрать тематическую базу сайтов c высокой посещаемостью, работающих на Ucoz.  В последних версиях программы Xrumer были расширены возможности режима Масс-ПМ, поэтому этот режим стал поддерживать несколько движков, в том числе и движок Ucoz. Помните, что нормальная работа с Масс-ПМ (в частности, корректный перебор капч) по таким сайтам, как Ucoz, реализована только в последних версиях программы, начиная с XRumer 7.7.40. Также Ботмастер улучшил работу с данным движком, а еще в будующей версии обещал увеличить пробив по данному движку. Xrumer умеет распозновать некоторые каптчи этого движка, надеемся, что с новым нововведением количество разгадываемых каптч увеличится.
Мануал будет разделен на две части: сбор базы, регистрация аккаунтов и собственно сам Масс-ПМ.
Собирать базу мы будем с помощью хрумера, а не хрефера. Заходим через браузер на сайт http://top.ucoz.ru/. Выбираем нужную нам категорию. Я выбрал тематику “Игры”. Еще можно выбрать языковую принадлежность сайтов. Я выбрал русскую! Список сайтов часто обновляется.
Как видно на скриншоте на данный момент в категории ”Игры” 38743 сайтов. Идентификационный номер категории – 19. На каждой странице по 50 сайтов, а количество страниц – 775.
Теперь нам нужно создать базу для Хрумера, состоящую из 775 ссылок. Тут может быть много вариантов, у каждого свой. Я же продемонстрирую возможности инструментов Хрумера.
Открываем Хрумер! Переходим: Инструменты – Конвертор ссылок.
В блоке “Выбор шаблонов” создаем шаблон: “{url}{keyword}.html” (без ковычек). В блоке “Выбор Анкора” выбираем “Брать анкор из списка последовательно по 1”.  В блоке “Метод генерации” ставим галочку напротив “В столбец” и выбираем “Стандартная генерация”. В блоке “Список ссылок” вставляем список из 775 ссылок типа: “http://top.ucoz.ru/19/index/” (без ковычек). Помните, что 19 – это номер тематики. В блоке “Список анкоров” вставляем список из цифр от 1 до 775. Жмем кнопку “Сгенерировать”. Переходим в блок “Результат” и заменяем первую ссылку на “http://top.ucoz.ru/19/” (без ковычек). Далее жмем кнопку:  “Скопировать содержимое в буфер”. Создаем в папке “Links” текстовый документ с именем Parsing_Ucoz_Games.txt (к примеру) и вставляем в него содержимое из буфера.
Еще нам нужно создать маску для сбора Ucoz-сайтов. Переходим: Настройки- Автограббинг. Вставляем <td class="utdescr"><a target="_blank" href="[...]">. // Дополнение
С версии 7.7.45 у Хрумера появилась возможность сохранять контент не при первом совпадении маски, а при каждом. Для этого установите галочку напротив "Полный сбор всех совпадений по каждой маске" и "Не сохранять в xgrabbed.txt название маски". (Автор статьи) //
Затем выставляете стандартные настройки, указываете количество потоков, выбираете базу, созданную с помощью конвертера ссылок (Parsing_Ucoz_Games.txt), выбираете дефолтный проект “Template” и жмете “Старт с начала”.
После завершения процесса заходим в файл xgrabbed.txt (// Пояснение: Файл находится по адресу - № диска:\папка с хрумером\Logs\Template\Parsing_Ucoz_Games\xgrabbed.txt (Автор статьи) //) и видим собранную базу Ucoz-сайтов. Копируем содержание файла xgrabbed.txt. Открываем папку "Links". Создаем в ней текстовый файл UcozTopGamesBase.txt (к примеру) и копируем в него содержание из буфера. Получается, что UcozTopGamesBase.txt и будет нашей базой, по которой мы будем производить регистрацию аккаунтов и Масс-ПМ.
Теперь переходим к следующему этапу мануала. Нам нужно зарегистрироваться на сайтах из нашей базы. Перейдем к созданию проекта и настройкам Хрумера.
Переходим: Проект – Новый. Используем “Автозаполнение”. Чтобы очеловечить свои аккаунты, заполняйте поля: домашняя страница (белые сайты или аккаунты социальных сетей, но никаких дорвеев и прочего), icq, город, страна, занятие и увлечения, выбираем женский пол. В поле “Подпись” ненужно использовать ссылки, html и bbcode. Используйте какие-нибудь афоризмы, поговорки или высказывания известных людей. Все это поможет нам сохранить аккаунт после возможной модерации администрации сайта. Т.к. ресурсы русскоязычные, то мы будем использовать почту от Яндекса. Авторегистрируем почту! Заполняем тему и тело сообщения с использованием вариаций. Также в теле сообщения можно будет использовать максросы: #uname и #hostname. Вместо макроса #uname программа будет вставлять никнейм пользователя, которому будет отправлено персональное сообщение. А вместо макроса #hostname программа будет вставлять название сайта, на котором в данный момент отправляется личное сообщение. Количество кликов по ссылке в теле сообщения зависит от качества сообщения.
Теперь о настройках. Переходим: Настройки – Скорость < ----- > Пробиваемость.
В блоке “Экспресс-настройка” устанавливаем “Выше пробиваемость”. В блоке ”Прецизионная настройка” устанавливаем галочки напротив: “Делать повторные попытки при таймаутах” и “Включить обработку фреймов”. В блоке “Опции распознавания пиктокода” устанавливаем галочку напротив “Включить распознавание ReCaptcha” (на некоторых ресурсах встречается данный тип защиты), указываем количество попыток распознавания пиктокодов и выбираем “Автоматический режим”. Чтобы увеличить количество регистраций, укажите “Полуручной режим” или один из режимов использования сервисов: Anti-Captcha или CaptchaBot.
Переходим: Настройки – Дополнительные настройки.
В блоке “Рассылка” устанавливаем галочки напротив “Только регистрация (без постинга текста)”, “Включить проверку активной ссылки после отправки”, “Редактировать профиль после регистрации”, “Закачивать аватар при редактировании профиля”, “Входить под текущим аккаунтом, если логин занят”, “Если не работает BB-код – трансформировать его в HTML”. В блоке “Настройки Масс-ПМ” укажите число 100 напротив “Макс. количество пользователей” и “Макс. количество сообщений”, укажите 60 сек. напротив “Мин. пауза между сообщениями”.
Переходим: Настройки – Активация профайлов по e-mail. Выбираем “Автоматический фоновый режим”,  в блоке “Периодичность проверки почты” устанавливаем 5 минут, в блоке “Макс. длительность сессии скачивания” устанавливаем 5 минут, а также устанавливаем галочки напротив “До-скачивать письма по завершении рассылки” и “Скачивать все письма, без фильтрации по заголовку”.
Далее устанавливаете количество потоков, указываем нашу базу UcozTopGamesBase.txt, по желанию можете использовать прокси, но помните, что это снизит скорость рассылки. Теперь можно и стартовать!
После того как процесс закончится, переходим в Инструменты – Доп. Рассылка по остальным. Мы зарегистрировались по максимуму, теперь переходим не посредственно к Масс-ПМ. Нам нужны ресурсы, на которых программа смогла зарегистрироваться. Объединяем в одном файле (к примеру назовем его UcozTopGamesBaseFilter.txt) результаты из файлов Registered Accounts.txt, Profiles.txt и Activation.txt из папки “Logs”. Получившуюся базу будем использовать для Масс-ПМ, но ее нужно почистить на дубли и сделать пост-обработку. Для этого переходим: Инструменты – “Удалить повторные ссылки” и Инструменты – “Пост-обработка ссылок”. В обоих случаях выбираем нашу получившуюся базу UcozTopGamesBaseFilter.txt. Затем в главном окне программы меняем “Постинг” на “Масс-ПМ”. Потом укажите нашу отфильтрованную базу UcozTopGamesBaseFilter.txt для дальнейшего использования. Сейчас нам остается изменить настройки.
Переходим: Настройки – Дополнительные настройки. Уберите галочку напротив “Только регистрация (без постинга текста)”, “Редактировать профиль после регистрации”, “Закачивать аватар при редактировании профиля” и установите галочку напротив “Рассылка от ранее зарегистрированного пользователя”.
Переходим: Настройки – Активация профайлов по e-mail. Выбираем режим “Отключить”. Установите количество потоков для рассылки и по желанию можете включить прокси. В случае с режимом Масс-ПМ количество потоков следует указать больше, чем в режиме "только регистрация". Это связано с тем, что мы указали в настройках паузу между сообщениями в 60 секунд. Теперь все готово! Нажимаем на старт!
Трафик можно направить на ваш белый проект, если он у вас есть, чтобы пользователи узнали о его существовании, зарегистрировались и посещали его по-возможности. Также трафик можно направить на Youtube и, тем самым, зарабатывать на показах и наращивать количество просмотров видео. Можно направить на аккаунты своих социальных сетей или микроблогов, с просьбой вступить в друзья. Можно рекламировать свой софт, базы и другие виды товаров. Можно зарабатывать на файлообменниках. Можно зарабатывать на платных архивах. Можно направить на платники через tds. Для тех кто недавно прикупил Хрумер и не знает куда лить трафик, в качестве примера хочу привести Jettys.
В этой партнерской программе множество категорий. Также есть приватные платники. Чтобы лить на них трафик, нужно написать администрации.

понедельник, 11 марта 2013 г.

Парсинг с операторами и без прокси


Привет Всем! Данная статья написана в рамках 4-го конкурса статей Botmaster.
Вечная проблема всех вебмастеров - это база сайтов. Всегда все упирается в прокси. Чтобы собрать большую базу сайтов, требуются тонны качественых и новых проксей. Как вы уже догадались, я буду писать о хрефере. В данном манауле будет рассмотрен способ парсинга поисковых систем с использованием операторов и без прокси. В последних апдейтах хрумера была многократно увеличена пробиваемость движка Discuz (тех вариантов, где регистрация оформлена через "member.php?mod=register").
На примере этого движка я и буду демонстрировать свой способ парсинга. Для начала нам понадобятся запросы для парсинга. Мы не будем использовать запрос Ботмастера, т.к. он ведет нас на страницу регистации. Большую базу собрать по такому запросу не получиться (будет много дублей), т.к. на страницах регистрации обычно один и тот же текст: Login, Password, Email и т.д. И так, мы будем искать сайты, работающие на движке Discuz. Введем запрос "member.php?mod=register" в Google.
И что мы видим на скриншоте? В тайтле 3 сайта в выдаче мы видим, что сайт работает на движке Discuz. Заходим на указанный форум из выдачи Google, гуляем по форуму и ищем как выглядит адрес топика данного движка. Я нашел один из топиков, и вы видите один из них на скриншоте.
Как видно на скриншоте адрес топика форума следующий: http://codersclub.org/discuzx/forum.php?mod=viewthread&tid=379&extra=page%3D1. Поэтому запрос для парсинга будет "inurl:forum.php?mod=viewthread" (без кавычек). Создайте в папке "Templates" файл discuz_addwords.txt и добавьте в него строку: "inurl:forum.php?mod=viewthread" (без ковычек), а также в этой же папке создайте файл discuz.txt и добавьте в него строку: "forum.php?mod=viewthread" (без ковычек).
Еще нам понадобится база слов для парсинга. Я использую мультиязычную базу: русский, английский, немецкий, китайский и т.д. В качестве источника слов для парсинга можно использовать иностранные книги. Порывшись в выдаче Google можно найти много книг на французском, японском и др. языках. Помните, что иероглифы нужно конвертировать в понятный язык для хрефера. Для этого используйте утилиту ботмастера: http://www.botmasterru.com/utf_to_html/.
В папке "Words" создайте текстовый файл и добавьте в него список своих слов для парсинга. Чем больше будет слов, тем больше сайтов вы напарсите. Отрывок из используемой мною базы:
&#27927;&#28577;
stoneif
&#39321;&#32928;
андрею
&#20013;&#22269;
&#27861;&#21046;
ascertaining
abusive
&#20195;&#29702;
mortaring
predictable
avoided
глянцевом
&#27468;&#25163;
&#22303;&#22320;
&#38050;&#38081;
&#20256;&#36865;
right
Я обучил Хрефер парсить 2 поисковые системы без прокси: Searchatlas.centrum.cz и Km.ru. Добавьте следующие данные в файл engines.ini:
[SearchatlasCentrum]
Hostname=http://searchatlas.centrum.cz
Query=?q=[QUERY]
LinksMask=<div class="entry-wrap">[...]<a href="[LINK]">
TotalPages=100
NextPage=<li class="pageArrow nextPage"><a href="[LINK]">
NextPage2=<li class="pageArrow nextPage"><a href="[LINK]">
CaptchaURL=
CaptchaImage=
CaptchaField=
[Km]
Hostname=http://www.google.ru
Query=custom?q=[QUERY]&hl=ru&newwindow=1&client=pub-6204558141800493&cof=FORID:11%3BGL:1%3BLBGC:336699%3BLC:%230000ff%3BVLC:%23663399%3BGFNT:%230000ff%3BGIMP:%230000ff%3BDIV:%23F4F4F4%3B&channel=9859602781&prmd=ivns&ei=0ro8Ud6yO6b24QTy2oF4&sa=N
LinksMask=<h2 class="r">[...] class="l" href="[LINK]" onmousedown
TotalPages=100
NextPage=<td nowrap class="b"><a href="[LINK]">
NextPage2=<td nowrap class="b"><a href="[LINK]">
CaptchaURL=
CaptchaImage=
CaptchaField=
А теперь я расшифрую содержание файла engines.ini поподробнее:
Hostname - домен системы, которую будем парсить.
Query - кусок ссылки с поисковым запросом ([QUERY]) после Hostname.
LinksMask – границы парсинга сайтов ([LINK]) из выдачи поисковой системы.
TotalPages - количество страниц поисковой системы, которые будем парсить.
NextPage, NextPage2 - границы парсинга навигации [LINK] поисковой системы.
А теперь немного о том как я нашел такие системы. Идем в google.com, вводим запрос типа: "searchatlas.centrum.cz/?q=" (с ковычками). Гуляем по выдаче гугла и натыкаемся на подобные поисковые системы. Таким образом я нашел 2 неизвестные мне поисковые системы: search.seznam.cz и ricerca.virgilio.it (еще мне встретились уже известные системы: яндекс, рамблер, региональные гуглы и др. ). Затем по аналогии вводим в google запрос типа: "search.seznam.cz/?q=" и "ricerca.virgilio.it/ricerca?qs=" поочередно. Гуляем по выдаче и находим еще поисковые системы: ansearch.com.au, search.lycos.ch, fr.search-results.com, search.conduit.com, isearch.avg.com, start.facemoods.comhome.mywebsearch.com и др. И так дальше по аналогии. Таким образом вы за несколько минут может насобирать до 100 таких поисковых систем.
А в случае с новостным порталом km.ru дела обстоят очень интересно. Многие наверное встречали сайты со встроенным поиском от Гугла. А может быть кто-то и устанавливал его к себе на сайт. Сделать это можно двумя способами: с помощью системы Google Adsense или с помощью системы Пользовательского поиска Google. Так вот на сайте km.ru одна из таких систем внедрена. Заходим на сайт km.ru, вводим любой поисковый запрос, выбираем "Интернет" и нажимаем кнопку "Поиск". Спускаемся вниз страницы, кликаем правой кнопкой мыши по ссылке "Следующая" и открываем ссылку в новом окне браузера.
Вуаля! Перед нами выдача Google. Стоит учитывать что прокрутки на странице нету, поэтому нужно выделить текст мышкой и тянуть ее вниз, чтобы увидеть навигацию по страницам Google.
Я описал два способа поиска подобных систем, остается только обучить хрефер таким системам.
Ну а теперь открываем хрефер и переходим к его настройке.
Настройка Хрефера:
1) Parsing Option
В блоке Link Processing можете поставть галочку напротив "Convert all links to index", но для этого вам придется скопировать файл MakeToIndex.ini из корня папки программы Xrumer в корень папки программы Hrefer, т.к. этот файл у Хрефера давно не обновлялся.Также можете поставить галочку напротив "Log founded hight-PR freehostings into the FreeBonus.txt", чтобы программа сохранила найденные фрихостинги-бонусники, где можно разместить свои будующие дорвеи.
В блоке Duplicates filtering поставьте галочку напротив "Enable filtering of duplicated links by hostnames".
В блоке Duplicates filtering method выберите "By hostnames".
В блоке Query ordering выберите "Words + Additive Words".
В блоке Multi-SE parsing method выберите "New query for each search engine".
2) Снимите галочки напротив "Use proxy", "Auto-refresh, delay (min.)" и "Randomize datacenters".
Далее во вкладке MultiThreading в блоке Multithreading options установите количество потоков напротив "Parser max. threads count", а в блоке Antiban options снимите галочку напротив "Add this pause between threads starting". Во вкладке Search Engines options & Filter в блоке Search engines options напротив "SE" выберите 2 поисковые системы: SearchatlasCentrum и Km, а напротив "Sieve-filter": discuz. Во вкладке Words database из выпадающего списка выберите файл со списком своих слов для парсинга. Потом напротив "Links file" напишите название будующего файла с ссылками. Все! Можно стартовать!
Парсинг моей приложенной базы производился в 50 потоков, с использованием базы слов в количестве 10000.
Как видно на скриншоте после 1 часа 8 минут парсинга Хрефер обработал 6407 слов и собрал 6986 форумов, под фильтр попали 3424 сайта, дублей 656184. Основную часть форумов напарсили с системы KM (62%). К статье прикладываю архив с нужными файлами и собранной базой. В архиве файлы: discuz.txt, discuz_addwords.txt, engines.ini, LinksList id7.txt и WordsDatabase1.txt. Не знаю насколько долго хватит этих тем для сбора баз без денежных и психических затрат после опубликования статьи, но я использую эти фичи уже много лет. Всем Спасибо!