Отзыв о Serp Parser и опыт использования

Кейсы

30 мая 2018

0 4230

Как настроить SerpParser, чтобы снимать большие ядра без капчей. Мой опыт использования в программе прокси: тестирование, расчет, задержки.


Мой опыт использования программы для съема позиций Serp Parser длится с 2015 года, я использую версию Professional, ее отличие в количестве возможных проектов.

Замечу сразу, для нищебродов, торрент для Серппарсера скачать не получится: ломаной рабочей версии просто нет – у разработчика стоит хорошая защита, тем более, что выходят постоянные обновления у поисковых систем, которые нужно адаптировать в серп парсер, и смысла иметь фиксированную версию просто нет.

За это время было очень много тестирований, сборок, ошибок, слива денег на XML-лимиты и сервисы антикапчи, но в итоге появился очень ценный опыт и изученный потенциал программы Serp Parser, который позволил гибко и точно получать важные для поискового продвижения массивы статистических данных.

Что касается тех поддержки, то она изумительна – оперативное решение проблемных вопросов и доработки программы по просьбе заказчика – безусловно, мой отзыв положительный.

Потенциал программы Serp Parser

Программа Serp Parser позиционирует себя как программный продукт для seo-специалистов и директологов, которая позволяет получать различные статистические данные из поисковых систем:

  • Позиции по ключевым фразам;
  • Количество объявлений в контекстной рекламе;
  • Статистику систем аналитики;

На самом деле, это только вершина айсберга, которая описана в разделе F.A.Q. на сайте разработчика. При желании, смекалке и должном уровне опыта специалиста эта программа раскрывает очень глубокие возможности.

Я нашел 1000 и один способ применения Serp Parser, но статья сегодня о другом.

Работа Serp Parser через прокси

Отзыв о Serp Parser и опыт использования

В программе Serp Parser заложено 3 способа работы с поисковыми системами:

  • Локальный IP, то есть все обращения через встроенный браузер к поисковым системам программа осуществляет через локальный IP той точки доступа, с которой ваша машина смотрит в интернет.
  • Прокси, расширяют возможности работы программы: локальный IP можно не задействовать, а, следовательно, и бана в поисковиках не будет. С их помощью можно выполнять парсинг поисковых систем в несколько потоков.
  • Яндекс.XML – инструмент известный всем, и рассматривать его вы в рамках статьи не будем.

Сегодня речь пойдет о прокси и работе с ними.

С чего начать работу через прокси

Конечно же, с логики понимания работы через прокси, вообще с логики понимания, что такое прокси и как они работают.

Прокси – это такая же точка доступа в интернет, как ваша, только территориально она находится не рядом с вами, и у нее может быть другой провайдер.

Имея к ней доступ: свободный или авторизация по логину и паролю, вы можете подключаться к этой точке доступа и выходить через нее в интернет. Что это значит для вас?

Все сайты, в том числе и поисковые системы, будут думать, что вы находитесь территориально там, где висит ваш прокси и имеете IP адрес этого прокси, а не свой, как в случае с локальным подключением.

Эта технология доступа широко распространена среди терроризма и в кругах шпионов, но мы будем ее использовать для обмана поисковых систем, чтобы они не забанили наш локальный IP по капчам. Пусть лучше банят прокси.

Как получить прокси

Чаще всего прокси можно купить в аренду на определенный срок: день, неделя, месяц, год или произвольный период.

О стоимости и конкретных рекомендациях ничего говорить не буду, цель статьи не в рекламе сервисов прокси.

Не советую использовать бесплатные прокси, потому что толку от них нет вообще:

  • Они медленные;
  • Их быстро банят;
  • Они быстро умирают.

Бесплатные прокси – толку 0, лучше вообще без прокси.

Минимальным и достаточным условием для прокси под наши цели будут шаред-прокси, которые выдаются максимум на 5 пользователей.

Но если вы достаточно финансируемы, то я бы рекомендовал использовать индивидуальные, так называемые элитные прокси.

Съем на локальном IP тесты

Работа программы рассмотрена на примере поисковой системы Яндекс.

Что это значит? Это значит, что все настройки применимы к поисковой системе Яндекс. Почему только Яндекс, а где же Гугл?

Понять алгоритм работы проще с точки зрения поисковой системы Яндекс, а имея определенный опыт работы с задержками и прокси адаптировать их под любые другие поисковые системы, в том числе и Гугл будет проще.

По своему опыту могу сказать, что иногда настройки Яндекса и Гугла по задержкам отличаются примерно в 2 раза, опять же, это зависит от качества прокси. Поэтому их придется тестировать.

Теперь нужно переходить к работе с программой Serp Parser. Но прежде, чем начать подключаться по прокси, нужно оттестировать работу на локальном IP.

Что такое работа на локальном IP – это работа в один поток, забегая вперед, ровно так же, как и работа через 1 прокси.

Запомните:

Количество потоков = количеству рабочих IP адресов.

Думаю, что такое поток, объяснять не нужно, это один запущенный браузер в Serp Parser, через который ведется парсинг поисковой системы.

И если у вас съем ведется в 5 потоков, то вам достаточно 5 прокси. Но это тот случай, когда вы руководствуетесь моей статьей и выполняете настройки своего Serp Parser.

Суть тестов на локальном IP в том, чтобы понять логику работы задержек в программе и добиться безкапчевого съема позиций.

Вернемся к теории. В Serp Parser есть 3 вида задержек:

  • Задержки во время анализа поисковой выдачи – между открытием поисковых фраз в одном браузере.

К примеру, она установлена в значениях между 1000 и 5000 мс. – это число означает, что программа применяет задержки из этого диапазона рандомно после каждого обращения к поисковой системе в одном сеансе браузера.

  • Паузы между блоками фраз — это фиксированная цифра.

К примеру, задержка между блоками из 100 фраз в 2 сек. означает, что программа будет запускать новый сеанс (новое окно, грубо говоря) браузера через каждые 100 поисковых фраз и делать задержку между этим открытием в 2 сек.

  • Длительность паузы при достижении определенного количества капчей на поток, в минутах.

К примеру, в одном сеансе число капчей достигло заданного предела в 50, а задержка установлена в 5 минут — это означает, что к этому сеансу будет применена задержка в 5 минут при достижении 50 капчей, то есть в этом сеансе съем прекратится на 5 минут – будет 5-ти минутная пауза, чтобы избежать дальнейшего появления капчей в сеансе.

Получается, что на время съема и количество капчей влияет задержка во время анализа поисковой выдачи, пауза между блоками фраз, пауза после достижения определенного количества капчей.

Скорость работы съема программы зависит от суммы этих 3 задержек. Это просчитываемый показатель.

Вообще, суть этих задержек в том, чтобы подобрать оптимальные значения, чтобы при съеме не вылезали капчи.

К примеру, при наших настройках при съеме 300 поисковых фраз, задержки будут в пределах:

Начальные границы задержек во время анализа поисковой выдачи: 1000-5000 мс. – это 1-5 сек. между фразами, а фраз у нас 300, и поскольку в начале съема первая фраза снимается без задержки получаем границы: 299*1 и 5*299 = 299-1495 сек. – время съема ядра из 300 фраз. А дальше как повезет, потому что эти задержки – показатель рандомный, поэтому и устанавливаются допустимые границы.

Далее, берем задержки в 2 сек. между блоками из 100 фраз и поскольку фраз у нас 300, получаем:

299+(3*2) и 1495+(3*2) = 305-1501 сек. Понятно откуда такие цифры? У нас получилось 3 блока по 100 фраз, следовательно, к ним будут применены 3 задержки по 2 сек.

Третью задержку, связанную с количеством капч во внимание не берем, потому что руководствуемся моими советами по безкапчевому съему в рамках данной статьи.

Итого, получаем, что на съем 300 фраз в программе Serp Parser на одном потоке у нас уйдет: от 5 до 25 минут.

А теперь представим, что мы купили прокси и выполняем съем в 5 потоков, тогда время съем сократится в 5 раз и составит: от 1 до 5 минут.

В этом и заключается преимущество прокси-серверов.

Время съема при использовании прокси сокращается кратно количеству используемых прокси.

Величина этих задержек вычисляется опытным путем и никак иначе. Нет универсальной формулы для них. И поняв логику работы прокси, что куда обращается, в какие моменты работают задержки можно прикинуть сколько времени понадобится, чтобы не возникали капчи. А потом, увеличивая или уменьшая задержки, добиться идеального сочетания.

С прокси ситуация точно такая же: вы берете 1 прокси и начинаете тестировать свои задержки.

Напоминаю, все это делается на 1 потоке.

Количество потоков

А сейчас расскажу, как вычислить допустимое количество потоков.

Сделать это проще, чем настроить задержки.

Я не встречал компьютеров, которые бы тянули более 10 потоков. Я рассматриваю только домашние и офисные машины. Договоримся, что это условный максимум.

Поэтому мы просто идем и покупаем пакет из 10 прокси.

Совет:

Большинство сервисов по продаже прокси дают бесплатный тестовый период на сутки или на час. Этого вполне достаточно для тестирования нагрузки на вашу машину. Поэтому чтобы не платить за лишние прокси мы пишем админу сервиса по продаже прокси и просим предоставить тестовый период, и для этого нам надо 10 прокси.

Как правило, нормальные компании соглашаются на такие условия. Если нет, уходим и ищем следующую.

Далее, мы добавляем прокси в программу Serp Parser, выставляем количество потоков, равное количеству прокси.

Далее, имея настройки по задержкам мы приступаем к тестированию.

Суть тестирования сводится к тому, чтобы понять на каком количестве прокси у нас не возникает ошибка слотов. В окне появится сообщение, содержащее: serpparser_slot_error или похожее.

То есть эта ошибка говорит о том, что компьютер не тянет такое количество потоков. При этом мы просто уменьшаем количество потоков на 1 и продолжаем тестирование.

После нескольких итераций мы приходим к выводу, что наш компьютер может тянуть всего 4 потока, следовательно, нам нужно купить всего 4 прокси. Идем и покупаем 4 прокси.

Замечание:

Очень большую роль играет качество прокси, от них зависит значение задержек, необходимых для бескапчевого съем.

В конце, на последних фразах, когда количество потоков становится равным 1, а все остальные фразы на поток уже сняты, съем происходит медленнее, потому что программа работает в 1 поток и соответственно страниц в минуту на поток становится мало.

На самом деле это просто так кажется, что скорость съема была значительно больше, потому что было несколько потоков и страницы в Серп Парсере бежали быстрее.

P.S. на первых этапах, в первые пару месяцев чтобы не сесть в лужу и не встать на утро, а позиции не сняты из-за ошибки я рекомендую купить в 2-3 раза больше прокси, чем показали тесты.

Это нужно для того чтобы в случае бана прокси, программа переключилась на свободный прокси и продолжила съем, иначе если свободных прокси не будет – возникнет ошибка или появится запредельное количество капч (в зависимости от настроек).

После получения опыта, вы уже будете понимать, что программа точно снимет все фразы и дополнительные прокси покупать не стоит.


Мнение автора является его собственностью и не претендует на истину в последней инстанции.