Отзыв о Serp Parser и опыт использования
8 февраля 2015
Итак, что я имел на входе? Да ровным счетом ничего. Кроме желания научиться парсингу у меня был только ноут и кое какие знания в программировании. Ими я, конечно же, делиться не буду, это не столь важно. Главное я хочу показать, что мне удалось достичь с помощью упорства и поставленной цели.
Я давно занимаюсь парсингом и сбором баз компаний России, Украины, Казахстана и Беларуси. Уже освоил Яндекс-Карты, так что проблем тут особых нет. Но два дня назад, мне нужно было собрать базу контактов физических лиц, который проживали бы в Санкт-Петербурге и имели высшее образование. Как это сделать?
Я начал парсить всякие питерские форумы, собрал больше 10000 контактов, но база вышла не валидной, потому что в ней были только e-mail адреса без имен, места учебы, интересов и возрастов. Что я буду с такой базой делать? Ничего! Потому что отказы при e-mail рассылке по такой базе физических лиц была бы почти 100%.
И тут меня осенило, существует же сервис Ответов майл ру. Почему бы не попробовать парсить с него, по крайней мере я получу больше данных, но придется писать парсер с нуля. Ничего страшного — впереди выходные, я успею! Так как база мне была нужна уже к понедельнику. И я загорелся этой идеей. Начал пытаться парсить Ответы.
Для более понятной и упрощенной логики я решил делить парсинг на несколько этапов:
Я не сильно разбирался в регулярных выражениях, но тут без них было не обойтись. Только с помощью них можно было привести в соответствие все строки кода на странице пользователя. Суть была в том, чтобы научиться извлекать учебные заведения в правильном порядке и с правильными границами. Так как хранились они в одной структуре данных (в одном контейнере), и отличались лишь классом. Более того, внутри классов находились еще какие-то объекты со стилями, котоорые и мешали правильно извлекать данные.
Мне пришлось искать решение в интернете, я задал вопрос на одном популярном форуме, но к сожалению там мне не помогли, может потому что было уже 3 часа ночи, а может просто все спали… В итоге, к утру я смог найти решение, изучив пару учебников по регуляркам. Итак, вроде все, вот оно — решение моей проблемы! Но…
Я столкнулся с очередной проблемой — майл ру банит меня и считает, что на него производится Ddos атака, забавно, не правда ли? Удалось решить снижением одновременных подключений до 2, выяснил, что 2 это оптимальное число для парсинга любого количества данных.
Итак, что я теперь имею?
За 2 дня и 1 ночь работы мне удалось настроить парсинг одной и самых крупных соц. сетей «Мой мир» и самого крупного сервиса вопрос-ответ «Ответ майл ру».
На выходе я имею базу данных, содержащую сведения о пользователе (замечу, это физ. лицо, а сбор баз физических лиц — довольно проблематичное заняние, тем более, мне удалось собрать практически все сведения о пользователях), которые я могу использовать для самых разных целей:
Такую базу можно использовать для:
Вообще хочется сказать, что моя база позволяет ранжировать физ. лиц по максимальному числу параметров, поэтому отлично подходит под любую целевую аудиторию.
Вот таких успехов я смог достичь за 2 суток, зато меня посетило чувство удовлетворения, потому что я смог добиться поставленной цели, ну и еще одним плюсом — хочу предложить желающим ознакомится с моими базами тут.
8 февраля 2015
8 февраля 2015
8 февраля 2015
8 февраля 2015
8 февраля 2015
8 февраля 2015
8 февраля 2015
8 февраля 2015
8 февраля 2015
Один раз в месяц помимо ссылок на заметки делюсь жизнеными наблюдениями
— никакого спама и всегда можно отписаться