Базы телефонов с досок объявлений avito.ru, auto.ru, drom.ru, irr.ru, am.ru, bibika.ru и других сайтов объявлений
Достаточно часто программа edrom используется не только для мониторинга и быстрого оповещения об интересных предложениях на сайтах объявлений, но и простого сбора с них информации (парсинга). Как правило, производится сбор контактных данных (телефонов) из объявлений на avito.ru, slando.ru, auto.ru, drom.ru, irr.ru, bibika.ru, chance.ru и т.д. Наиболее популярными категориями объявлений для парсинга являются компьютерная и бытовая техника, недвижимость, услуги, автомобили.
Если вам нужна качественная база телефонов из свежих объявлений, можно воспользоваться возможностями программы edrom, в реальном времени производя сбор данных. При этом стоимость базы получается в 5-10 раз дешевле, чем покупка "готовых" баз неизвестного происхождения.
Некоторые возможности, которые обеспечивает использование программы при парсинге досок объявлений:
1) пользователи сами устанавливают критерии, по которым производится отбор объявлений (регион, категория объявлений, цена и т.д.);
2) сбор базы можно осуществлять ежедневно, 2 раза в день и т.д.;
3) программа (если нужно) не собирает повторяющиеся номера;
4) при необходимости можно "сбрасывать" базу, например, ежемесячно (и тем самым вновь "обработать" найденные ранее номера до нового сброса);
5) автоматическое обновление программы при изменении принципа работы сайтов. За последние 2 года на основных сайтах внедрены и постоянно меняются различные механизмы защиты от парсинга, тем не менее, программа все это время работает...
Если у вас все же нет возможности заниматься сбором необходимых данных с использованием программы edrom, всегда есть возможность приобретения собираемых с ее помощью уже готовых баз, а также баз по широкой группе товаров и услуг сайта avito.ru.
Рассмотрим основные особенности работы с программой и настройки, которые можно использовать при парсинге и сборе телефонов с досок объявлений. Программа предусматривает два основных режима экспорта контактных данных: в формат Excel (CSV) и в текстовые файлы last.txt и all.txt.
1. Форматы экспорта данных
1.1. Экспорт в формат Excel/CSV
При этом способе производится экспорт как контактных данных, так и другой дополнительной информации, см. рисунок:
Рассмотрим некоторые рекомендации, которыми можно воспользоваться, если производится экспорт данных в формат Excel.
Чтобы вести сбор только новых (уникальных) телефонов (т.е. на которые ранее по базе программы объявления не размещались), необходимо в настройках программы (Главное меню\Сервис\Парметры мониторинга\Фильтр), установить значение "1" для параметра "Объявления перекупщиков. Если количество других объявлений продавца превышает" – "1", см. рисунок:
После установки этой опции в таблице "Результаты мониторинга" отображаются объявления только с уникальными телефонами, см. рисунок:
Таким образом при сохранении результатов в Excel экспортируются только объявления с уникальными контактными данными. Другая часть результатов с телефонами, на которые ранее уже размещались другие объявления, фильтруются в отдельную таблицу "Удаленные", которую также можно экспортировать в Excel (для этого следует сделать активной вкладку "Удаленные"), см. рисунок:
В условиях фильтра также рекомендуется отметить опции Объявления, для которых не удалось определить контактные данные, Страницы, при загрузке которых возникла ошибка, а также Объявления с сайтов, по которым анализ не поддерживается (см. рисунок выше).
После окончания мониторинга и анализа объявлений для экспорта данных из таблиц "Результаты мониторинга" или "Удаленные" необходимо открыть вкладку с нужной таблицей и воспользоваться командой Главное меню\Файл\Экспорт результатов в Excel…
1.2. Экспорт в текстовые файлы last.txt и all.txt
Кроме экспорта в Excel, существует возможность производить автоматизированный вывод телефонов из объявлений в текстовые файлы. Содержимое текстового файла показано на рис.:
Для включения этой функции необходимо отметить флажок в опции "Дополнительно сохранять контактные данные в файлы last.txt и all.txt (если требуется спец. работа с телефонами)", см. рис.:
После выбора этой опции собираемая база телефонов автоматически экспортируется в 2 файла:
last.txt – список уникальных телефонов, найденных за время с последнего запуска до закрытия программы.
all.txt – список собранных уникальных телефонов за все время работы программы (включая телефоны, содержащиеся в файле last.txt).
В файлы last.txt и all.txt вносятся только уникальные телефоны (на них согласно БД истории объявлений – объявлений ранее не размещалось), которые находит программа в процессе мониторинга и анализа.
На формируемые списки не оказывают влияние установленные фильтры – экспортируются только уникальные телефоны.
Файлы обновляются только при закрытии программы: last.txt – перезаписывается, в all.txt – каждый раз добавляется текущее содержимое файла last.txt. При этом, если выбирается команда "Выход (без сохранения)" содержимое файлов не обновляются и результаты не сохраняются. Расположение данных файлов - тот же каталог, где находится файл edrom.exe.
Содержимое файлов last.txt и all.txt синхронизируется с основной БД истории объявлений, поэтому файлы никогда не содержат повторяющихся номеров телефонов (если специальным образом не производится сброс БД истории объявлений, см. ниже).
Важным моментом работы является возможность удалить или переместить в другую папку файл all.txt в любой момент времени. Это может оказаться полезным, к примеру, если программа в течении нескольких дней проводила сбор списка уникальных телефонов. После того, как по списку проведена какая-либо операция (смс-рассылка, обзвон и т.д.), чтобы уже по "обработанным" номерам эти операции не повторять, можно файл all.txt удалить или перемесить в другую папку.
2. Другие рекомендации по экспорту данных
2.1 Сброс базы данных (БД) программы
Если вы только начинаете работать с программой, ее БД уже содержит историю объявлений. Для крупных городов (Москва, Санкт-Петербург) история объявлений может содержать 500 тыс.-1 млн. уникальных телефонов и более. При определенных настройках Фильтра I программа не экспортирует телефоны из объявлений, если они уже есть в истории объявлений (на контактные данные ранее уже подавалось другое объявление, а также объявления, которые "подняты в поиске", "обновлены" и т.д.).
Чтобы не терять телефоны, которые уже содержатся в БД, можно сбросить ("обнулить") базы программы, описанным далее способом. Для этого следует воспользоваться функциями Очистка стека новых объявлений и Удаление истории объявлений, которые вызываются через Главное меню\Сервис\Оптимизация базы данных\Вкладка "Сброс". См. рис.:
Сброс баз с использованием этих функций позволит начать сбор телефонов с нуля. Операцию "обнуления" можно производить с любой регулярностью по мере необходимости (ежемесячно, еженедельно, ежедневно и т.д.). Также рекомендуется провести сброс баз, если программа настраивается для использования по новым регионам или категориям объявлений.
2.2. Рекомендации по частоте запуска программы
Если корректировка условий поиска (критериев, задаваемых в верхней таблице главного окна программы), не произведена, то необходимо иметь в виду, что по умолчанию программа по большей мере настроена на мониторинг объявлений в реальном времени (для быстрого выкупа выгодных предложений). Т.е. если запуск программы производится только 1 раз в сутки (к примеру, вечером), программа может не "найти" объявления, которые были размещены утром (это актуально для наиболее популярных сайтов – avito.ru, slando.ru – из-за большого количества добавляемых объявлений, а также для yandex.ru – из-за большого потока отображаемых объявлений с разных сайтов).
Чтобы избежать потери телефонов из таких объявлений, следует откорректировать условия поиска так, чтобы задать более глубокий мониторинг во времени (т.е., к примеру, для авито загружать не 10 последних страниц, а 20 страниц. При этом на 20 странице должны быть объявления, размещенные не менее чем 24 часа назад – если запуск программы производится 1 раз в сутки).
Если вы не хотите корректировать условия поиска и при этом собирать все телефоны, можно просто оставить работать программу на целый день (задавая интервал между мониторингами – 15-20 мин) или же запускать несколько раз в день (2-3-4 раза).
2.3. Кэш севера
Для наиболее быстрого извлечения телефонов из объявлений следует проверить правильность настройки кеша (Главное меню\Сервис\Параметры мониторинга\вкладка "Кеш сервера"), где обратить внимание на регион и категорию объявлений. Неверная настройка параметров этой вкладки или невозможность обмена данными с кешем являются причиной быстрой блокировки статического ip-адреса на некоторых сайтах (напр. на авито).Подтверждением того, что обмен данными с кешом идет успешно, являются сообщения следующего содержания:
Подключение к кэш-серверу (Download)...
Получены новые данные с кэш-сервера.
Соединение успешно завершено.
и т.д., см. рис:
Таким образом, обмен данными с кешом на сервере edrom позволяет не только ускорить извлечение телефонов из объявлений, но и снизить вероятность блокировки на некоторых сайтах (напр. avito.ru, drom.ru и т.д.), если у вас статический ip-адрес.
2.4. Сочетания быстрых клавиш для дополнительной обработки данных
Если необходимо проводить дополнительную обработку данных на основе истории более ранних объявлений продавца, то удобнее делать это прямо в программе, а затем уже полученные результаты экспортировать в Excel. Для такой обработки используются следующие сочетания быстрых клавиш:
1. Клавиша Insert – просмотр истории более ранних объявлений.
2. Клавиша Insert – закрытие окна с историей более ранних объявлений.
3. Клавиша Delete – удаление из таблицы с результатами поиска неудовлетворяющего критериям объявления.
2.5. Выбор экспортируемых столбцов
Чтобы не экспортировать лишние данные, производится сохранение только тех столбцов, которые являются видимыми в результатах поиска. Для отображения/скрытия отдельных столбцов используется контекстное меню, активируемое при наведении курсора мыши на графы таблицы и нажатии правой кнопки мыши (см. рисунок ниже). Исключением являются невидимые столбцы «Телефон» и «http-адрес», которые экспортируются в любом случае.