В данной статье мы разберем, как парсить сайты с помощью «Netpeak Spider» (десктопной программы для парсинга) на примере интернет-магазина. Он позволяет собрать практически любые данные в автоматизированном режиме.
Довольно часто «Netpeak Spider» используют для сбора информации о товарах с интернет-магазинов с возможностью выгрузки в Excel таблицу. Это необходимо для того, чтобы в дальнейшем импортировать эти данные на свой сайт.
Парсинг товаров с сайта интернет магазина в таблицу
Если Вы обладатель сайта агрегирующего/продающего товары по тематике, к примеру, «Оборудование для общепита», и в Вашем интернет-магазине представлена эта категория, то парсер товаров с сайта поставщика в таблицу Вам может определенно пригодиться.
Связано это с тем, что далеко не все поставщики могут дать Вам выгрузку товаров в формате excel. Либо она обладает излишними данными, которые предполагают большой объем работы: картинки, вставленные непосредственно в таблицу, много ненужной информации, макросы и т.д. Проще взять нужную Вам информацию с исходного сайта, выбрав в автоматизированном режиме именно те данные, которые нужны Вам. Потом можно выгрузить их в эксель или csv таблицу, чтобы в дальнейшем импортировать с помощью «WP All Import» на WordPress сайт или какой-то другой. К слову, не обязательно работать с интернет-магазинами, поскольку «Netpeak Spider» позволяет добывать любую информацию с любых сайтов.
SEO аудит сайта
Вы с таким же успехом можете парсить текстовую информацию, к примеру: новости, аналитику, картинки, агрегировать статистику и эту информацию импортировать в WordPress с помощью «WP AllImport». Либо можно применять дополнительные фильтры и продолжать работать с полученной информацией в табличном виде.
Так же можно пускать ее в дальнейшее производство. Например, спарсить e-mail по списку сайтов и в дальнейшем пустить их в систему е-mail рассылок. Либо на основе этих e-mail создать аудиторию для ретаргетинга в рекламной компании (Вконтакте или через Яндекс аудитории).
Если Вам интересно узнать более подробно о том, как импортировать товары или данные из уже полученной таблицы, то Вы можете посмотреть вот это видео. Там я подробно рассказываю, как это сделать на примере сайта на WordPress и плагина «WP All Import».
Netpeak Spider - посмотреть все возможности
Настройки парсинга данных «Netpeak Spider»
Если мы хотим собрать информацию по всем товарам, которые есть в каталоге интернет-магазина, то нам необходимо заполнить следующие поля:
- Название товара;
- Цена;
- Описание;
- Картинка.
Для этого нам необходимо проделать следующие действия:
- Открываем «Netpeak Spider»;
- Заходим в «Настройки» — «Настройки парсинга»;
- Ставим отметку «Использовать парсинг HTML данных;
- Извлекать необходимые данные можно несколькими путями — XPath, CSS-селектор и регулярные выражения;
- Можно просто находить какую-то необходимую информацию и считать, сколько раз она встречается без сохранения в таблицу;
Более подробно почитать про каждый из вариантов извлечения данных Вы можете ниже
Всего в программе 4 вида поиска:
- Содержит → считает количество вхождений искомой фразы на странице. Работает в формате «только поиск», то есть не извлекает никаких данных. Самый простой вид поиска: представьте, что Вы, просматривая исходный код страницы, просто нажимаете Ctrl+F и вводите необходимую фразу – программа делает это автоматически на всех страницах и показывает, сколько значений она нашла.
- RegExp → извлекает все значения, соответствующие заданному регулярному выражению. Работает в формате «поиск и извлечение». Следующий по сложности вид поиска: позволяет больше кастомизировать процесс, значительно расширяя возможности поиска, однако требует базовых знаний регулярных выражений. Читайте подробнее о регулярных выражениях.
- CSS-селектор → извлекает все значения необходимых HTML-элементов на основе их CSS-селекторов. Работает также в формате «поиск и извлечение». Достаточно простой и, в то же время, мощный способ извлечения данных: например, необходимо указать всего лишь одну букву «a», чтобы вытянуть все ссылки со страницы. Читайте подробнее о CSS-селекторах (на английском языке).
- XPath → извлекает все значения необходимых HTML-элементов на основе их XPath. Работает также в формате «поиск и извлечение». Самый мощный способ выборки данных, однако, требует определённых знаний и опыта. Читайте подробнее об XPath.
Копирование необходимых элементов через xPath
Для того чтобы скопировать необходимые элементы через xPath, открываем наш сайт и карточку товара, где содержится информация. Чтобы проще идентифицировать элементы, нам понадобится консоль вебмастера:
- В Chrome она вызывается клавишей F12.
- После этого нажимаем на иконку выделения со стрелкой.
- Выделяем необходимые элементы — название товара в данном случае.
- Консоль подсвечивается, и мы нажимаем правой кнопкой мыши для выбора опцию «копировать в xPath».
После того данные в xParth скопированы, можно переходить в настройки парсинга. В том поле, мы будем парсить название, необходимо выдрать опцию xPath. Туда же ставим скопированный xPath из консоли вебмастера.
После этого можно проделать те же самые шаги для «Описания». Если Вы хотите скопировать не весь текст, то можно выделить только определенную его часть. Но так как в данном примере нас интересует полностью описание, то я выбираю тег, который содержит «Описание» и «Особенности».
Получить 14 дней бесплатного пользования в подарок
Особенности парсинга картинок с помощью CSS-селектора
Спарсить картинку xPath нам не поможет. Связано это с тем, что если мы выделим ее таким же образом и попробуем скопировать xPath, то он будет уникальный для конкретного товара. То есть он будет содержать id конкретной картинки, и когда парсер «Netpeak Spider» будет переходить по карточкам других товаров, то там этот id будет меняться, и мы никакую информацию не скопируем.
Поэтому в данном случае, чтобы скопировать url картинки, мы воспользуемся таким методом извлечение данных, как CSS-селектор. Чтобы Вам проще было работать с CSS-селекторами, я рекомендую установить расширение для Chrome оно называется «ChroPath». После установки он будет находиться в правом верхнем углу экрана.
Нас интересует значение src для тега image, так как в нем содержится url нашей картинки. Так как у этого тега img нет какого-то определенного класса, то мы можем посмотреть, что является его родителем.
Мы видим, что этот тег img находится внутри div с id «ShowCardImage». Соответственно, в настройках CSS-селектора мы можем указать, чтобы он нашел на странице элемент с id «ShowCardImage», а потом нашел внутри него img и скопировал значение атрибута src.
С помощью расширения ChroPath открываем вкладку в консоли вебмастера. Здесь можно выбрать, какой тип селектора мы хотим использовать.
Я указываю в ChroPath: id «#ShowCardImage», и потом говорю, какой элемент меня интересует, т.е. img.
После этого я нажимаю «Enter» и он мне выдает информацию согласно CSS-селектору: подсвечивает картинку, которую нашел, а так же фрагмент кода, который соответствует данному CSS-селектору.
Я сразу могу протестировать, правильно ли работает мой CSS-селектор. Здесь, в настройках программы «Netpeak Spider», мне нужно указать, что меня интересует значение атрибута src. Переходим в настройки, в поле «Картинка» и выбираем опцию извлечения данных «CSS-селектор». Далее нужно поставить правило, чтобы найти элемент с id «ShowCardImage» и внутри него найти картинку (тег img), а потом из него извлечь значение атрибута src.
Ограничение области парсинга
Далее, чтобы не парсить лишних данных и не собирать ненужную информацию необходимо ограничить область поиска парсера. Нас не будут интересовать страницы «О компании», «Статьи», «Контакты», «Блог», «Акции» и те разделы сайта, где не содержится информация о товарах. Мы хотим спарсить только каталог, взять информацию о товарах, а все остальные страницы просто игнорировать.
Для этого в «Netpeak Spider» можно задать правила:
- Заходим в «Настройки» — «Правила», нажимаем «Добавить правила»;
- Ставим «Включить» в таблицу только те url, которые содержат папку /goods/.
- Если мы перейдем на какие-то другие страницы сайта, то увидим, что они сгруппированы по категориям.
- Если мы посмотрим по всем страницам каталога товаров, то увидим, что они все идут через категорию /goods/. То есть в адресе сайта у нас содержится папка /goods/, и все товары содержатся в ней.
Создание групп правил в «Netpeak Spider»
При необходимости мы можем создавать группы правил и выстраивать логику работы между ними.
- Логическое условие «или». Например, если я хочу парсить информацию только из разделов каталога или статей, то я могу добавить второе правило включать в исходный отчет только раздел /goods/ и /articles/ и поставить между ними логическое условие «или». То есть если страница содержит, либо другое, то нужно добавлять ее в отчет.
- Логическое условие «и». Правило «и» применяется, когда url должен удовлетворять всем правилам, и таким образом фильтровать и экономить ресурсы парсера.
После того как мы задали условия парсинга и правила обхода сайта – сохраняем настройки и нажимаем «ОК»
Экспорт результатов парсинга
В параметрах мы выбираем тот вид работы, который должен производиться программой. То есть я выбираю здесь исключительно парсинг. Меня не интересует, чтобы «Netpeak Spider» собирал информацию по индексации, битым ссылками и другим параметрам SEO, которые предназначены для анализа внутренней оптимизации сайта. Это необходимо для ускорения работы, а так же для экономии ресурсов и времени.
После того, как выбрана опцию «Парсинг», можно проставить изначальную ссылку на каталог. После этого «Netpeak Spider» перейдет в указанный раздел и начнет переходить по всем ссылкам, собирая информацию, согласно правилам и настройкам, которые мы указали ранее. Для этого:
- Я ставлю ссылку на каталог, как начальный url.
- После этого нажимаю «Запуск».
- Мы видим на вкладке «Парсер», как происходит сбор данных. Если данные собраны, то нам будет показано, что они есть. Для тех полей, где их нет, мы сможем видеть, что они не собраны.
Когда парсер соберет всю информацию и обойдет весь сайт, можно перейти на отдельную вкладку и сразу все результаты посмотреть:
- Ссылка на страницу товара;
- Название товара;
- Описание (где есть описание – оно подсвечивается, где нет – будет пустым);
- Цена;
- Картинка.
Мы видим, что все исходные данные собраны. После этого мы нажимаем «Экспорт» и сохраняем в нужном нам формате. Далее мы можем пустить эти данные в дальнейшую работу. Либо работать с ними в таблице и запускать дальнейший импорт на основе этих данных на наш сайт.
Заключение
Если у Вас возникли вопросы по работе «Netpeak Spider», то Вы можете задать свой вопрос в комментариях. Я постараюсь максимально подробно на него ответить. Если Вы не хотите разбираться с какими-то техническими моментами, и Вам просто нужен результат, то Вы можете и оставить заявку на обратную связь. Мы обсудим, как я смогу Вам помочь: как организовать парсинг, и как спарсить и импортировать данные на Ваш сайт.
Вы можете скачать Netpeak Spider и бесплатно пользоваться полноценной версией программы течении 7 дней здесь, если вы решите и дальше(после завершения 7 дней пробного периода) пользоваться Netpeak Spider то можете сэкономить 10% воспользовавшись промокодом 14ca4308.
шикарно))) думал она только для сео аудитов
Спасибо за подробное видео! Обязательно попробую сделать парсинг с netpeak-spider. Только вот вопрос один с регистрацией — там вроде бы бесплатно идет пробная версия на 14 дней. Можно ли с ее помощью все это сделать будет?
Да, это полнофункциональная версия Spider т.е. можно парсить и анализировать сайт по полной программе
Очень интересная статья. Главное, как раз в тему! Как раз собирался найти годный инструмент для парсинга товаров интернет-магазина. По Вашей инструкции вроде бы все просто и понятно) А будут ли еще статьи про полезные функции netpeak-spider? Я так понимаю, что у них же не только парсинг товаров есть?
Да, планирую записать видео про возможности Netpeak Spider в плане анализа внутренней SEO оптимизации сайта.
Добрый день! Посмотрела ролик, почитала статью и ….ничего не поняла…Мне нужно сделать такой парсинг, но ничего не получается….Можете помочь разобраться с netpeak-spider?
Да, конечно, отправьте мне сообщение на страние «Контакты«
Здравствуйте! Довольно интересная тема, надо будет попробовать. А бывает ли так, что netpeak-spider после парсинга интернет-магазина выдает неправильные данные? И можно ли как-то их проверить?
Такое может произойти если вы неправильно определили контент который нужно спарсить в настройках, после указания настроек имеет смысл запусить парсер для небольшого кол-ва страниц с сайта который вы парсите и проверить что данные которые он собирают это то что вам нужно.
Благодарю за обзор, очень подробно и полезно! Можете подсказать, как с помощью netpeak-spider найти страниц с 404 ошибкой?
Это нужно запустить Netpeak Spider в режиме анализавнутренней оптимизации и в отчетах смотреть пункт 4xx ошибки, вот скриншот https://yadi.sk/i/Gm5tsRhi3aA2DV
Привет! Chropath скачать установил, но он не появился в консоли! Скажи Как мне его включить то?
Откройте диспетчер расширений в настройках хрома chrome://extensions/ и посмотрите что Chropath там активирован
Здравствуйте! Подскажите пожалуйста, хочу спарсить товар с этого сайта tokoo.ru на сайт который тоже сделан на вордпресс. По тем настройкам которые у вас в видео указаны не получается это сделать, какая то ерунда получается. Подскажите какие настройки выполнить в программе что бы взять товар с этого сайта корректно? Готов заплатить за совет. очень жду вашей помощи спасибо!
Напишите, пожалуйста, заявку через страницу контактов — нужно спарсить все товары или какой-то раздел и тд… и обсудим как можно вам помочь
Делаю все правильно, как показано на видео, но конечные результаты, вместо заполненных цена, описание и т.д. я получаю 1 и 0
Нужно нажать на вкладку/ссылку «Все результаты» и откроется таблица с результатами парсинга
Здравствуйте, Дмитрий!
Можно ли с помощью Netpeak Spider скачать картинки для всех товаров на свой компьютер?
Как это настроить?
Если этого нельзя сделать, какую др. программу посоветуете для данной цели?
Netpeak Spider парсит данные т.е. он может собрать URL картинок в таблицу, а вы потом можете скачать по этим URL картинки себе на комп воспользовавшись любым расширением для браузера которое поддерживает потоковую скачку по списку файлов, вот например для Хрома https://chrome.google.com/webstore/detail/download-manager-pro/lkhlggjafoiinffkpfkdgjpabbljcffe
Здравствуйте. Почему у меня не парсятся товары с сайта harrods.com? Если парсить отдельный товар, то выходит. Но если делать ссылку на раздел (женская одежда или пальто), то не выходит. Просто в результате какие то цифры, а самих товаров в результате нет?
Вот так сразу не скажешь — нужно смотреть шаблон парсинга, можете заказать консультацию на странице контактов и мы вместе посмотрим.
Здравствуйте! По Вашему видеоуроку не удаёться скопировать изображения. В ChroPath пишет что найдено 0 элементов, хотя пишу всё как вы показали. Возможно дело в том что Div не id а Class? Как тогда надо писать команду в строке селекторс(гже проверка)?
Добавить к сравнению
Выборка через id начинается с #(решетки), а выборка через класс с .(точки)