5 способов применения парсинга для анализа конкурентов

22 Июнь, 2018

5 способов применения парсинга для анализа конкурентов

  1. Парсинг цен с сайтов конкурентов.
  2. Анализ контента конкурентов с наибольшими показателями вовлечённости.
  3. Парсинг результатов поисковой выдачи.
  4. Анализ SEO-стратегии конкурентов.
  5. Парсинг отзывов о конкурентах.

Процедура извлечения данных с веб-сайтов, также известная как парсинг, или scraping, чаще всего используется интернет-маркетологами для массовой выгрузки цен с сайтов конкурентов. Однако, парсинг также может быть полезен всем, кто занимается PPC, SEO и контент-маркетингом. Для наглядности разберём 4 способа применения парсинга, которые можно использовать для всестороннего анализа конкурентов. В качестве парсера мы воспользуемся программой Netpeak Spider.

1. Парсинг цен с сайтов конкурентов

Парсинг (извлечение) цен с сайтов конкурентов — одна из первичных задач, с которыми сталкиваются интернет-маркетологи и SEO-специалисты, работающие с Ecommerce-проектами. Процедура состоит из двух частей: поиска элемента, значение которого должно быть извлечено, а также непосредственно извлечения указанных данных. При необходимости  можно ограничить область поиска (определённой категорией либо же перечнем страниц, отвечающих каким-то конкретным требованиям).
В большинстве случаев для извлечения цен вам потребуется выполнить следующие действия:

  1. Откройте страницу товара.
  2. Найдите и выделите элемент, отвечающий за цену.
  3. Кликните по выделенному элементу правой кнопкой мыши и выберите в контекстном меню пункт «Исследовать код».
  4. Перейдите к подсвеченной строке кода и кликните по ней правой кнопкой мыши и нажмите «Копировать» → «Копировать XPath».
  5. Алгоритм для извлечения цен конкурентов

  6. Запустите Netpeak Spider.
  7. Откройте «Настройки» → «Парсинг».
  8. Включите опцию «Использовать парсинг HTML данных».
  9. Выберите режим поиска «Xpath» и область поиска — «Внутренний текст».
  10. Вставьте полученный с анализируемого сайт XPath в строку поиска.
  11. Настройки парсинга

  12. Нажмите «ОК», чтобы сохранить настройки и закрыть окно.
  13. Введите URL сайта в адресной строке и запустите сканирование кнопкой «Старт».
  14. По окончанию сканирования откройте на боковой панели вкладку «Отчёты» → «Парсинг».
  15. Кликните на пункт, в котором отображается индикатор страниц с искомыми данными.
  16. Нажмите кнопку «Показать выбранные».
  17. Ознакомьтесь с отчётом в открывшемся окне и выгрузите данные парсинга, нажав кнопку «Экспорт».

Аналогичным образом можно извлекать любую информацию, касающуюся товарного ассортимента, особых условий для покупателей и прочих особенностей продуктов, прописанных в карточках товаров.
Кстати, парсинг цен может пригодиться не только для сравнительного анализа, но и для составления товарного фида, необходимого для запуска контекстной рекламы: при помощи парсинга в несколько потоков вы можете быстро собрать все необходимые данные, избежав сбора информации вручную.

2. Анализ контента конкурентов наибольшими показателями вовлечённости

Разрабатывая контент в условиях высококонкурентной ниши, невозможно игнорировать действия конкурентов. Чтобы быть в курсе, какие публикации у них пользуются наибольшим спросом и обладают наибольшими показателями вовлечёности, вы можете опять-таки воспользоваться парсингом. Так вы быстро составите общую картину и выделите ключевые закономерности, которыми сможете воспользоваться для построения собственного контент-плана.
Если на сайте присутствуют открытые счётчики просмотров, лайков, репостов или комментариев, для парсинга вам следует выполнить следующие действия:

  1. Откройте страницу любой публикации конкурента.
  2. Найдите счётчик интересующего вас показателя.
  3. Выделите числовой показатель и кликните по нему правой кнопкой мыши. Выберите в контекстном меню пункт «Исследовать код».
  4. Парсинг счётчиков просмотров, лайков, репостов или комментариев

  5. Скопируйте XPath элемента.
  6. По аналогии с извлечением цен настройте и запустите процедуру парсинга в Netpeak Spider.
  7. Выгрузите полученные данные.

3. Парсинг результатов поисковой выдачи

При помощи парсинга вы можете в автоматическом режиме получить данные о топе поисковой выдачи по тому или иному запросу — адреса, Title и Description страниц, попавших в перечень результатов поиска. Процедура строится следующим образом:

  1. Откройте страницу Google и введите интересующий вас запрос в поисковой строке.
  2. Перейдите на страницу настроек поиска.
    Страница настроек поиска
  3. Установите нужное количество результатов на странице. Сохраните настройки и вернитесь к обновлённой странице поисковой выдачи.
    Установка нужного количества результатов поиска на странице
  4. Скопируйте адрес страницы.
  5. Запустите Netpeak Spider.
  6. В основном меню программы выберите «Список URL» → «Ввести вручную». В открывшемся окне вставьте скопированный ранее адрес.
    Ручное добавление списка URL
    Вы можете одновременно указать ряд URL страниц поисковой выдачи по всем интересующим вас запросам.
  7. В меню выберите «Настройки» → «Парсинг».
  8. Активируйте опцию парсинга.
  9. Задайте соответствующие имена для потоков — Title, Description и URL.
  10. Для каждого из потоков выберите режим поиска «Xpath» и область поиска — «Внутренний текст».
  11. Поместите в строку поиска следующие отрывки кода:

    • для парсинга Title — //*[@id=»rso»]//div[1]/div/div/div/h3/a
    • для парсинга Description — //*[@id=»rso»]//div[1]/div/div/div/div/div/span
    • для парсинга URL — //*[@id=»rso»]//div[1]/div/div/div/h3//@href
  12. Не покидая окна с настройками сканирования, перейдите на вкладку «User Agent» и выберите Chrome в качестве юзер-агента.
  13. Перейдите на вкладку «Продвинутые» и снимите галочки со всех параметров.
  14. Сохраните настройки.
  15. На боковой панели на вкладке «Параметры» отключите все параметры, кроме тех, что указаны в пункте «Парсинг».
  16. Запустите сканирование кнопкой «Старт».
  17. По окончанию сканирования в таблице результатов вы увидите несколько столбцов, соответствующих потокам парсинга, а в них — количество найденных значений (если всё сделано верно, то числа не будут слишком отличаться от количества результатов на странице поиска, которое вы настраивали  в пункте номер 6.
    Потоки парсинга
  18. Чтобы просмотреть результаты по каждому типу данных, перейдите к интересующему потоку (столбцу) в таблице результатов и дважды кликните левой кнопкой мыши по числовому показателю.
    Просмотр результаты по каждому типу данных
  19. Ознакомьтесь с данными парсинга в открывшейся таблице.
  20. Для быстрого переключения между результатами разных потоков парсинга кликните по строке «Отчёты» и выберите подходящий.
    Быстрое переключения между результатами разных потоков парсинга
  21. Для выгрузки результатов нажмите «Экспорт» и сохраните отчёт в виде таблицы.

4. Анализ SEO-стратегии конкурентов

Тестируя новые методики для улучшения поисковой оптимизации своего сайта, вы наверняка не раз заглядывали на сайты успешных конкурентов. Какие технологии они используют? Какие методики технической оптимизации привели их к текущим результатам?
В числе вопросов, на которые можно быстро, в автоматическом режиме получить ответ благодаря соответствующей настройке парсинга:

  • Используют ли конкуренты определённые элементы микроразметки?
  • Какие элементы микроразметки используются на страницах конкурентов с развёрнутыми сниппетами?
  • Встраивают ли конкуренты медийный контент (с youtube или других площадок с видео или аудио-контентом) на страницы, к примеру, товаров?
  • Какие метаданные используются на страницах сайтов-конкурентов?

Оперативно получить ответы на эти и многие другие вопросы можно, параллельно запустив в Netpeak Spider парсинг для нескольких сайтов-конкурентов.

4.1. Парсинг микроразметки

Если вы хотите узнать, используют ли ваши конкуренты некий определённый элемент микроразметки Schema, вы можете выполнить следующие действия:

  1. Откройте «Настройки» → «Парсинг».
  2. Активируйте опцию парсинга HTML данных.
  3. Выберите режим поиска «Содержит» и область поиска «Только текст».
  4. Если вам нужно убедиться в наличии конкретного элемента, вставьте в строку поиска itemprop=»name» (а месте name может быть любой другой элемент глоссария Schema);
  5. Если нужно увидеть всю микроразметку целиком, чтобы проверить, к примеру, корректно ли выставлен itemtype для целого сайта/раздела, воспользуйтесь режимом поиска «XPath», выставьте область поиска «Весь HTML-элемент» и в строку поиска вставьте //*[@itemtype]/@itemtype.

4.2. Поиск медийного контента

Если вы хотите выяснить, имеются ли на сайте конкурентов (и если да — какие именно) страницы со встроенным через iFrame контентом (видео с Youtube и Vimeo, аудиозаписи и плейлисты с Soundcloud, Bandcamp и т.п.), выполните следующие действия:

  1. Откройте «Настройки» → «Парсинг».
  2. Активируйте опцию парсинга HTML данных.
  3. Выберите режим поиска «Содержит» и область поиска — «Весь исходный код».
  4. В строку поиска вставьте <iframe.
  5. Запустите процедуру парсинга.
  6. По итогу сканирования выгрузите отчёт со списком страниц, на которых был найден упомянутый выше элемент.

5. Парсинг отзывов о конкурентах

В случае, если для продвижения в вашей нише особое значение имеют платформы с отзывами и рейтингами, вы наверняка следите не только за отзывами касательно своего продукта, но и за оценками, которые пользователи оставляют вашим конкурентам. Чтобы в автоматическом режиме «вытягивать» отзывы о конкурентах, вы можете воспользоваться парсингом. К примеру, чтобы настроить парсинг отзывов с платформы G2 Crowd:

  1. Откройте «Настройки» → «Парсинг».
  2. Активируйте опцию парсинга HTML данных.
  3. Создайте два потока поиска для выгрузки положительной и отрицательной составляющих отзывов — «Like» и «Dislike» соответственно.
  4. Выберите режим поиска «RegExp» и область поиска — «Весь исходный код».
  5. Для первого потока воспользуйтесь регулярным выражением (?<=like best?)(.*)(?=What do you dislike?), для второго — (?<=What do you dislike?)(.*)(?=Recommendations).
  6. Сохраните настройки и введите вручную список URL со страницами отзывов (всего на каждой странице размещается 6 отзывов).
  7. Выгрузите результаты по аналогии с методикой, описанной в параграфе 3.

Коротко о главном

Несмотря на то, что основным назначением парсинга считается извлечение цен и товарных артикулов с сайтов конкурентов, его применение не ограничивается исключительно данной задачей. При помощи процедуры парсинга, которую мы подробно описали на примере Netpeak Spider, можно решать задачи, связанные со следующими направлениями работы:

  • анализ контента конкурентов;
  • анализ поисковой выдачи по определённым запросам;
  • анализ цен и товарного ассортимента;
  • анализ отдельных аспектов SEO-стратегии конкурентов;
  • выгрузка отзывов о конкурентах со специализированных платформ.

Кстати, для читателей блога Plerdy действует 10% скидка на приобретение лицензий продуктов Netpeak Software, в частности — Netpeak Spider. Для её использования задействуйте при покупке промокод 26618a85 или перейдите по этой ссылке.