Рытикова Людмила (training_dog) wrote in info_business1,
Рытикова Людмила
training_dog
info_business1

И "чайники" станут хакерами

Оригинал взят у oblako_tech в И "чайники" станут хакерами
Многие из нас сталкиваются с проблемой, когда надо вытащить из интернета информацию в виде списка. Это могут быть телефоны для телемаркетинга, товары с ценами, перечень гостиниц и т.д. Но информация в интернете организована так, что на странице, которую вы открыли, чаще всего видна только часть списка, остальное скрыто на других страницах. Это сделано для того, чтобы ускорить загрузку информации и не замедлять работу сайта. При этом в виде списка представлена только часть информации, например, название товара, фото и цена. Чтобы посмотреть остальные характеристики, вам надо кликнуть на карточку товара. Так что, если вам необходимо получить всю информацию по всем товарам списка (а список может быть на 10, 100, 500 и более страницах), кликать придется очень долго...

На помощь приходит ParseHub. Вначале о грустном. Во-первых, этот сервис на английском языке, во-вторых, разобраться в работе сразу с разбега не получиться. Хотя очень много видео и текстовых пошаговых подсказок. Придеться набраться терпения. Но результат того стоит. Итак, как это работает.
Сразу скажу, что не буду здесь досконально разбирать работу сервиса. Кто заинтересуется, сможет сам попробовать. Моя задача показать, что получается в результате.
Итак, первое, что необходимо, это скачать, небольшую утилиту с сайта к себе на комп.
Затем выбираем сайт, с которого хотим получить информацию. Например, я выбрал этот:



Как видите, этот список расположен на 67 страницах, при этом на каждой странице по 50 записей. Итого не менее 3350 записей. Я выбрал пример попроще, когда не надо заходить в карточку. Вся необходимая мне информация видна сразу. Итак, я хочу получить название компании, адрес и телефон и представить это в виде упорядоченного списка.

Запускаем скаченную утилиту, создаем новый проект и выбираем нужный сайт.



Обратите внимание, окно слева вверху, это исходный сайт. Окно справа, это инструменты, которыми я управляю. Вот эти 11 серых полосочек я создал сам, кликая на исходный сайт и инструменты в черной колонке окна справа. В окне слева внизу, сразу появляются данные в том виде, в котором они будут вытащены из сайта. Выглядит поначалу все очень сложно, но потренировавшись, вы сможете настраивать этого робота за несколько  минут.

После того, как проект создан, его необходимо сохранить и нажать Run. И вот что получается через несколько минут:

Это начало списка.


Это конец списка.


А теперь попробуйте представить, сколько у вас заняло бы времени печатать это вручную ). Пользуйтесь на здоровье.

UPD. Со мной тут связались создатели ParseHub и предложили всем, кто у себя в блоге напишет про сервис, существенные скидки на приобретение продукта.
Tags: Программы, Список
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 0 comments