Chrome Web Scraper Tutorial от эксперта Semalt

Если вы используете Google Chrome, для вашего браузера есть расширение, которое может помочь в очистке веб-страниц. Он известен как «Scrapper», и его можно использовать без проблем. Scrapper поможет очистить содержимое веб-сайта и загрузить результаты в документы Google.

Как удалить сайт, используя расширение Scraper?

1. Выберите Интернет-магазин Chrome в Google Chrome;

2. В расширениях выполните поиск слова «Scrapper»;

3. Первым результатом поиска является расширение, известное как '' Scrapper '';

4. Выберите кнопку из списка «Добавить в Chrome»;

5. Вернитесь к списку британских депутатов;

6. Нажмите на следующую ссылку ;

7. Теперь найдите один MP и убедитесь, что запись помечена;

8. Щелкните правой кнопкой мыши, чтобы выбрать опцию «Scrape Similar ...»;

9. Консоль для скребка появится в другом окне;

10. Просмотрите очищенный контент в консоли скребка;

11. Чтобы содержимое сохранялось в виде таблицы Google, выберите «Сохранить в Документах Google ...».

Расширенный соскоб

Прежде чем придерживаться этого рецепта, полезно понять основы HTML. Например, вы можете прочитать краткое введение в HTML по этой ссылке

Давайте представим, что нас интересуют все фильмы, в которых снялась Азия Ардженто, известная итальянская актриса.

1. В IMDB есть очень подробный архив актеров. Сайт Asia Argento: http://www.imdb.com/name/nm0000782/;

2. Здесь вы можете просмотреть все роли, сыгранные актрисой. Давайте начнем собирать интересующую нас информацию;

3. Попытайтесь очистить его так, как это было описано выше;

4. Вы увидите, что список немного искажен. Это связано с тем, что список здесь может быть структурирован по-разному;

5. Пройдите к консоли скребка. Слева вверху вы увидите маленькую коробочку с надписью XPath;

6. Xpath - это своего рода язык запросов, который работает для XML и HTML;

7. XPath может помочь найти те части страницы, которые вас интересуют. Далее нужно найти подходящий элемент и написать для него XPath;

8. Теперь давайте устроим наш стол;

9. Вы увидите, что наш существующий XPath, который имеет все необходимые данные, является "// div [3] / div [3] / div [2] / div";

10. XPath информирует Систему о просмотре документа HTML и о выборе третьего элемента, затем второго элемента и затем всех их;

11. Но мы хотели бы отделить наши данные;

12. Используйте секцию столбцов в консоли для scrapper, чтобы сделать это;

13. Давайте сначала найдем наш заголовок. Используйте Inspect Element для просмотра заголовка;

14. Проверьте заголовок в теге. Добавьте тег в XPath;

15. Выражение работает правильно, поэтому сделайте его нашим первым столбцом;

16. В разделе «Столбцы» замените имя первого столбца на «заголовок»;

17. Добавьте XPath к нему;

18. В разделе столбцов XPath являются относительными, и это означает, что «./b» выберет элемент <b>

19. В XPath для столбца заголовка добавьте «./b» и выберите «очистить»;

20. Теперь давайте продолжать в течение года. Годы могут быть найдены в течение одного периода;

21. Создайте новый столбец, выбрав небольшой плюс рядом с столбцом для вашего заголовка;

22. С помощью XPath «./span» создайте столбец для «года»;

23. Кликните по царапинам и посмотрите, как был добавлен год;

24. Готово!