Падручнік Chrome Web Scraper ад Semalt Expert

Калі вы выкарыстоўваеце Google Chrome, для вашага браўзэра ёсць пашырэнне, якое можа дапамагчы саскрабнуць вэб-старонкі. Ён вядомы пад назвай "Scrapper", і яго можна выкарыстоўваць без праблем. Scrapper дапаможа ў выскрабанні змесціва сайта і загрузцы вынікаў у дакументы Google.

Як зламаць сайт з дапамогай пашырэння Scraper?

1. Абярыце вэб-краму Chrome у Google Chrome;

2. У пашырэннях ажыццявіце пошук «скрабка»;

3. Першы вынік пошуку - пашырэнне, вядомае як "Scrapper";

4. Абярыце кнопку, названую ў раздзеле "Дадаць у Chrome";

5. Вярніцеся да спісу дэпутатаў Вялікай Брытаніі;

6. Перайдзіце па наступнай спасылцы ;

7. Цяпер шукайце аднаго дэпутата і пераканайцеся, што запіс пазначаны;

8. Пстрыкніце правай кнопкай мышы, каб выбраць опцыю "Scrape similar ...";

9. Кансоль для скрабка выскочыць у іншым акне;

10. Прагледзець змесціва саскоба на кансолі скрапера;

11. Каб забяспечыць захаванне змесціва ў выглядзе электроннай табліцы Google, выберыце "Захаваць у дакументах Google ..."

Пашыраны выскрабанне

Перш чым прытрымлівацца гэтага рэцэпту, карысна разабрацца ў асновах HTML. Напрыклад, вы можаце прачытаць кароткае ўвядзенне ў HTML па гэтай спасылцы

Уявім, што нас цікавяць усе фільмы, у якіх знялася Азія Аргента, вядомая італьянская актрыса.

1. У IMDB ёсць вельмі падрабязны архіў акцёраў. Сайт Asia Argento: http://www.imdb.com/name/nm0000782/;

2. Тут вы можаце прагледзець усе ролі, якія выконвае актрыса. Пачнем бракаваць інфармацыю, якая нас цікавіць;

3. Паспрабуйце саскрабці так, як было апісана вышэй;

4. Вы ўбачыце, што спіс крыху скажаны. Гэта звязана з тым, што спіс тут можа быць структураваны па-рознаму;

5. Адпраўцеся да кансолі скрабка. Уверсе злева вы ўбачыце маленькае поле, у якім сказана XPath;

6. Xpath - гэта своеасаблівая мова запытаў, якая працуе для XML і HTML;

7. XPath можа дапамагчы знайсці часткі старонкі, якая вас цікавіць. Наступнае - знайсці падыходны элемент і напісаць для яго XPath;

8. Цяпер давайце расставім наш стол;

9. Вы ўбачыце, што наш існуючы XPath, які мае ўсе неабходныя дадзеныя, з'яўляецца "// div [3] / div [3] / div [2] / div";

10. XPath інфармуе Сістэму праглядаць дакумент HTML і выбіраць трэці элемент, потым другі элемент, а потым усе;

11. Але мы хацелі б, каб нашы дадзеныя былі раздзелены;

12. Выкарыстоўвайце раздзел слупок на кансолі для скрабка для гэтага;

13. Давайце спачатку знойдзем наш загаловак, каб прагледзець загаловак;

14. Праверце загаловак у тэгу. Дадаць тэг у XPath;

15. Здаецца, выраз функцыянуе належным чынам, таму зрабіце гэта нашым першым слупком;

16. У раздзеле "Стоўбцы" заменіце імя першага слупка на "загаловак";

17. Дадайце да яго XPath;

18. У раздзеле слупка XPaths адносныя, і гэта азначае, што "./b" абярэ элемент <b>

19. У XPath для слупок загалоўка дадайце "./b" і выберыце "scrape";

20. Зараз будзем працягваць год. Гады можна знайсці за адзін прамежак;

21. Стварыце новы слупок, выбраўшы невялікі плюс побач са сваім слупком;

22. З дапамогай XPath "./span" стварыце слупок для "года";

23. Націсніце на выскрабанне і паглядзіце, як быў дададзены год;

24. Зроблена!

mass gmail