Scraping Websäiten Mat Python A BeautifulSoup - Semalt Berodung

Et gëtt méi wéi genuch Informatioun um Internet iwwer wéi Websäite a Blogs richteg scrape. Wat mir brauchen, ass net nëmmen den Zougang zu dësen Daten, awer déi skalierbar Weeër fir se ze sammelen, analyséieren an z'organiséieren. Python a BeautifulSoup sinn zwee wonnerbar Tools fir Websäiten ze schrauwen an Daten auszewäerten. Beim Web-Schrack kënnen Daten einfach extrahéiert an présentéiert ginn an engem Format dat Dir braucht. Wann Dir e begeeschterten Investor sidd deen seng / hir Zäit a Suen schätzt, musst Dir definitiv de Web-Schrackprozess beschleunegen an et sou optimiséiert maachen wéi et kéint sinn.

Ufänken

Mir benotze béid Python a BeautifulSoup als Haaptschraufsprooch.

  • 1. Fir Mac Benotzer ass de Python am OS X virinstalléiert. Si musse just Terminal opmaachen an a Python –versioun typen . Dëse Wee wäert si fäeg sinn de Python 2.7 Versioun ze gesinn.
  • 2. Fir d'Windows Benotzer, recommandéiere mir de Python via säin offiziellen Site z'installéieren.
  • 3. Als nächstes musst Dir Zougang zu BeautifulSoup Bibliothéik kréien mat der Hëllef vu Pip. Dëse Package Management Tool gouf speziell fir Python gemaach.

Am Terminal, musst Dir de folgende Code ansetzen:

easy_install pip

pip installéiert BeautifulSoup4

Scraping Reegelen:

Déi Haaptschrapreegele déi Dir oppasse sollt sinn:

  • 1. Dir musst d'Regelen a Regulatioune vum Site kontrolléieren ier Dir mat sengem Schraufend ugeet. Also sidd ganz virsiichteg!
  • 2. Dir sollt d'Daten vun de Site net ze aggressiv froen. Gitt sécher, datt Dir dat Tool benotzt Dir vernünftbar mécht. Soss kënnt Dir de Site briechen.
  • 3. Eng Ufro pro Sekonn ass déi richteg Praxis.
  • 4. De Layout vum Blog oder Site kann zu all Moment geännert ginn, an Dir musst dëse Site nei iwwerschaffen an Ären eegene Code iwwerschreiwe wann néideg.

Ënnersicht d'Säit

Hover Äre Cursor op der Präis Säit fir ze verstoen wat soll gemaach ginn. Liest den Text am Zesummenhang mat béiden HTML a Python, a vun de Resultater gesitt Dir d'Präisser bannent den HTML Tags.

Export op Excel CSV

Wann Dir d'Donnéeën extrahiert hutt, ass de nächste Schrëtt et offline ze späicheren. Den Excel Komma getrennten Format ass déi beschte Wiel an dësem Sënn, an Dir kënnt et ganz einfach an Ärem Excel Blat opmaachen. Awer als éischt, musst Dir d'Python CSV Moduler an d'Datumzäit Moduler importéieren fir Är Daten korrekt opzehuelen. De folgende Code kann an der Import Sektioun agebaut ginn:

importéiert CSV

vun datetime Import zu datetime

Fortgeschratt Schrackentechniken

BeautifulSoup ass eent vun den einfachsten an iwwergräifend Tools fir Web Scraping. Wann Dir awer grouss Volumen vun Donnéeën oogste musst, berücksicht Iech e puer aner Alternativen:

  • 1. Scrapy ass e kräftegen an erstaunleche Python-Schraufen Kader.
  • 2. Dir kënnt och de Code mat enger ëffentlecher API integréieren. D'Effizienz vun Ären Daten wäert wichteg sinn. Zum Beispill kënnt Dir Facebook Graph API probéieren, wat hëlleft d'Daten ze verstoppen an et net op de Facebook Säiten ze weisen.
  • 3. Niewt Dir kënnt d'Backend Programmer wéi MySQL benotzen an d'Daten an enger grousser Quantitéit mat grousser Genauegkeet späicheren.
  • 4. DRY steet fir "Don't Repeat Yourself" an Dir kënnt probéieren déi regulär Aufgaben automatiséieren mat dëser Technik.