Beschreibung
Web Scraping und Web-Crawler mit Python - Erweitert
Zielgruppe: Nur für Unternehmen und Institutionen.Das World Wide Web enthält eine Vielzahl von Daten. Die Fähigkeit, die benötigten Informationen daraus zu extrahieren, ist heutzutage für alle, die mit Daten arbeiten, eine Notwendigkeit. Natürlich gibt es bereits viele Datensätze, die in aufbereiteten Formaten zum Download angeboten werden, aber in vielen Fällen wird man die Daten, die man benötigt, nicht so einfach finden.
Oft liegen die Daten nämlich unstrukturiert vor und nicht per se in einem maschinenlesbaren, bequemen Format. Zum Beispiel alle Blogartikel in einem Blog, die einem gewissen Kriterium entsprechen oder Preise von Artikeln in einem Webshop.
Webscraping setzt einen Schritt vor dem Data-Mining an und beschäftigt sich daher weniger mit dem Pre-Prozessing und der Analyse der Daten, als eher mit dem Extrahieren von Rohdaten in ein maschinenlesbares Format, zum Beispiel einer CSV Datei oder einer Datenbank-Tabelle. Web Scraping ist also das Verfahren, Daten aus (vornehmlich) Webseiten zu extrahieren.
Web Crawling hingegen ist das Verfahren, viele Seiten einer Hauptdomain einzulesen und zu durchsuchen. Damit lassen sich Webspider programmieren, die zum Beispiel periodisch Webangebote durchforsten. Python, als einsteigerfreundliche und einfache Skript- und Programmiersprache, bietet sich für diese Aufgabe an. Mit relativ wenigen Zeilen Code lässt sich schon oft ein sehr gutes Ergebnis erzielen, um zum Beispiel alle Katalogpreise in eine Excel Datei zu überführen.
Kommende Starttermine
Inhalte / Module
- xPath und Selenium
- Grundlagen von xPATH
- Installieren der Firebug und Firepath Extension
- Selenium installieren, Chrome Webdriver festlegen, erste Schritte
- Scrapen dynamischer Webseiten mit Selenium
- Headless Selenium
- Ausfüllen von Inputfeldern und Ergebnisse parsen
- hinter passwortgeschützten Bereichen arbeiten
- Scrapy und Spider Installieren und Programmieren
- Installieren von Scrapy
- einen ersten Spider bauen
- einen Spider programmieren, der Seiten einer ganzen Domain einlesen kann
- Pydantic installieren und Modelle entwerfen
- Daten in einer Sqlite Datenbank speichern
Zielgruppe / Voraussetzungen
Grundlegende Python-Kenntnisse und OOP sind von Vorteil, aber kein Muss.
Hinweis: Dieser Kurs richtet sich an Mitarbeitende aus Unternehmen und Institutionen.
Für Privatpersonen ist dieser Kurs leider nicht geeignet.
Bitte beachten Sie: Bildungsgutscheine der Agentur für Arbeit werden für diesen Kurs NICHT anerkannt.
Abschlussqualifikation / Zertifikat
Infos anfordern
GFU Cyrus AG
Erweitern Sie Ihre IT-Skills mit einem offenen IT-Training oder ganz nach Ihren Bedürfnissen durch eine individuelle IT-Schulung. Programmiersprachen (C#, Python, Java, …), Microsoft Office 365, Anforderungsmanagement, Projektmanagement, Business Intelligence, Data Science, Künstliche Intelligenz, IT-Sicherheit , Administration & Datenbanken, Softwareentwicklung, Testmanagement...
Erfahren Sie mehr über GFU Cyrus AG und weitere Kurse des Anbieters.