Beschreibung
Web Scraping und Web-Crawler mit Python - Grundlagen
Das World Wide Web enthält eine Vielzahl von Daten. Die Fähigkeit, die benötigten Informationen daraus zu extrahieren, ist heutzutage für alle, die mit Daten arbeiten, eine Notwendigkeit. Natürlich gibt es bereits viele Datensätze, die in aufbereiteten Formaten zum Download angeboten werden, aber in vielen Fällen wird man die Daten, die man benötigt, nicht so einfach finden.Oft liegen die Daten nämlich unstrukturiert vor und nicht per se in einem maschinenlesbaren, bequemen Format. Zum Beispiel alle Blogartikel in einem Blog, die einem gewissen Kriterium entsprechen oder Preise von Artikeln in einem Webshop.
Webscraping setzt einen Schritt vor dem Data-Mining an und beschäftigt sich daher weniger mit dem Pre-Processing und der Analyse der Daten als eher mit dem Extrahieren von Rohdaten in ein maschinenlesbares Format, zum Beispiel einer CSV Datei oder einer Datenbank-Tabelle. Web Scraping ist also das Verfahren, Daten aus (vornehmlich) Webseiten zu extrahieren.
Web Crawling hingegen ist das Verfahren, viele Seiten einer Hauptdomain einzulesen und zu durchsuchen. Damit lassen sich Webspider programmieren, die zum Beispiel periodisch Webangebote durchforsten. Python, als einsteigerfreundliche und einfache Skript- und Programmiersprache, bietet sich für diese Aufgabe an. Mit relativ wenigen Zeilen Code lässt sich schon oft ein sehr gutes Ergebnis erzielen, um zum Beispiel alle Katalogpreise in eine Excel Datei zu überführen.
Kommende Starttermine
Inhalte / Module
- Einrichten der Entwicklungsumgebung
- Anlegen der Ordnerstruktur
- Einrichten der IDE VSCode
- Virtuelle Umgebung und installieren der nötigen Software
- Grundlagen
- Python Wiederholung (Datentypen, Funktionen, Generatoren, OOP)
- Einführung in Pandas
- Einführung HTTP, HTML, CSS und DOM
- Einführung JSON
- Client-Server Architektur
- Was ist denn eigentlich Scraping genau?
- Webscraping ist NICHT Data-Mining
- Web Scraping, erste Schritte
- ethische und rechtliche Grenzen, Drosselung
- die robots.txt Datei
- Installieren von Beautiful Soup und der requests Bibliothek
- Parsen einer einfachen Webseite
- Medien, Texte, Bilder und URLs extrahieren
- Speichern der Informationen in einer CSV-Datei
- Speichern der Informationen in einer Json-Datei
- Speichern in einer Datenbank
- Probleme erkennen: dynamische Webseiten, JavaScript, das DOM
- HTML Vertiefung
- Attribute, verschachtelte Strukturen
- HTML als Baumstruktur, Knoten, Kanten
- eine kleiner Exkurs über ascii, utf8 und den Zeichenkodierungs-Dschungel
- Web Scraping, erweitert
- eine URL-Liste abarbeiten
- URLs extrahieren und URL-liste abarbeiten
- einen Katalog nach Titeln parsen
- einen Webshop nach Artikeln und Preisen parsen
- Bilder runterladen, komprimieren und auf der HD speichern
- Tabellen auslesen
- Daten in einem Pandas Dataframe darstellen
- Umgang mit fehlerhaften Daten
Zielgruppe / Voraussetzungen
Grundlegende Python-Kenntnisse und OOP sind von Vorteil, aber kein Muss.
Hinweis: Dieser Kurs richtet sich an Mitarbeitende aus Unternehmen und Institutionen.
Für Privatpersonen ist dieser Kurs leider nicht geeignet.
Eine Informationsanfrage zu diesem Kurs ist nur für Beteiligte aus dem B2B-Bereich sinnvoll.
Abschlussqualifikation / Zertifikat
Infos anfordern
GFU Cyrus AG
Erweitern Sie Ihre IT-Skills mit einem offenen IT-Training oder ganz nach Ihren Bedürfnissen durch eine individuelle IT-Schulung. Programmiersprachen (C#, Python, Java, …), Microsoft Office 365, Anforderungsmanagement, Projektmanagement, Business Intelligence, Data Science, Künstliche Intelligenz, IT-Sicherheit , Administration & Datenbanken, Softwareentwicklung, Testmanagement...
Erfahren Sie mehr über GFU Cyrus AG und weitere Kurse des Anbieters.