Beschreibung
Data Engineering: Aufbau von Datenpipelines und ETL-Prozessen
Dieses Seminar bietet einen kompakten Überblick über die Grundlagen des Data Engineerings. Es beleuchtet zentrale Themen wie Datenintegration, ETL-Prozesse (Extraktion, Transformation, Laden) und Datenpipelines. Teilnehmer erhalten Einblick in verschiedene Datenmodelle und Datenbankarten, einschließlich relationaler und NoSQL-Systeme. Zudem werden praktische Fertigkeiten im Umgang mit relationalen Datenbanken und ETL-Tools vermittelt. Das Seminar behandelt auch fortgeschrittene Konzepte wie Datenpipeline-Architektur, Cloud-basierte Lösungen, Automatisierung, sowie Datenqualität und -sicherheit. Es richtet sich an Fachkräfte, die ihre Kenntnisse im Data Engineering vertiefen möchten.Kommende Starttermine
Inhalte / Module
- Grundlagen
- Was ist Data Engineering?
- Unterschied zwischen Datenintegration, Datenpipelines und ETL-Prozessen
- Wichtige Begriffe und Konzepte
- Überblick über ETL-Prozesse
- Was bedeutet ETL (Extraktion, Transformation, Laden)?
- Wann und warum werden ETL-Prozesse benötigt?
- Datenmodelle und Datenbanken
- Einführung in relationationale Datenbanken
- NoSQL Datenbanken und deren Relevanz im Data Engineering
- Datenmodellierung: Star-Schema, Snowflake-Schema, Denormalisierung
- Praktische Übung : Erste Schritte mit einer relationalen Datenbank (z.B. PostgreSQL)
- Extraktion von Daten
- Datenquellen und ihre Typen
- Tools und Techniken für die Datenextraktion
- Transformation von Daten
- Bedeutung und Notwendigkeit der Datentransformation
- Typen von Transformationen
- Best Practices
- ETL-Tools im Überblick
- Traditionelle ETL-Tools (z.B. Talend, Informatica)
- Open-Source-ETL-Tools (z.B. Apache NiFi, Apache Airflow)
- Datenpipeline-Architektur
- Design-Prinzipien für skalierbare Pipelines
- Batch- vs. Echtzeitverarbeitung
- Best Practices für Fehlerbehandlung
- Leistungsoptimierungstechniken
- Cloud-basierte Datenpipelines
- Vor- und Nachteile des Cloud-Computings
- Übersicht über Cloud-Anbieter: AWS, Google Cloud, Azure
- Migrationsstrategien: On-Premise zu Cloud
- Sicherheitsaspekte in der Cloud
- Automatisierung und Orchestrierung
- Bedeutung der Automatisierung im Daten-Engineering
- Einführung in Orchestrierungstools: Apache Airflow, Prefect
- Automatisierungs-Workflow-Design
- Best Practices und Fallstricke
- Datenpipelines für Advanced Analytics und ML
- Unterschied zwischen traditionellen Pipelines und ML-Pipelines
- Einführung in Feature Engineering
- ML-Model-Deployment und Inferenz-Pipelines
- Monitoring und Versionierung von ML-Modellen
- Datenqualität und -bereinigung
- Wichtigkeit der Datenqualität
- Tools und Techniken zur Datenbereinigung
- Datenvalidierung und -überprüfung
- Fallstudien: Datenqualitätsprobleme und ihre Lösungen
- Sicherheit in Datenpipelines
- Grundlagen der Datensicherheit
- Datenverschlüsselung und Maskierung
- Zugriffskontrolle und Authentifizierung
- Sicherheitsbedrohungen und ihre Abwehr
- Daten-Governance und Compliance
- Was ist Daten-Governance?
- Rolle des Data Stewards
- Datenschutz-Grundverordnung (DSGVO) und andere Vorschriften
- Implementierung von Compliance-Maßnahmen
- Monitoring und Fehlerbehandlung
- Überwachungstools und -strategien
- Fehlererkennung und -behebung
- Alarmierung und Benachrichtigungssysteme
- Rückverfolgbarkeit und Audit-Trails
Zielgruppe / Voraussetzungen
- Dateningenieure : Sie sind häufig die Hauptverantwortlichen für die Gestaltung und Implementierung von Datenpipelines und würden daher direkt von den im Seminar vermittelten Fähigkeiten profitieren.
- Datenanalysten : Obwohl sie sich hauptsächlich auf die Analyse von Daten konzentrieren, können Datenanalysten durch das Verständnis des ETL-Prozesses bessere Einblicke in die Herkunft und Qualität der Daten erhalten.
- Business Intelligence (BI) Fachleute : Personen, die Dashboards und Berichte erstellen, sollten wissen, wie Daten verarbeitet und in Data Warehouses oder Datenlaken geladen werden.
- Datenbankadministratoren (DBAs) : Ein Verständnis dafür, wie Daten extrahiert, transformiert und geladen werden, kann für DBAs nützlich sein, um die Performance und Integrität von Datenbanken sicherzustellen.
- Projektmanager und Produktmanager
: Sie müssen oft verschiedene Technikteams koordinieren und könnten von einem tieferen Verständnis der Datenintegrationsprojekte profitieren.
Hinweis: Dieser Kurs richtet sich an Mitarbeitende aus Unternehmen und Institutionen.
Für Privatpersonen ist dieser Kurs leider nicht geeignet.
Eine Informationsanfrage zu diesem Kurs ist nur für Beteiligte aus dem B2B-Bereich sinnvoll.
Abschlussqualifikation / Zertifikat
Infos anfordern
GFU Cyrus AG
Erweitern Sie Ihre IT-Skills mit einem offenen IT-Training oder ganz nach Ihren Bedürfnissen durch eine individuelle IT-Schulung. Programmiersprachen (C#, Python, Java, …), Microsoft Office 365, Anforderungsmanagement, Projektmanagement, Business Intelligence, Data Science, Künstliche Intelligenz, IT-Sicherheit , Administration & Datenbanken, Softwareentwicklung, Testmanagement...
Erfahren Sie mehr über GFU Cyrus AG und weitere Kurse des Anbieters.