Beschreibung
Big Data Hadoop & Spark Developer
Ziel
Dieser Zertifizierungskurs zu Big Data und Hadoop vermittelt Ihnen fundiertes Wissen über die Nutzung des Big Data Frameworks mit Hadoop und Spark. Durch praxisnahe Übungen und echte branchenbasierte Projekte, unterstützt durch die integrierten Labore von Simplilearn, erwerben Sie wertvolle Fähigkeiten in der Datenverarbeitung und -analyse.
Kommende Starttermine
Inhalte / Module
Lektion 01: Einführung in Big Data und Hadoop
- Themen:
- Einführung in Big Data und Hadoop
- Was ist Big Data? Die vier Vs von Big Data
- Big Data Analytics und Herausforderungen traditioneller Systeme
- Verteilte Systeme und die Grundprinzipien von Hadoop
- Komponenten des Hadoop-Ökosystems (Teil Eins bis Drei)
- Kommerzielle Hadoop-Distributionen
- Demo: Durchgang durch Simplilearn Cloudlab
- Wichtigste Erkenntnisse und Wissensüberprüfung
Lektion 02: Hadoop-Architektur – Verteilter Speicher (HDFS) und YARN
- Themen:
- Einführung in HDFS: Notwendigkeit, Eigenschaften und Architektur
- HDFS-Komponenten: Dateisystem-Namensraum, Datenblockaufteilung, Replikation
- HDFS-Befehle und praktische Übungen
- Einführung in YARN: Architektur, Ressourcenmanager, Application Master
- Demo: Durchgang durch den Cluster (Teil Eins und Zwei)
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Hadoop-Architektur, verteilter Speicher (HDFS) und YARN
Lektion 03: Datenintegration in Big-Data-Systeme und ETL
- Themen:
- Überblick über Datenintegration
- Apache Sqoop: Verarbeitung, Importprozess und Anwendung
- Demo: Import und Export von Daten von MySQL zu HDFS
- Apache Flume: Modell, Skalierbarkeit und Architektur
- Demo: Twitter-Daten einlesen
- Apache Kafka: Aggregation von Benutzeraktivitäten, Kafka-Datenmodell und -Architektur
- Demo: Einrichtung eines Kafka-Clusters, Producer und Consumer APIs
- Demo: Erstellung einer Kafka-Datenpipeline
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Datenintegration in Big-Data-Systeme und ETL
Lektion 04: Verteilte Verarbeitung – MapReduce-Framework und Pig
- Themen:
- Einführung in MapReduce: Map-Phasen, Jobs und Umgebungssetup
- Advanced MapReduce: Datentypen, Output-Formate, Joins
- Einführung in Pig: Komponenten, Datenmodell und Operations
- Demo: Weblog-Datenanalyse und Verkaufskpi-Lösungen mit Pig
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Distributed Processing – MapReduce Framework und Pig
Lektion 05: Apache Hive
- Themen:
- Hive SQL über Hadoop MapReduce: Architektur, Metastore und Interfaces
- Hive DDL und DML: Erstellen von Tabellen, Datentypen, Datenvalidierung
- Hive-Optimierung: Partitionierung, Bucketing, Sampling
- Demo: Echtzeitanalyse, Datenfiltration und -repräsentation
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Apache Hive
Lektion 06: NoSQL-Datenbanken – HBase
- Themen:
- Einführung in NoSQL und HBase-Architektur
- Datenmodell und Verbindungsaufbau zu HBase
- Praxisprojekt: HBase-Shell
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: NoSQL-Datenbanken – HBase
Lektion 07: Grundlagen der funktionalen Programmierung und Scala
- Themen:
- Einführung in Scala und funktionale Programmierung
- Grundlegende Literale, arithmetische Programmierung und logische Operatoren
- Typinferenz, Klassen, Objekte, Funktionen und Sammlungen
- Demo: Verschiedene Sammlungen und Operationen im Scala REPL
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Apache Hive
Lektion 08: Apache Spark – Framework der nächsten Generation für Big Data
- Themen:
- Geschichte von Spark, Vorteile gegenüber MapReduce
- Komponenten und Architektur von Spark
- In-Memory-Verarbeitung und Vergleich zum Hadoop-Ökosystem
- Demo: Ausführung von Scala-Programmen im Spark-Shell und Setup
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Apache Spark – Next-Generation Big Data Framework
Lektion 09: Spark Core – Verarbeitung von RDDs
- Themen:
- Einführung in RDDs, Erstellen von RDDs, Pair RDDs
- Transformationen, Aktionen, Caching, Partitionierung und Debugging in Spark
- Demo: Spark-Anwendung, Optimierung und Umgang mit verschiedenen Dateiformaten
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Spark Core – Verarbeitung von RDDs
Lektion 10: Spark SQL – Verarbeitung von DataFrames
- Themen:
- Einführung in Spark SQL, Architektur, DataFrames
- Demo: Verschiedene DataFrame-Operationen, UDFs und UDAFs
- Interoperabilität mit RDDs und SQL-Abfragen
- Praxisprojekt: Verarbeitung von DataFrames
- Wichtigste Erkenntnisse und Wissensüberprüfung
Lektion 11: Modellierung von Big Data mit Spark MLlib
- Themen:
- Rolle von Datenwissenschaftlern und -analysten
- Maschinelles Lernen in Spark: Überwachtes, unüberwachtes, verstärkendes und halbüberwachtes Lernen
- Demo: Klassifizierung mit SVM, lineare Regression, Clustering mit K-Means
- Überblick über MLlib-Pipelines
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Spark MLlib – Modellierung von Big Data
Lektion 12: Framework für Stream-Verarbeitung und Spark Streaming
- Themen:
- Echtzeitverarbeitung, Architekturen und DStreams
- Demo: Echtzeit-Datenverarbeitung, Fensterverarbeitung, Twitter-Streaming
- Strukturiertes Spark Streaming: Architektur, APIs, und Anwendungsfälle
- Demo: Erstellung einer Streaming-Pipeline
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Spark Streaming
Lektion 13: Spark GraphX
- Themen:
- Einführung in Graphen und Spark GraphX
- Operatoren und Algorithmen in GraphX, einschließlich PageRank
- Demo: Vertex-Prädikat und PageRank-Algorithmus
- Wichtigste Erkenntnisse und Wissensüberprüfung
- Praxisprojekt: Unterstützung für Spark GraphX
Aufbau & Organisation
Adding Value ist eine führende eLearning-Plattform, die sich auf die Bereitstellung qualitativ hochwertiger Online-Bildungslösungen für Einzelpersonen und Unternehmen spezialisiert hat. Die Organisation setzt auf innovative Lerntechnologien und maßgeschneiderte Schulungsprogramme, um berufliche Fähigkeiten und Kompetenzen zu fördern.
Organisationsaufbau:
- Geschäftsführung:
- Leitung und strategische Ausrichtung der Organisation.
- Entscheidungsträger für langfristige Unternehmensziele und Partnerschaften.
- Produktentwicklung:
- Entwicklung und Aktualisierung der eLearning-Kurse.
- Integration von interaktiven Lernmodulen und neuen Technologien.
- Inhaltserstellung:
- Erstellung von Kursmaterialien durch Experten.
- Sicherstellung der Qualität und Aktualität der Inhalte.
- Technologie & IT:
- Wartung und Weiterentwicklung der Lernplattform.
- Gewährleistung der Datensicherheit und Benutzerfreundlichkeit.
- Kundenservice:
- Unterstützung der Lernenden bei technischen und inhaltlichen Fragen.
- Bereitstellung von Support und Beratung.
- Marketing & Vertrieb:
- Vermarktung der eLearning-Angebote.
- Aufbau und Pflege von Kundenbeziehungen.
- Human Resources:
- Rekrutierung und Weiterbildung von Mitarbeitern.
- Pflege der Unternehmenskultur und Mitarbeiterzufriedenheit.
Adding Value zeichnet sich durch eine klare Struktur und eine starke Fokussierung auf die Bedürfnisse der Lernenden aus, was zur kontinuierlichen Verbesserung und Erweiterung ihres Bildungsangebots beiträgt.
Abschlussqualifikation / Zertifikat
Teilnahmezertifikat
Kostenzusatz
Enthalten sind die Seminarunterlagen und die Prüfung
Adding Value Consulting
Wir bieten eine umfangreiche Palette an eLearning-Lösungen an, die speziell darauf ausgerichtet sind, den Wert Ihres Unternehmens und ihrer Skills durch gezielte Weiterbildung zu steigern. Mit einem breiten Angebot an Online-Kursen, interaktiven Lernmodulen und maßgeschneiderten Schulungen unterstützt Adding Value sowohl...
Erfahren Sie mehr über Adding Value Consulting und weitere Kurse des Anbieters.