Seminarinhalt
Diese umfassende dreitägige Schulung unter Anleitung eines Dozenten bietet einen tiefen Einblick in die Praktiken und Lösungen des Data Engineering auf Amazon Web Services (AWS). Die Teilnehmer*innen lernen, wie sie mithilfe von AWS-Diensten Data-Engineering-Lösungen entwerfen, erstellen, optimieren und sichern können. Die Themen reichen von grundlegenden Konzepten bis hin zur praktischen Implementierung von Data Lakes, Data Warehouses sowie Batch- und Streaming-Datenpipelines.
Dieses Training vermittelt Datenfachleuten die erforderlichen Fähigkeiten, um moderne Datenlösungen in großem Maßstab zu entwerfen und zu verwalten.
Dieses Training umfasst Präsentationen, Demonstrationen und praktische Übungen.
Trainingsziele:
In diesem Training lernen Sie Folgendes:
Dieses Training vermittelt Datenfachleuten die erforderlichen Fähigkeiten, um moderne Datenlösungen in großem Maßstab zu entwerfen und zu verwalten.
Dieses Training umfasst Präsentationen, Demonstrationen und praktische Übungen.
Trainingsziele:
In diesem Training lernen Sie Folgendes:
- Entwerfen und Implementieren skalierbarer Data Lakes und Data Warehouses auf AWS.
- Erstellen, Optimieren und Sichern von Pipelines für die Batch-Datenverarbeitung.
- Entwickeln und Verwalten von Streaming-Datenlösungen.
- Anwenden von Best Practices für Data Governance und Sicherheit.
- Automatisieren von Data-Engineering-Workflows mithilfe von AWS-Services.
- Implementieren von Zugriffskontrollen und Sicherheitsmaßnahmen für Datenlösungen.
Programm
Module 1: Data Engineering Roles and Key Concepts
Module 4: Data Warehouse Architecture and Design Principles
Module 9: Optimizing, Orchestrating, and Securing Batch Data Pipelines
- The role of a data engineer
- Data discovery for a data analytics system
- AWS services for data workflows
- Continuous integration and continuous delivery
- Networking considerations
- Data lake introduction
- Data lake storage
- Ingest data
- Catalog data
- Transform data
- Serve data for consumption Lab: Setting up a Data Lake on AWS
- Optimizing performance
- Security using Lake Formation
- Setting permissions with Lake Formation
- Security and governance
- Troubleshooting Lab: Automating Data Lake Creation using AWS Lake Formation Blueprints
Module 4: Data Warehouse Architecture and Design Principles
- Introduction to data warehouses
- Amazon Redshift overview
- Ingesting data into Amazon Redshift
- Processing data
- Serving data for consumption Data Engineering on AWS
- Monitoring and optimization options
- Data optimization in Amazon Redshift
- Query optimization in Amazon Redshift
- Data orchestration
- Authentication and access control in Amazon Redshift
- Data security in Amazon Redshift
- Lab: Working with Amazon Redshift
- Introduction to batch data pipelines
- Designing a batch data pipeline
- Ingesting batch data
- Processing and transforming data
- Transforming data formats
- Integrating your data
- Cataloging data
- Serving data for consumption
- Lab: A Day in the Life of a Data Engineer
Module 9: Optimizing, Orchestrating, and Securing Batch Data Pipelines
- Optimizing the batch data pipeline
- Orchestrating the batch data pipeline
- Securing the batch data pipeline
- Lab: Orchestrating Data Processing in Spark using AWS Step Functions
- Introduction to streaming data pipelines
- Ingesting data from stream sources
- Storing streaming data
- Processing streaming data
- Analyzing streaming data
- Lab: Streaming Analytics with Amazon Managed Service for Apache Flink
- Optimizing a streaming data solution
- Securing a streaming data pipeline
- Lab: Access Control with Amazon Managed Streaming for Apache Kafka
- Compliance considerations
- Cost optimization tools
Zielgruppen
- Data engineers
- Solutions architects
- DevOps engineers
- IT professionals
- Data analysts looking to expand into data engineering
Vorkenntnisse
AWS empfiehlt den Teilnehmern dieses Kurses Folgende Vorraussetzungen:
- Kenntnisse grundlegender Konzepte des maschinellen Lernens, wie z. B. überwachtes und unüberwachtes Lernen, Regression, Klassifizierung und Clustering-Algorithmen.
- Praktische Kenntnisse der Programmiersprache Python und gängiger Data-Science-Bibliotheken wie NumPy, Pandas und Scikit-learn.
- Grundkenntnisse der Cloud-Computing-Konzepte und Vertrautheit mit der AWS-Plattform.
- Kenntnisse in SQL und relationalen Datenbanken sind empfehlenswert, aber nicht zwingend erforderlich.
- Erfahrung mit Versionskontrollsystemen wie Git ist von Vorteil, aber nicht erforderlich.
