Seminarinhalt
In diesem viertägigen praxisorientierten Training lernen Sie, wie Sie mit Azure Databricks und dem Unity Catalog skalierbare, sichere und produktionsreife Lakehouse‑Architekturen aufbauen. Sie entwickeln robuste Datenpipelines und setzen moderne Governance‑ und Sicherheitskonzepte nach Enterprise‑Standards um.
Der Kurs begleitet Sie von der initialen Einrichtung der Azure‑Databricks‑Umgebung bis zur produktiven Bereitstellung. Sie konfigurieren Workspaces, implementieren durchgängige Berechtigungs‑ und Sicherheitsmodelle mit Unity Catalog und entwickeln performante Ingestions‑ und Verarbeitungsprozesse. Dabei stehen Best Practices für Skalierbarkeit, Wartbarkeit und den stabilen Betrieb im Unternehmensumfeld im Fokus.
Nach diesem Training:
- Konfigurieren Sie Azure‑Databricks‑Umgebungen für produktive Enterprise‑Szenarien.
- Entwickeln Sie robuste und skalierbare Dateningestions‑ und Transformationspipelines.
- Implementieren Sie Governance‑, Sicherheits‑ und Zugriffskonzepte mit Unity Catalog.
- Optimieren Sie Datenverarbeitungs‑Workloads hinsichtlich Performance und Kosten.
- Setzen Sie Best Practices für Deployment, Monitoring und Betrieb von Lakehouse‑Architekturen um.
- Übertragen Sie Data‑Engineering‑Konzepte sicher in produktive Azure‑Umgebungen.
Nach Abschluss des Trainings sind Sie in der Lage, Lakehouse‑Lösungen eigenständig zu implementieren, sicher zu betreiben und für produktive Workloads zu optimieren – auch unter hohen Anforderungen an Governance, Compliance und Performance.
Programm
Azure Databricks kennenlernen
- Überblick über Azure Databricks
- Erste Schritte mit Azure Databricks
- Azure‑Databricks‑Workloads identifizieren
- Zentrale Konzepte verstehen
- Data Governance mit Unity Catalog und Microsoft Purview
- Übung – Azure Databricks erkunden
- Einführung in die Azure‑Databricks‑Architektur
- Durch Unity Catalog verwalteter Speicher
- Externer Speicher
- Standard‑Speicher (Serverless Compute)
- Integration mit Microsoft Fabric
- Integration mit Power BI
- Integration mit Visual Studio Code
- Integration mit Power Platform
- Integration mit Copilot Studio
- Integration mit Microsoft Purview
- Integration mit Microsoft Foundry
- Geeigneten Compute‑Typ auswählen
- Compute‑Leistung konfigurieren
- Compute‑Funktionen konfigurieren
- Bibliotheken für Compute installieren
- Zugriffsrechte für Compute konfigurieren
- Übung – Compute in Azure Databricks auswählen und konfigurieren
- Naming Conventions anwenden
- Kataloge erstellen
- Schemata erstellen
- Tabellen und Views erstellen
- Volumes erstellen
- DDL‑Operationen umsetzen
- Externe Kataloge (Foreign Catalogs) einbinden
- Anweisungen für AI/BI Genie konfigurieren
- Übung – Objekte im Unity Catalog erstellen und strukturieren
Absicherung und Governance von Unity‑Catalog‑Objekten in Azure Databricks
Unity‑Catalog‑Objekte absichern
- Lebenszyklus von Abfragen (Query Lifecycle) verstehen
- Strategien für Zugriffskontrolle umsetzen
- Konzepte der fein granularen Zugriffskontrolle verstehen
- Zeilenfilter und Spaltenmaskierung implementieren
- Zugriff auf Secrets im Azure Key Vault
- Datenauthentifizierung mit Service Principals
- Ressourcenzugriffe mit Managed Identities authentifizieren
- Übung – Unity‑Catalog‑Objekte absichern
- Tabellendefinitionen erstellen und versionstreu erhalten
- Attributbasierte Zugriffskontrolle (ABAC) mit Tags und Richtlinien konfigurieren
- Richtlinien zur Datenaufbewahrung anwenden
- Data Lineage einrichten und verwalten
- Audit Logging konfigurieren
- Sichere Delta‑Sharing‑Strategie entwerfen
- Übung – Unity‑Catalog‑Objekte verwalten
Daten mit Azure Databricks vorbereiten und verarbeiten
Datenmodellierung mit Azure Databricks entwerfen und umsetzen
- Ingestion‑Logik und Konfiguration von Datenquellen entwerfen
- Werkzeug zur Datenaufnahme auswählen
- Tabellenformat für Daten auswählen
- Partitionsschema entwerfen und implementieren
- Typ für Slowly Changing Dimensions (SCD) auswählen
- Slowly Changing Dimension (SCD) Typ 2 implementieren
- Temporale (Historien‑)Tabellen zur Nachverfolgung von Änderungen entwerfen und implementieren
- Granularität auf Spalten‑ oder Tabellenebene festlegen
- Entscheidung zwischen Managed und Unmanaged Tables treffen
- Clustering‑Strategie entwerfen und implementieren
- Übung – Datenmodellierung mit Azure Databricks
- Datenaufnahme mit Lakeflow Connect
- Datenaufnahme über Notebooks
- Datenaufnahme mit SQL‑Methoden
- Datenaufnahme über CDC‑Feeds
- Datenaufnahme mit Spark Structured Streaming
- Datenaufnahme mit Auto Loader
- Datenaufnahme mit Lakeflow Spark Declarative Pipelines
- Übung – Daten in den Unity Catalog laden
- Datenprofiling durchführen
- Geeignete Spaltendatentypen festlegen
- Duplikate und Nullwerte behandeln
- Transformationen mit Filtern und Aggregationen
- Transformationen mit Joins und Mengenoperatoren
- Transformationen durch Denormalisierung und Pivot‑Operationen
- Daten mit Merge, Insert und Append laden
- Übung – Daten bereinigen, transformieren und laden
- Validierungsprüfungen implementieren
- Prüfungen auf korrekte Datentypen implementieren
- Schema Drift erkennen und behandeln
- Datenqualität mit Pipeline Expectations steuern
- Übung – Datenqualitätsregeln umsetzen und verwalten
Datenpipelines und Workloads mit Azure Databricks bereitstellen und betreiben
Datenpipelines mit Azure Databricks entwerfen und umsetzen
- Reihenfolge von Verarbeitungsschritten in einer Pipeline festlegen
- Entscheidung zwischen Notebooks und Lakeflow Pipelines
- Logik für Lakeflow‑Jobs entwerfen
- Fehlerbehandlung in Pipelines und Jobs konzipieren
- Pipeline auf Basis von Notebooks erstellen
- Pipeline mit Lakeflow Spark Declarative Pipelines erstellen
- Übung – Datenpipelines entwerfen und umsetzen
- Job‑Einrichtung und ‑Konfiguration erstellen
- Job‑Trigger konfigurieren
- Jobs zeitlich planen (Scheduling)
- Benachrichtigungen für Jobs konfigurieren
- Automatische Neustarts konfigurieren
- Übung – Lakeflow Jobs implementieren
- Best Practices für Versionsverwaltung mit Git anwenden
- Branching‑Strategien und Pull Requests verwalten
- Teststrategie implementieren
- Databricks Asset Bundles (DABs) konfigurieren und paketieren
- Bundles mit der Databricks CLI bereitstellen
- Übung – Entwicklungs‑ und Bereitstellungsprozesse umsetzen
- Cluster‑Auslastung überwachen und steuern
- Lakeflow Jobs analysieren und wiederherstellen
- Spark‑Jobs und Notebooks analysieren und beheben
- Performance‑Aspekte wie Caching, Data Skew, Spilling und Shuffle untersuchen
- Log‑Streaming mit Azure Log Analytics einrichten
- Übung – Workloads überwachen, analysieren und optimieren
Zielgruppen
- Data Engineers, die moderne Datenplattformen in Azure entwerfen, implementieren und betreiben.
- Fachkräfte, die mit Azure Databricks, SQL und Python arbeiten und ihre Kenntnisse in den Bereichen Governance, Sicherheit und produktionsreife Datenpipelines gezielt vertiefen möchten.
- KandidatInnen für die Azure Databricks Data Engineer Associate Zertifizierung.
Vorkenntnisse
- Grundlegendes Verständnis von Data‑Analytics‑ und Data‑Engineering‑Konzepten
- Erfahrung mit SQL sowie Python (inkl. Notebooks)
- Vertrautheit mit Azure Databricks Workspaces und grundlegenden Unity‑Catalog‑Konzepten
- Basiswissen zu Cloud Storage und Datenorganisation
- Grundkenntnisse in Azure Security, insbesondere Microsoft Entra ID
- Vertrautheit mit Git und Versionskontrollkonzepten
