Detail kurzu

DP-203 Data Engineering on Microsoft Azure

EDU Trainings s.r.o.

Popis kurzu

V tomto kurzu se student seznámí s datovým inženýrstvím, které se týká práce s dávkovými a analytickými řešeními v reálném čase pomocí technologií datové platformy Azure. Studenti začnou pochopením základních výpočetních a úložných technologií, které se používají k vytvoření analytického řešení. Studenti se naučí, jak interaktivně zkoumat data uložená v souborech v datovém jezeře. Naučí se různé techniky příjmu, které lze použít k načtení dat pomocí funkce Apache Spark, kterou najdete v Azure Synapse Analytics nebo Azure Databricks, nebo jak ingestovat pomocí Azure Data Factory nebo kanálů Azure Synapse. Studenti se také naučí různé způsoby, jak mohou transformovat data pomocí stejných technologií, které se používají pro ingest dat. Pochopí důležitost implementace zabezpečení pro zajištění ochrany dat v klidu nebo při přenosu. Student poté ukáže, jak vytvořit analytický systém v reálném čase pro vytváření analytických řešení v reálném čase.

Obsah kurzu

Modul 1: Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství
Tento modul poskytuje přehled možností výpočetní a úložné technologie Azure, které jsou k dispozici datovým inženýrům vytvářejícím analytické úlohy. Tento modul učí způsoby, jak strukturovat datové jezero a optimalizovat soubory pro průzkum, streamování a dávkovou zátěž. Student se naučí, jak organizovat datové jezero do úrovní zpřesnění dat při transformaci souborů pomocí dávkového a proudového zpracování. Poté se naučí, jak vytvářet indexy na svých datových sadách, jako jsou soubory CSV, JSON a Parquet, a používat je pro potenciální zrychlení dotazů a zátěže.
Lekce

Úvod do Azure Synapse Analytics
Azure Databricks
Úvod do úložiště Azure Data Lake
Delta Lake architektura
Práce s datovými streamy pomocí Azure Stream Analytics

Lab : Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství

Kombinujte streamování a dávkové zpracování s jediným potrubím
Uspořádejte datové jezero do úrovní transformace souborů
Index úložiště datového jezera pro zrychlení dotazů a zátěže

Po absolvování tohoto modulu budete schopni:

Popsat Azure Synapse Analytics
Popsat Azure Databricks
Popsat Azure Data Lake storage
Popsat Delta Lake architecture
Popsat Azure Stream Analytics

Modul 2: Spouštějte interaktivní dotazy pomocí Azure Synapse Analytics bezserverových fondů SQL
V tomto modulu se studenti naučí, jak pracovat se soubory uloženými v datovém jezeře a externími zdroji souborů prostřednictvím příkazů T-SQL spouštěných bezserverovým fondem SQL v Azure Synapse Analytics. Studenti budou dotazovat soubory Parquet uložené v datovém jezeře i soubory CSV uložené v externím datovém úložišti. Dále vytvoří skupiny zabezpečení Azure Active Directory a vynutí přístup k souborům v datovém jezeře prostřednictvím řízení přístupu založeného na rolích (RBAC) a seznamů řízení přístupu (ACL).
Lekce

Možnosti bezserverových fondů SQL Azure Synapse
Data Lake pomocí Azure Synapse bezserverových fondů SQL
Vytvářejte objekty metadat v bezserverových fondech SQL Azure Synapse
Zabezpečení dat a správa uživatele v bezserverových fondech SQL Azure Synapse

Lab : Spouštějte interaktivní dotazy pomocí bezserverových fondů SQL

Data Parquet pomocí bezserverových fondů SQL
Vytvořte externí tabulky pro Parquet a soubory CSV
Vytvářejte pohledy pomocí bezserverových fondů SQL
Zabezpečte přístup k datům v Data Lake při používání bezserverových fondů SQL
Nakonfigurujte zabezpečení Data Lake pomocí Role-Based Access Control (RBAC) a Access Control List

Po absolvování tohoto modulu budete schopni:

Pochopit možnosti bezserverových fondů SQL Azure Synapse
Dotázat se na Data lake pomocí Azure Synapse bezserverových fondů SQL
Vytvářet objekty metadat v bezserverových fondech SQL Azure Synapse
Zabezpečit data a spravovat uživatele v bezserverových fondech SQL Azure Synapse

Modul 3: Průzkum a transformace dat v Azure Databricks
Tento modul učí, jak používat různé metody Apache Spark DataFrame k prozkoumávání a transformaci dat v Azure Databricks. Student se naučí, jak provádět standardní metody DataFrame pro zkoumání a transformaci dat. Naučí se také provádět pokročilejší úkoly, jako je odstraňování duplicitních dat, manipulace s hodnotami data a času, přejmenování sloupců a agregace dat.
Lekce

Azure Databricks
Čtení a zápis dat v Azure Databricks
Práce s DataFrames v Azure Databricks
Práce s pokročilými metodami DataFrames v Azure Databricks

Lab : Průzkum a transformace dat v Azure Databricks

Použijte DataFrames v Azure Databricks k prozkoumání a filtrování dat
Uložte DataFrame do mezipaměti pro rychlejší následné dotazy
Odstraňte duplicitní data
Manipulujte s hodnotami data/času
Odeberte a přejmenujte sloupce DataFrame
Agregovat data uložená v DataFrame

Po absolvování tohoto modulu budete schopni:

Popsat Azure Databricks
Číst a zapisovat v Azure Databricks
Pracovat s DataFrames v Azure Databricks
Pracovat s pokročilými metodami DataFrames v Azure Databricks

Modul 4: Prozkoumejte, transformujte a načtěte data do datového skladu pomocí Apache Spark
Tento modul učí, jak prozkoumat data uložená v datovém jezeře, transformovat data a načíst data do úložiště relačních dat. Student prozkoumá soubory Parquet a JSON a použije techniky k dotazování a transformaci souborů JSON s hierarchickou strukturou. Poté student použije Apache Spark k načtení dat do datového skladu a spojení dat Parquet v datovém jezeře s daty ve vyhrazeném fondu SQL.
Lekce

Inženýrství velkých dat s Apache Spark v Azure Synapse Analytics
Zpracování dat pomocí notebooků Apache Spark v Azure Synapse Analytics
Transformace dat pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
Integrace fondů SQL a Apache Spark do Azure Synapse Analytics

Lab : Prozkoumejte, transformujte a načtěte data do datového skladu pomocí Apache Spark

Proveďte Data Exploration v Synapse Studio
Zpracování dat pomocí poznámkových bloků Spark v Azure Synapse Analytics
Transformujte data pomocí DataFrame ve fondech Spark v Azure Synapse Analytics
Integrujte fondy SQL a Spark v Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

Popsat inženýrství velkých dat pomocí Apache Spark v Azure Synapse Analytics
Zpracovat data pomocí notebooků Apache Spark v Azure Synapse Analytics
Transformovat data pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
Integrovat fondy SQL a Apache Spark do Azure Synapse Analytics

Modul 5: Ingestujte a načtěte data do datového skladu
Tento modul učí studenty, jak ingestovat data do datového skladu prostřednictvím skriptů T-SQL a integračních kanálů Synapse Analytics. Student se naučí načítat data do Synapse vyhrazených SQL poolů s PolyBase a COPY pomocí T-SQL. Student se také naučí, jak používat správu zátěže spolu s aktivitou Copy v kanálu Azure Synapse pro příjem dat v petabajtovém měřítku.
Lekce

Osvědčené postupy načítání dat v Azure Synapse Analytics
Příjem v petabajtovém měřítku pomocí Azure Data Factory

Lab : Zpracujte a načtěte data do datového skladu

Provádějte příjem v měřítku petabajtů pomocí Azure Synapse Pipelines
Importujte data pomocí PolyBase a COPY pomocí T-SQL
Použijte osvědčené postupy načítání dat v Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

Použít osvědčené postupy načítání dat v Azure Synapse Analytics
Přijímat v petabajtovém měřítku pomocí Azure Data Factory

Modul 6: Transformujte data pomocí Azure Data Factory nebo Azure Synapse Pipelines
Tento modul učí studenty, jak budovat kanály integrace dat pro ingest z více zdrojů dat, transformovat data pomocí mapování datových toků a provádět přesun dat do jednoho nebo více datových jímek.
Lekce

Integrace dat s Azure Data Factory nebo Azure Synapse Pipelines
Transformace bez kódu ve velkém pomocí Azure Data Factory nebo Azure Synapse Pipelines

Lab : Transformujte data pomocí Azure Data Factory nebo Azure Synapse Pipelines

Provádějte transformace bez kódu ve velkém pomocí Azure Synapse Pipelines
Vytvořte datový kanál pro import špatně formátovaných souborů CSV
Vytvořte mapování datových toků

Po absolvování tohoto modulu budete schopni:

Provést integraci dat s Azure Data Factory
Provést transformaci bez kódu ve velkém pomocí Azure Data Factory

Modul 7: Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines
V tomto modulu se naučíte vytvářet propojené služby a organizovat přesun a transformaci dat pomocí poznámkových bloků v Azure Synapse Pipelines.
Lekce

Uspořádejte přesun a transformaci dat v Azure Data Factory

Lab : Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines

Integrujte data z notebooků s Azure Data Factory nebo Azure Synapse Pipelines

Po absolvování tohoto modulu budete schopni:

Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines

Modul 8: End-to-end zabezpečení s Azure Synapse Analytics
V tomto modulu se studenti naučí, jak zabezpečit pracovní prostor Synapse Analytics a jeho podpůrnou infrastrukturu. Student bude sledovat SQL Active Directory Admin, spravovat pravidla brány firewall IP, spravovat tajné klíče pomocí Azure Key Vault a přistupovat k těmto tajným informacím prostřednictvím služby a aktivit kanálu propojeného s trezorem klíčů. Student pochopí, jak implementovat zabezpečení na úrovni sloupců, zabezpečení na úrovni řádků a dynamické maskování dat při použití vyhrazených fondů SQL.
Lekce

Zabezpečení datového skladu v Azure Synapse Analytics
Konfigurace a správa tajných klíčů v Azure Key Vault
Implementujte kontroly souladu pro citlivá data

Lab : End-to-end zabezpečení s Azure Synapse Analytics

Zabezpečená infrastruktura podpory Azure Synapse Analytics
Zabezpečte pracovní prostor Azure Synapse Analytics a spravované služby
Zabezpečte data pracovního prostoru Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

Zabezpečit datový sklad v Azure Synapse Analytics
Konfigurovat a spravovat tajných klíčů v Azure Key Vault
Implementovat kontroly souladu pro citlivá data

Modul 9: Podporujte hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link
V tomto modulu se studenti naučí, jak Azure Synapse Link umožňuje bezproblémové připojení účtu Azure Cosmos DB k pracovnímu prostoru Synapse. Student porozumí, jak povolit a nakonfigurovat propojení Synapse, a jak se dotazovat na analytické úložiště Azure Cosmos DB pomocí Apache Spark a SQL serverless.
Lekce

Hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
Konfigurace propojení Azure Synapse s Azure Cosmos DB
Azure Cosmos DB pomocí fondů Apache Spark
Azure Cosmos DB pomocí bezserverových fondů SQL

Lab : Podporujte hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link

Nakonfigurujte propojení Azure Synapse s Azure Cosmos DB
Dotazujte Azure Cosmos DB pomocí Apache Spark pro Synapse Analytics
Dotazujte Azure Cosmos DB pomocí bezserverového fondu SQL pro Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

Navrhnout hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
Nakonfigurovat propojení Azure Synapse s Azure Cosmos DB
Dotazovat Azure Cosmos DB pomocí Apache Spark pro Azure Synapse Analytics
Dotazovat Azure Cosmos DB pomocí SQL bez serveru pro Azure Synapse Analytics

Module 10: Zpracování streamu v reálném čase pomocí Stream Analytics
V tomto modulu se studenti naučí, jak zpracovávat streamovaná data pomocí Azure Stream Analytics. Student zpracuje telemetrická data vozidla do Event Hubs a poté tato data zpracuje v reálném čase pomocí různých funkcí oken v Azure Stream Analytics. Vydají data do Azure Synapse Analytics. Nakonec se student naučí, jak škálovat úlohu Stream Analytics, aby se zvýšila propustnost.
Lekce

Spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
Práce s datovými streamy pomocí Azure Stream Analytics
Zpracování datových streamů pomocí Azure Stream Analytics

Lab : Zpracování datových streamů pomocí Azure Stream Analytics

Použijte Stream Analytics ke zpracování dat v reálném čase z Event Hubs
Použijte funkce oken Stream Analytics k vytváření agregátů a výstupů do Synapse Analytics
Škálujte úlohu Azure Stream Analytics, abyste zvýšili propustnost prostřednictvím dělení
Přerozdělte vstup datového proudu pro optimalizaci paralelizace

Po absolvování tohoto modulu budete schopni:

Povolit spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
Práce s datovými streamy pomocí Azure Stream Analytics
Zpracování datových streamů pomocí Azure Stream Analytics

Modul 11: Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks
V tomto modulu se studenti naučí, jak ingestovat a zpracovávat streamovaná data ve velkém pomocí Event Hubs a Spark Structured Streaming v Azure Databricks. Student se naučí klíčové vlastnosti a použití strukturovaného streamování. Student implementuje posuvná okna pro agregaci přes kusy dat a použije vodoznak k odstranění zastaralých dat. Nakonec se student připojí k Event Hubs, aby mohl číst a zapisovat streamy.
Lekce

Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks

Lab : Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks

Prozkoumejte klíčové funkce a použití strukturovaného streamování
Streamujte data ze souboru a zapisujte je do distribuovaného systému souborů
Použijte posuvná okna k agregaci více dat než všech dat
Chcete-li odstranit zastaralá data, použijte vodoznak
Připojte se k Event Hubs pro čtení a zápis streamů

Po absolvování tohoto modulu budete schopni:

Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks

Cílová skupina

Primárním publikem tohoto kurzu jsou datoví profesionálové, datoví architekti a business intelligence, kteří se chtějí dozvědět o datovém inženýrství a vytváření analytických řešení pomocí technologií datové platformy, které existují v Microsoft Azure. Sekundární publikum pro tento kurz datové analytiky a datové vědce, kteří pracují s analytickými řešeními postavenými na Microsoft Azure.
Certifikát Na dotaz.
Hodnocení




Organizátor



Další termíny kurzu
Termín Cena Místo konání Zarezervovat