Detail kurzu
DP-203 Data Engineering on Microsoft Azure
EDU Trainings s.r.o.
Popis kurzu
V tomto kurzu se student seznámí s datovým inženýrstvím, které se týká práce s dávkovými a analytickými řešeními v reálném čase pomocí technologií datové platformy Azure. Studenti začnou pochopením základních výpočetních a úložných technologií, které se používají k vytvoření analytického řešení. Studenti se naučí, jak interaktivně zkoumat data uložená v souborech v datovém jezeře. Naučí se různé techniky příjmu, které lze použít k načtení dat pomocí funkce Apache Spark, kterou najdete v Azure Synapse Analytics nebo Azure Databricks, nebo jak ingestovat pomocí Azure Data Factory nebo kanálů Azure Synapse. Studenti se také naučí různé způsoby, jak mohou transformovat data pomocí stejných technologií, které se používají pro ingest dat. Pochopí důležitost implementace zabezpečení pro zajištění ochrany dat v klidu nebo při přenosu. Student poté ukáže, jak vytvořit analytický systém v reálném čase pro vytváření analytických řešení v reálném čase.
Obsah kurzu
Modul 1: Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrstvíTento modul poskytuje přehled možností výpočetní a úložné technologie Azure, které jsou k dispozici datovým inženýrům vytvářejícím analytické úlohy. Tento modul učí způsoby, jak strukturovat datové jezero a optimalizovat soubory pro průzkum, streamování a dávkovou zátěž. Student se naučí, jak organizovat datové jezero do úrovní zpřesnění dat při transformaci souborů pomocí dávkového a proudového zpracování. Poté se naučí, jak vytvářet indexy na svých datových sadách, jako jsou soubory CSV, JSON a Parquet, a používat je pro potenciální zrychlení dotazů a zátěže.
Lekce
Úvod do Azure Synapse Analytics
Azure Databricks
Úvod do úložiště Azure Data Lake
Delta Lake architektura
Práce s datovými streamy pomocí Azure Stream Analytics
Lab : Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství
Kombinujte streamování a dávkové zpracování s jediným potrubím
Uspořádejte datové jezero do úrovní transformace souborů
Index úložiště datového jezera pro zrychlení dotazů a zátěže
Po absolvování tohoto modulu budete schopni:
Popsat Azure Synapse Analytics
Popsat Azure Databricks
Popsat Azure Data Lake storage
Popsat Delta Lake architecture
Popsat Azure Stream Analytics
Modul 2: Spouštějte interaktivní dotazy pomocí Azure Synapse Analytics bezserverových fondů SQL
V tomto modulu se studenti naučí, jak pracovat se soubory uloženými v datovém jezeře a externími zdroji souborů prostřednictvím příkazů T-SQL spouštěných bezserverovým fondem SQL v Azure Synapse Analytics. Studenti budou dotazovat soubory Parquet uložené v datovém jezeře i soubory CSV uložené v externím datovém úložišti. Dále vytvoří skupiny zabezpečení Azure Active Directory a vynutí přístup k souborům v datovém jezeře prostřednictvím řízení přístupu založeného na rolích (RBAC) a seznamů řízení přístupu (ACL).
Lekce
Možnosti bezserverových fondů SQL Azure Synapse
Data Lake pomocí Azure Synapse bezserverových fondů SQL
Vytvářejte objekty metadat v bezserverových fondech SQL Azure Synapse
Zabezpečení dat a správa uživatele v bezserverových fondech SQL Azure Synapse
Lab : Spouštějte interaktivní dotazy pomocí bezserverových fondů SQL
Data Parquet pomocí bezserverových fondů SQL
Vytvořte externí tabulky pro Parquet a soubory CSV
Vytvářejte pohledy pomocí bezserverových fondů SQL
Zabezpečte přístup k datům v Data Lake při používání bezserverových fondů SQL
Nakonfigurujte zabezpečení Data Lake pomocí Role-Based Access Control (RBAC) a Access Control List
Po absolvování tohoto modulu budete schopni:
Pochopit možnosti bezserverových fondů SQL Azure Synapse
Dotázat se na Data lake pomocí Azure Synapse bezserverových fondů SQL
Vytvářet objekty metadat v bezserverových fondech SQL Azure Synapse
Zabezpečit data a spravovat uživatele v bezserverových fondech SQL Azure Synapse
Modul 3: Průzkum a transformace dat v Azure Databricks
Tento modul učí, jak používat různé metody Apache Spark DataFrame k prozkoumávání a transformaci dat v Azure Databricks. Student se naučí, jak provádět standardní metody DataFrame pro zkoumání a transformaci dat. Naučí se také provádět pokročilejší úkoly, jako je odstraňování duplicitních dat, manipulace s hodnotami data a času, přejmenování sloupců a agregace dat.
Lekce
Azure Databricks
Čtení a zápis dat v Azure Databricks
Práce s DataFrames v Azure Databricks
Práce s pokročilými metodami DataFrames v Azure Databricks
Lab : Průzkum a transformace dat v Azure Databricks
Použijte DataFrames v Azure Databricks k prozkoumání a filtrování dat
Uložte DataFrame do mezipaměti pro rychlejší následné dotazy
Odstraňte duplicitní data
Manipulujte s hodnotami data/času
Odeberte a přejmenujte sloupce DataFrame
Agregovat data uložená v DataFrame
Po absolvování tohoto modulu budete schopni:
Popsat Azure Databricks
Číst a zapisovat v Azure Databricks
Pracovat s DataFrames v Azure Databricks
Pracovat s pokročilými metodami DataFrames v Azure Databricks
Modul 4: Prozkoumejte, transformujte a načtěte data do datového skladu pomocí Apache Spark
Tento modul učí, jak prozkoumat data uložená v datovém jezeře, transformovat data a načíst data do úložiště relačních dat. Student prozkoumá soubory Parquet a JSON a použije techniky k dotazování a transformaci souborů JSON s hierarchickou strukturou. Poté student použije Apache Spark k načtení dat do datového skladu a spojení dat Parquet v datovém jezeře s daty ve vyhrazeném fondu SQL.
Lekce
Inženýrství velkých dat s Apache Spark v Azure Synapse Analytics
Zpracování dat pomocí notebooků Apache Spark v Azure Synapse Analytics
Transformace dat pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
Integrace fondů SQL a Apache Spark do Azure Synapse Analytics
Lab : Prozkoumejte, transformujte a načtěte data do datového skladu pomocí Apache Spark
Proveďte Data Exploration v Synapse Studio
Zpracování dat pomocí poznámkových bloků Spark v Azure Synapse Analytics
Transformujte data pomocí DataFrame ve fondech Spark v Azure Synapse Analytics
Integrujte fondy SQL a Spark v Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
Popsat inženýrství velkých dat pomocí Apache Spark v Azure Synapse Analytics
Zpracovat data pomocí notebooků Apache Spark v Azure Synapse Analytics
Transformovat data pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
Integrovat fondy SQL a Apache Spark do Azure Synapse Analytics
Modul 5: Ingestujte a načtěte data do datového skladu
Tento modul učí studenty, jak ingestovat data do datového skladu prostřednictvím skriptů T-SQL a integračních kanálů Synapse Analytics. Student se naučí načítat data do Synapse vyhrazených SQL poolů s PolyBase a COPY pomocí T-SQL. Student se také naučí, jak používat správu zátěže spolu s aktivitou Copy v kanálu Azure Synapse pro příjem dat v petabajtovém měřítku.
Lekce
Osvědčené postupy načítání dat v Azure Synapse Analytics
Příjem v petabajtovém měřítku pomocí Azure Data Factory
Lab : Zpracujte a načtěte data do datového skladu
Provádějte příjem v měřítku petabajtů pomocí Azure Synapse Pipelines
Importujte data pomocí PolyBase a COPY pomocí T-SQL
Použijte osvědčené postupy načítání dat v Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
Použít osvědčené postupy načítání dat v Azure Synapse Analytics
Přijímat v petabajtovém měřítku pomocí Azure Data Factory
Modul 6: Transformujte data pomocí Azure Data Factory nebo Azure Synapse Pipelines
Tento modul učí studenty, jak budovat kanály integrace dat pro ingest z více zdrojů dat, transformovat data pomocí mapování datových toků a provádět přesun dat do jednoho nebo více datových jímek.
Lekce
Integrace dat s Azure Data Factory nebo Azure Synapse Pipelines
Transformace bez kódu ve velkém pomocí Azure Data Factory nebo Azure Synapse Pipelines
Lab : Transformujte data pomocí Azure Data Factory nebo Azure Synapse Pipelines
Provádějte transformace bez kódu ve velkém pomocí Azure Synapse Pipelines
Vytvořte datový kanál pro import špatně formátovaných souborů CSV
Vytvořte mapování datových toků
Po absolvování tohoto modulu budete schopni:
Provést integraci dat s Azure Data Factory
Provést transformaci bez kódu ve velkém pomocí Azure Data Factory
Modul 7: Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines
V tomto modulu se naučíte vytvářet propojené služby a organizovat přesun a transformaci dat pomocí poznámkových bloků v Azure Synapse Pipelines.
Lekce
Uspořádejte přesun a transformaci dat v Azure Data Factory
Lab : Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines
Integrujte data z notebooků s Azure Data Factory nebo Azure Synapse Pipelines
Po absolvování tohoto modulu budete schopni:
Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines
Modul 8: End-to-end zabezpečení s Azure Synapse Analytics
V tomto modulu se studenti naučí, jak zabezpečit pracovní prostor Synapse Analytics a jeho podpůrnou infrastrukturu. Student bude sledovat SQL Active Directory Admin, spravovat pravidla brány firewall IP, spravovat tajné klíče pomocí Azure Key Vault a přistupovat k těmto tajným informacím prostřednictvím služby a aktivit kanálu propojeného s trezorem klíčů. Student pochopí, jak implementovat zabezpečení na úrovni sloupců, zabezpečení na úrovni řádků a dynamické maskování dat při použití vyhrazených fondů SQL.
Lekce
Zabezpečení datového skladu v Azure Synapse Analytics
Konfigurace a správa tajných klíčů v Azure Key Vault
Implementujte kontroly souladu pro citlivá data
Lab : End-to-end zabezpečení s Azure Synapse Analytics
Zabezpečená infrastruktura podpory Azure Synapse Analytics
Zabezpečte pracovní prostor Azure Synapse Analytics a spravované služby
Zabezpečte data pracovního prostoru Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
Zabezpečit datový sklad v Azure Synapse Analytics
Konfigurovat a spravovat tajných klíčů v Azure Key Vault
Implementovat kontroly souladu pro citlivá data
Modul 9: Podporujte hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link
V tomto modulu se studenti naučí, jak Azure Synapse Link umožňuje bezproblémové připojení účtu Azure Cosmos DB k pracovnímu prostoru Synapse. Student porozumí, jak povolit a nakonfigurovat propojení Synapse, a jak se dotazovat na analytické úložiště Azure Cosmos DB pomocí Apache Spark a SQL serverless.
Lekce
Hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
Konfigurace propojení Azure Synapse s Azure Cosmos DB
Azure Cosmos DB pomocí fondů Apache Spark
Azure Cosmos DB pomocí bezserverových fondů SQL
Lab : Podporujte hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link
Nakonfigurujte propojení Azure Synapse s Azure Cosmos DB
Dotazujte Azure Cosmos DB pomocí Apache Spark pro Synapse Analytics
Dotazujte Azure Cosmos DB pomocí bezserverového fondu SQL pro Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
Navrhnout hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
Nakonfigurovat propojení Azure Synapse s Azure Cosmos DB
Dotazovat Azure Cosmos DB pomocí Apache Spark pro Azure Synapse Analytics
Dotazovat Azure Cosmos DB pomocí SQL bez serveru pro Azure Synapse Analytics
Module 10: Zpracování streamu v reálném čase pomocí Stream Analytics
V tomto modulu se studenti naučí, jak zpracovávat streamovaná data pomocí Azure Stream Analytics. Student zpracuje telemetrická data vozidla do Event Hubs a poté tato data zpracuje v reálném čase pomocí různých funkcí oken v Azure Stream Analytics. Vydají data do Azure Synapse Analytics. Nakonec se student naučí, jak škálovat úlohu Stream Analytics, aby se zvýšila propustnost.
Lekce
Spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
Práce s datovými streamy pomocí Azure Stream Analytics
Zpracování datových streamů pomocí Azure Stream Analytics
Lab : Zpracování datových streamů pomocí Azure Stream Analytics
Použijte Stream Analytics ke zpracování dat v reálném čase z Event Hubs
Použijte funkce oken Stream Analytics k vytváření agregátů a výstupů do Synapse Analytics
Škálujte úlohu Azure Stream Analytics, abyste zvýšili propustnost prostřednictvím dělení
Přerozdělte vstup datového proudu pro optimalizaci paralelizace
Po absolvování tohoto modulu budete schopni:
Povolit spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
Práce s datovými streamy pomocí Azure Stream Analytics
Zpracování datových streamů pomocí Azure Stream Analytics
Modul 11: Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks
V tomto modulu se studenti naučí, jak ingestovat a zpracovávat streamovaná data ve velkém pomocí Event Hubs a Spark Structured Streaming v Azure Databricks. Student se naučí klíčové vlastnosti a použití strukturovaného streamování. Student implementuje posuvná okna pro agregaci přes kusy dat a použije vodoznak k odstranění zastaralých dat. Nakonec se student připojí k Event Hubs, aby mohl číst a zapisovat streamy.
Lekce
Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks
Lab : Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks
Prozkoumejte klíčové funkce a použití strukturovaného streamování
Streamujte data ze souboru a zapisujte je do distribuovaného systému souborů
Použijte posuvná okna k agregaci více dat než všech dat
Chcete-li odstranit zastaralá data, použijte vodoznak
Připojte se k Event Hubs pro čtení a zápis streamů
Po absolvování tohoto modulu budete schopni:
Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks
Cílová skupina
Primárním publikem tohoto kurzu jsou datoví profesionálové, datoví architekti a business intelligence, kteří se chtějí dozvědět o datovém inženýrství a vytváření analytických řešení pomocí technologií datové platformy, které existují v Microsoft Azure. Sekundární publikum pro tento kurz datové analytiky a datové vědce, kteří pracují s analytickými řešeními postavenými na Microsoft Azure.
Certifikát
Na dotaz.
Hodnocení
Organizátor
Podobné kurzy
podle názvu a lokality