Data Engineering on Google Cloud Platform

Data Engineering on Google Cloud PlatformDEGCPGOGoogleGO-DEGCP3.0<ul> <li>Entwurf und Aufbau von Datenverarbeitungssystemen in der Google Cloud.</li><li>Verarbeiten Sie Batch- und Streaming-Daten durch die Implementierung automatisch skalierender Datenpipelines auf Dataflow.</li><li>Gewinnen Sie mit BigQuery Erkenntnisse aus extrem grossen Datensätzen.</li><li>Nutzen Sie unstrukturierte Daten mit Spark und ML-APIs auf Dataproc.</li><li>Ermöglichen Sie sofortige Einblicke aus Streaming-Daten.</li></ul><ul> <li>Frühere Erfahrungen mit Google Cloud unter Verwendung von Cloud Shell und Zugriff auf Produkte über die Google Cloud-Konsole.</li><li>Grundkenntnisse in einer gängigen Abfragesprache wie SQL.</li><li>Erfahrung mit Datenmodellierung und ETL-Aktivitäten (Extrahieren, Transformieren, Laden).</li><li>Erfahrung in der Entwicklung von Anwendungen in einer gängigen Programmiersprache wie Python</li></ul><ul> <li>Daten-Ingenieure</li><li>Datenbank-Administratoren</li><li>Systemadministratoren</li></ul><h4>Modul 01 - Aufgaben und Komponenten der Datentechnik</h4> Themen: <ul> <li>Die Rolle des Dateningenieurs</li><li>Datenquellen versus Datensynchronisation</li><li>Datenformate</li><li>Optionen für Speicherlösungen in der Google Cloud</li><li>Optionen für die Verwaltung von Metadaten in der Google Cloud</li><li>Gemeinsame Nutzung von Datensätzen über Analytics Hub</li></ul>Zielsetzungen: <ul> <li>Erklären Sie die Rolle eines Dateningenieurs.</li><li>die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen.</li><li>Erklären Sie die verschiedenen Arten von Datenformaten.</li><li>Erklären Sie die Optionen für Speicherlösungen in der Google Cloud.</li><li>Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud.</li><li>Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können.</li><li>Verstehen, wie man Daten mit der Google Cloud-Konsole und/oder der gcloud CLI in BigQuery lädt.</li></ul>Aktivitäten: <ul> <li>Übung: Laden von Daten in BigQuery</li></ul><h4>Modul 02 - Datenreplikation und -migration</h4> Themen: <ul> <li>Replikations- und Migrationsarchitektur</li><li>Das gcloud-Befehlszeilenwerkzeug</li><li>Verschieben von Datensätzen</li><li>Datastream</li></ul>Zielsetzungen: <ul> <li>Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud.</li><li>die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen.</li><li>Erläutern Sie die Funktionalität und die Anwendungsfälle für den Speicherübertragungsdienst.</li><li>Erläutern Sie die Funktionen und Anwendungsfälle für die Transfer Appliance.</li><li>Verstehen Sie die Funktionen und den Einsatz von Datastream.</li></ul>Aktivitäten: <ul> <li>Lab: Datastream: PostgreSQL Replikation auf BigQuery</li></ul><h4>Modul 03 - Das Muster der Pipeline für das Extrahieren und Laden von Daten</h4> Themen: <ul> <li>Architektur extrahieren und laden</li><li>Das bq Kommandozeilenwerkzeug</li><li>BigQuery-Datenübertragungsdienst</li><li>BigLake</li></ul>Zielsetzungen: <ul> <li>Erläutern Sie das Grundlinienextrakt- und Lastarchitekturdiagramm.</li><li>die Optionen des bq Kommandozeilenwerkzeugs zu verstehen.</li><li>Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service.</li><li>Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-Extract-Load-Muster.</li></ul>Aktivitäten: <ul> <li>Labor: BigLake: Qwik Start</li></ul><h4>Modul 04 - Das Muster der Pipeline für das Extrahieren, Laden und Transformieren von Daten</h4> Themen: <ul> <li>Architektur zum Extrahieren, Laden und Umwandeln (ELT)</li><li>SQL-Skripterstellung und Zeitplanung mit BigQuery</li><li>Datenformular</li></ul>Zielsetzungen: <ul> <li>Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur.</li><li>Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud.</li><li>Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von BigQuery.</li><li>Erläutern Sie die Funktionen und Anwendungsfälle von Dataform.</li></ul>Aktivitäten: <ul> <li>Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform</li></ul><h4>Modul 05 - Das Muster der Pipeline für das Extrahieren, Transformieren und Laden von Daten</h4> Themen: <ul> <li>Architektur des Extrahierens, Transformierens und Ladens (ETL)</li><li>Google Cloud GUI-Tools für ETL-Datenpipelines</li><li>Batch-Datenverarbeitung mit Dataproc</li><li>Optionen für die Verarbeitung von Streaming-Daten</li><li>Bigtable und Datenpipelines</li></ul>Zielsetzungen: <ul> <li>Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur.</li><li>Lernen Sie die GUI-Tools in Google Cloud kennen, die für ETL-Datenpipelines verwendet werden.</li><li>Erläutern Sie die Batch-Datenverarbeitung mit Dataproc.</li><li>Lernen Sie, Dataproc Serverless for Spark für ETL zu verwenden.</li><li>Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung.</li><li>Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt.</li></ul>Aktivitäten: <ul> <li>Übung: Dataproc Serverless für Spark verwenden, um BigQuery zu laden</li><li>Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow</li></ul><h4>Modul 06 - Automatisierungstechniken</h4> Themen: <ul> <li>Automatisierungsmuster und Optionen für Pipelines</li><li>Cloud Scheduler und Arbeitsabläufe</li><li>Cloud-Komponist</li><li>Cloud Run-Funktionen</li><li>Eventarc</li></ul>Zielsetzungen: <ul> <li>Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind.</li><li>Erfahren Sie mehr über Cloud Scheduler und Workflows.</li><li>Erfahren Sie mehr über Cloud Composer.</li><li>Lernen Sie die Funktionen von Cloud Run kennen.</li><li>Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc.</li></ul>Aktivitäten: <ul> <li>Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery</li></ul><h4>Modul 07 - Einführung in die Datentechnik</h4> Themen: <ul> <li>Die Rolle des Dateningenieurs</li><li>Herausforderungen der Datentechnik</li><li>Einführung in BigQuery</li><li>Data Lakes und Data Warehouses</li><li>Transaktionsdatenbanken versus Data Warehouses</li><li>Effiziente Partnerschaft mit anderen Datenteams</li><li>Verwaltung von Datenzugang und Governance</li><li>Aufbau von produktionsreifen Pipelines</li><li>Google Cloud Kundenfallstudie</li></ul>Zielsetzungen: <ul> <li>Erörtern Sie die Herausforderungen der Datentechnik und wie der Aufbau von Datenpipelines in der Cloud dazu beiträgt, diese zu bewältigen.</li><li>Überprüfen und verstehen Sie den Zweck eines Data Lake im Vergleich zu einem Data Warehouse und wann Sie welches einsetzen sollten.</li></ul>Aktivitäten: <ul> <li>Übung: BigQuery für die Analyse verwenden</li></ul><h4>Modul 08 - Aufbau eines Data Lake</h4> Themen: <ul> <li>Einführung in Data Lakes</li><li>Datenspeicherung und ETL-Optionen in der Google Cloud</li><li>Aufbau eines Data Lake mit Cloud Storage</li><li>Sicherer Cloud-Speicher</li><li>Alle Arten von Datentypen speichern</li><li>Cloud SQL als Ihr OLTP-System</li></ul>Zielsetzungen: <ul> <li>Diskutieren Sie, warum Cloud Storage eine gute Option für den Aufbau eines Data Lake in der Google Cloud ist.</li><li>Erläutern Sie, wie Sie Cloud SQL für einen relationalen Datensee verwenden können.</li></ul>Aktivitäten: <ul> <li>Übung: Laden von Taxidaten in Cloud SQL</li></ul><h4>Modul 09 - Aufbau eines Data Warehouse</h4> Themen: <ul> <li>Das moderne Data Warehouse</li><li>Einführung in BigQuery</li><li>Erste Schritte mit BigQuery</li><li>Laden von Daten in BigQuery</li><li>Erkundung von Schemata</li><li>Entwurf des Schemas</li><li>Verschachtelte und wiederholte Felder</li><li>Optimierung mit Partitionierung und Clustering</li></ul>Zielsetzungen: <ul> <li>Erörterung der Anforderungen an ein modernes Lager.</li><li>Erklären Sie, warum BigQuery die skalierbare Data-Warehousing-Lösung in der Google Cloud ist.</li><li>Besprechung der Kernkonzepte von BigQuery und Überprüfung der Optionen zum Laden von Daten in BigQuery.</li></ul>Aktivitäten: <ul> <li>Übung: Arbeiten mit JSON- und Array-Daten in BigQuery</li><li>Übung: Partitionierte Tabellen in BigQuery</li></ul><h4>Modul 10 - Einführung in die Erstellung von Batch-Datenpipelines</h4> Themen: <ul> <li>EL, ELT, ETL</li><li>Überlegungen zur Qualität</li><li>Möglichkeiten der Ausführung von Operationen in BigQuery</li><li>Unzulänglichkeiten</li><li>ETL zur Lösung von Datenqualitätsproblemen</li></ul>Zielsetzungen: <ul> <li>Überprüfen Sie verschiedene Methoden zum Laden von Daten in Ihre Data Lakes und Warehouses: EL, ELT und ETL.</li></ul><h4>Modul 11 - Ausführen von Spark auf Dataproc</h4> Themen: <ul> <li>Das Hadoop-Ökosystem</li><li>Hadoop auf Dataproc ausführen</li><li>Cloud-Speicher anstelle von HDFS</li><li>Optimieren Sie Dataproc</li></ul>Zielsetzungen: <ul> <li>Überprüfen Sie das Hadoop-Ökosystem.</li><li>Diskutieren Sie, wie Sie Ihre bestehenden Hadoop-Workloads mit Dataproc in die Cloud verlagern können.</li><li>Erläutern Sie, wann Sie Cloud-Speicher anstelle von HDFS-Speicher verwenden würden.</li><li>Erläutern Sie, wie Sie Dataproc-Aufträge optimieren können.</li></ul>Aktivitäten: <ul> <li>Übung: Ausführen von Apache Spark-Aufträgen auf Dataproc</li></ul><h4>Modul 12 - Serverlose Datenverarbeitung mit Dataflow</h4> Themen: <ul> <li>Einführung in den Datenfluss</li><li>Gründe, warum Kunden Dataflow schätzen</li><li>Datenfluss-Pipelines</li><li>Aggregieren mit GroupByKey und Kombinieren</li><li>Seitliche Eingänge und Fenster</li><li>Datenfluss-Vorlagen</li></ul>Zielsetzungen: <ul> <li>Identifizieren Sie die Funktionen, die Kunden an Dataflow schätzen.</li><li>Diskutieren Sie die Kernkonzepte von Dataflow.</li><li>Überprüfen Sie die Verwendung von Dataflow-Vorlagen und SQL.</li><li>Schreiben Sie eine einfache Dataflow-Pipeline und führen Sie sie sowohl lokal als auch in der Cloud aus.</li><li>Identifizieren von Map- und Reduce-Operationen, Ausführen der Pipeline und Verwenden von Befehlszeilenparametern.</li><li>Lesen Sie Daten aus BigQuery in Dataflow und verwenden Sie die Ausgabe einer Pipeline als Nebeneingang für eine andere Pipeline.</li></ul>Aktivitäten: <ul> <li>Lab: A Simple Dataflow Pipeline (Python/Java)</li><li>Übung: MapReduce in Beam (Python/Java)</li><li>Lab: Side Inputs (Python/Java)</li></ul><h4>Modul 13 - Verwalten von Datenpipelines mit Cloud Data Fusion und Cloud Composer</h4> Themen: <ul> <li>Visuelle Erstellung von Batch-Datenpipelines mit Cloud Data Fusion<ul> <li>Komponenten</li><li>UI-Übersicht</li><li>Aufbau einer Pipeline</li><li>Daten mit Wrangler erforschen</li></ul></li><li>Orchestrierung der Arbeit zwischen Google Cloud-Diensten mit Cloud Composer<ul> <li>Apache Airflow-Umgebung</li><li>DAGs und Operatoren</li><li>Workflow-Planung</li><li>Überwachung und Protokollierung</li></ul></li></ul>Zielsetzungen: <ul> <li>Besprechen Sie, wie Sie Ihre Datenpipelines mit Cloud Data Fusion und Cloud Composer verwalten können.</li><li>Fassen Sie zusammen, wie Cloud Data Fusion es Datenanalysten und ETL-Entwicklern ermöglicht, Daten zu verarbeiten und Pipelines auf visuelle Art und Weise zu erstellen.</li><li>Beschreiben Sie, wie Cloud Composer bei der Orchestrierung der Arbeit über mehrere Google Cloud-Dienste hinweg helfen kann.</li></ul>Aktivitäten: <ul> <li>Übung: Aufbau und Ausführung eines Pipeline-Graphen in der Datenfusion</li><li>Übung: Eine Einführung in Cloud Composer</li></ul><h4>Modul 14 - Einführung in die Verarbeitung von Streaming-Daten</h4> Themen: <ul> <li>Verarbeitung von Streaming-Daten</li></ul>Zielsetzungen: <ul> <li>Erklären Sie die Streaming-Datenverarbeitung.</li><li>Identifizieren Sie die Google Cloud-Produkte und -Tools, die bei der Bewältigung von Streaming-Daten-Herausforderungen helfen können.</li></ul><h4>Modul 15 - Serverloses Messaging mit Pub/Sub</h4> Themen: <ul> <li>Einführung in Pub/Sub</li><li>Pub/Sub push versus pull</li><li>Veröffentlichung mit Pub/Sub-Code</li></ul>Zielsetzungen: <ul> <li>Beschreiben Sie den Pub/Sub-Dienst.</li><li>Erklären Sie, wie Pub/Sub funktioniert.</li><li>Simulation von Echtzeit-Sensordatenströmen mit Pub/Sub.</li></ul>Aktivitäten: <ul> <li>Übung: Streaming-Daten in Pub/Sub veröffentlichen</li></ul><h4>Modul 16 - Datenfluss-Streaming-Funktionen</h4> Themen: <ul> <li>Herausforderungen bei der Datenverarbeitung</li><li>Datenfluss-Fensterung</li></ul>Zielsetzungen: <ul> <li>Beschreiben Sie den Dataflow-Dienst.</li><li>Aufbau einer Stream-Verarbeitungspipeline für Live-Verkehrsdaten.</li><li>Demonstration des Umgangs mit verspäteten Daten unter Verwendung von Wasserzeichen, Triggern und Akkumulation.</li></ul>Aktivitäten: <ul> <li>Übung: Streaming-Daten-Pipelines</li></ul><h4>Modul 17 - BigQuery- und Bigtable-Streaming-Funktionen mit hohem Durchsatz</h4> Themen: <ul> <li>Streaming in BigQuery und Visualisierung der Ergebnisse</li><li>Streaming mit hohem Durchsatz mit Bigtable</li><li>Optimierung der Bigtable-Leistung</li></ul>Zielsetzungen: <ul> <li>Beschreiben Sie, wie Sie mit BigQuery und Dashboards Ad-hoc-Analysen für Streaming-Daten durchführen können.</li><li>Diskutieren Sie Bigtable als Lösung mit niedriger Latenzzeit.</li><li>Beschreiben Sie, wie Sie eine Architektur für Bigtable erstellen und wie Sie Daten in Bigtable einlesen können.</li><li>Hervorhebung der Leistungsüberlegungen für die betreffenden Dienste.</li></ul>Aktivitäten: <ul> <li>Labor: Streaming-Analytik und Dashboards</li><li>Übung: Personalisierte E-Mail-Inhalte mit BigQuery Continuous Queries und Gemini generieren</li><li>Übung: Streaming Data Pipelines in Bigtable</li></ul><h4>Modul 18 - Erweiterte BigQuery-Funktionen und -Leistung</h4> Themen: <ul> <li>Analytische Fensterfunktionen</li><li>GIS-Funktionen</li><li>Überlegungen zur Leistung</li></ul>Zielsetzungen: <ul> <li>Überprüfen Sie einige der erweiterten Analysefunktionen von BigQuery.</li><li>Erörterung von Möglichkeiten zur Verbesserung der Abfrageleistung.</li></ul>Aktivitäten: <ul> <li>Übung: Optimieren Ihrer BigQuery-Abfragen für die Leistung</li></ul>Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte <a class="fl-href-prod" href="/swisscom/en/course/google-degcp"><svg role="img" aria-hidden="true" focusable="false" data-nosnippet class="cms-linkmark"><use xlink:href="/css/img/icnset-linkmarks.svg#linkmark"></use></svg>hier</a>.- Entwurf und Aufbau von Datenverarbeitungssystemen in der Google Cloud. - Verarbeiten Sie Batch- und Streaming-Daten durch die Implementierung automatisch skalierender Datenpipelines auf Dataflow. - Gewinnen Sie mit BigQuery Erkenntnisse aus extrem grossen Datensätzen. - Nutzen Sie unstrukturierte Daten mit Spark und ML-APIs auf Dataproc. - Ermöglichen Sie sofortige Einblicke aus Streaming-Daten.- Frühere Erfahrungen mit Google Cloud unter Verwendung von Cloud Shell und Zugriff auf Produkte über die Google Cloud-Konsole. - Grundkenntnisse in einer gängigen Abfragesprache wie SQL. - Erfahrung mit Datenmodellierung und ETL-Aktivitäten (Extrahieren, Transformieren, Laden). - Erfahrung in der Entwicklung von Anwendungen in einer gängigen Programmiersprache wie Python- Daten-Ingenieure - Datenbank-Administratoren - SystemadministratorenModul 01 - Aufgaben und Komponenten der Datentechnik Themen: - Die Rolle des Dateningenieurs - Datenquellen versus Datensynchronisation - Datenformate - Optionen für Speicherlösungen in der Google Cloud - Optionen für die Verwaltung von Metadaten in der Google Cloud - Gemeinsame Nutzung von Datensätzen über Analytics Hub Zielsetzungen: - Erklären Sie die Rolle eines Dateningenieurs. - die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen. - Erklären Sie die verschiedenen Arten von Datenformaten. - Erklären Sie die Optionen für Speicherlösungen in der Google Cloud. - Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud. - Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können. - Verstehen, wie man Daten mit der Google Cloud-Konsole und/oder der gcloud CLI in BigQuery lädt. Aktivitäten: - Übung: Laden von Daten in BigQuery Modul 02 - Datenreplikation und -migration Themen: - Replikations- und Migrationsarchitektur - Das gcloud-Befehlszeilenwerkzeug - Verschieben von Datensätzen - Datastream Zielsetzungen: - Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud. - die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen. - Erläutern Sie die Funktionalität und die Anwendungsfälle für den Speicherübertragungsdienst. - Erläutern Sie die Funktionen und Anwendungsfälle für die Transfer Appliance. - Verstehen Sie die Funktionen und den Einsatz von Datastream. Aktivitäten: - Lab: Datastream: PostgreSQL Replikation auf BigQuery Modul 03 - Das Muster der Pipeline für das Extrahieren und Laden von Daten Themen: - Architektur extrahieren und laden - Das bq Kommandozeilenwerkzeug - BigQuery-Datenübertragungsdienst - BigLake Zielsetzungen: - Erläutern Sie das Grundlinienextrakt- und Lastarchitekturdiagramm. - die Optionen des bq Kommandozeilenwerkzeugs zu verstehen. - Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service. - Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-Extract-Load-Muster. Aktivitäten: - Labor: BigLake: Qwik Start Modul 04 - Das Muster der Pipeline für das Extrahieren, Laden und Transformieren von Daten Themen: - Architektur zum Extrahieren, Laden und Umwandeln (ELT) - SQL-Skripterstellung und Zeitplanung mit BigQuery - Datenformular Zielsetzungen: - Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur. - Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud. - Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von BigQuery. - Erläutern Sie die Funktionen und Anwendungsfälle von Dataform. Aktivitäten: - Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform Modul 05 - Das Muster der Pipeline für das Extrahieren, Transformieren und Laden von Daten Themen: - Architektur des Extrahierens, Transformierens und Ladens (ETL) - Google Cloud GUI-Tools für ETL-Datenpipelines - Batch-Datenverarbeitung mit Dataproc - Optionen für die Verarbeitung von Streaming-Daten - Bigtable und Datenpipelines Zielsetzungen: - Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur. - Lernen Sie die GUI-Tools in Google Cloud kennen, die für ETL-Datenpipelines verwendet werden. - Erläutern Sie die Batch-Datenverarbeitung mit Dataproc. - Lernen Sie, Dataproc Serverless for Spark für ETL zu verwenden. - Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung. - Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt. Aktivitäten: - Übung: Dataproc Serverless für Spark verwenden, um BigQuery zu laden - Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow Modul 06 - Automatisierungstechniken Themen: - Automatisierungsmuster und Optionen für Pipelines - Cloud Scheduler und Arbeitsabläufe - Cloud-Komponist - Cloud Run-Funktionen - Eventarc Zielsetzungen: - Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind. - Erfahren Sie mehr über Cloud Scheduler und Workflows. - Erfahren Sie mehr über Cloud Composer. - Lernen Sie die Funktionen von Cloud Run kennen. - Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc. Aktivitäten: - Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery Modul 07 - Einführung in die Datentechnik Themen: - Die Rolle des Dateningenieurs - Herausforderungen der Datentechnik - Einführung in BigQuery - Data Lakes und Data Warehouses - Transaktionsdatenbanken versus Data Warehouses - Effiziente Partnerschaft mit anderen Datenteams - Verwaltung von Datenzugang und Governance - Aufbau von produktionsreifen Pipelines - Google Cloud Kundenfallstudie Zielsetzungen: - Erörtern Sie die Herausforderungen der Datentechnik und wie der Aufbau von Datenpipelines in der Cloud dazu beiträgt, diese zu bewältigen. - Überprüfen und verstehen Sie den Zweck eines Data Lake im Vergleich zu einem Data Warehouse und wann Sie welches einsetzen sollten. Aktivitäten: - Übung: BigQuery für die Analyse verwenden Modul 08 - Aufbau eines Data Lake Themen: - Einführung in Data Lakes - Datenspeicherung und ETL-Optionen in der Google Cloud - Aufbau eines Data Lake mit Cloud Storage - Sicherer Cloud-Speicher - Alle Arten von Datentypen speichern - Cloud SQL als Ihr OLTP-System Zielsetzungen: - Diskutieren Sie, warum Cloud Storage eine gute Option für den Aufbau eines Data Lake in der Google Cloud ist. - Erläutern Sie, wie Sie Cloud SQL für einen relationalen Datensee verwenden können. Aktivitäten: - Übung: Laden von Taxidaten in Cloud SQL Modul 09 - Aufbau eines Data Warehouse Themen: - Das moderne Data Warehouse - Einführung in BigQuery - Erste Schritte mit BigQuery - Laden von Daten in BigQuery - Erkundung von Schemata - Entwurf des Schemas - Verschachtelte und wiederholte Felder - Optimierung mit Partitionierung und Clustering Zielsetzungen: - Erörterung der Anforderungen an ein modernes Lager. - Erklären Sie, warum BigQuery die skalierbare Data-Warehousing-Lösung in der Google Cloud ist. - Besprechung der Kernkonzepte von BigQuery und Überprüfung der Optionen zum Laden von Daten in BigQuery. Aktivitäten: - Übung: Arbeiten mit JSON- und Array-Daten in BigQuery - Übung: Partitionierte Tabellen in BigQuery Modul 10 - Einführung in die Erstellung von Batch-Datenpipelines Themen: - EL, ELT, ETL - Überlegungen zur Qualität - Möglichkeiten der Ausführung von Operationen in BigQuery - Unzulänglichkeiten - ETL zur Lösung von Datenqualitätsproblemen Zielsetzungen: - Überprüfen Sie verschiedene Methoden zum Laden von Daten in Ihre Data Lakes und Warehouses: EL, ELT und ETL. Modul 11 - Ausführen von Spark auf Dataproc Themen: - Das Hadoop-Ökosystem - Hadoop auf Dataproc ausführen - Cloud-Speicher anstelle von HDFS - Optimieren Sie Dataproc Zielsetzungen: - Überprüfen Sie das Hadoop-Ökosystem. - Diskutieren Sie, wie Sie Ihre bestehenden Hadoop-Workloads mit Dataproc in die Cloud verlagern können. - Erläutern Sie, wann Sie Cloud-Speicher anstelle von HDFS-Speicher verwenden würden. - Erläutern Sie, wie Sie Dataproc-Aufträge optimieren können. Aktivitäten: - Übung: Ausführen von Apache Spark-Aufträgen auf Dataproc Modul 12 - Serverlose Datenverarbeitung mit Dataflow Themen: - Einführung in den Datenfluss - Gründe, warum Kunden Dataflow schätzen - Datenfluss-Pipelines - Aggregieren mit GroupByKey und Kombinieren - Seitliche Eingänge und Fenster - Datenfluss-Vorlagen Zielsetzungen: - Identifizieren Sie die Funktionen, die Kunden an Dataflow schätzen. - Diskutieren Sie die Kernkonzepte von Dataflow. - Überprüfen Sie die Verwendung von Dataflow-Vorlagen und SQL. - Schreiben Sie eine einfache Dataflow-Pipeline und führen Sie sie sowohl lokal als auch in der Cloud aus. - Identifizieren von Map- und Reduce-Operationen, Ausführen der Pipeline und Verwenden von Befehlszeilenparametern. - Lesen Sie Daten aus BigQuery in Dataflow und verwenden Sie die Ausgabe einer Pipeline als Nebeneingang für eine andere Pipeline. Aktivitäten: - Lab: A Simple Dataflow Pipeline (Python/Java) - Übung: MapReduce in Beam (Python/Java) - Lab: Side Inputs (Python/Java) Modul 13 - Verwalten von Datenpipelines mit Cloud Data Fusion und Cloud Composer Themen: - Visuelle Erstellung von Batch-Datenpipelines mit Cloud Data Fusion - Komponenten - UI-Übersicht - Aufbau einer Pipeline - Daten mit Wrangler erforschen - Orchestrierung der Arbeit zwischen Google Cloud-Diensten mit Cloud Composer - Apache Airflow-Umgebung - DAGs und Operatoren - Workflow-Planung - Überwachung und Protokollierung Zielsetzungen: - Besprechen Sie, wie Sie Ihre Datenpipelines mit Cloud Data Fusion und Cloud Composer verwalten können. - Fassen Sie zusammen, wie Cloud Data Fusion es Datenanalysten und ETL-Entwicklern ermöglicht, Daten zu verarbeiten und Pipelines auf visuelle Art und Weise zu erstellen. - Beschreiben Sie, wie Cloud Composer bei der Orchestrierung der Arbeit über mehrere Google Cloud-Dienste hinweg helfen kann. Aktivitäten: - Übung: Aufbau und Ausführung eines Pipeline-Graphen in der Datenfusion - Übung: Eine Einführung in Cloud Composer Modul 14 - Einführung in die Verarbeitung von Streaming-Daten Themen: - Verarbeitung von Streaming-Daten Zielsetzungen: - Erklären Sie die Streaming-Datenverarbeitung. - Identifizieren Sie die Google Cloud-Produkte und -Tools, die bei der Bewältigung von Streaming-Daten-Herausforderungen helfen können. Modul 15 - Serverloses Messaging mit Pub/Sub Themen: - Einführung in Pub/Sub - Pub/Sub push versus pull - Veröffentlichung mit Pub/Sub-Code Zielsetzungen: - Beschreiben Sie den Pub/Sub-Dienst. - Erklären Sie, wie Pub/Sub funktioniert. - Simulation von Echtzeit-Sensordatenströmen mit Pub/Sub. Aktivitäten: - Übung: Streaming-Daten in Pub/Sub veröffentlichen Modul 16 - Datenfluss-Streaming-Funktionen Themen: - Herausforderungen bei der Datenverarbeitung - Datenfluss-Fensterung Zielsetzungen: - Beschreiben Sie den Dataflow-Dienst. - Aufbau einer Stream-Verarbeitungspipeline für Live-Verkehrsdaten. - Demonstration des Umgangs mit verspäteten Daten unter Verwendung von Wasserzeichen, Triggern und Akkumulation. Aktivitäten: - Übung: Streaming-Daten-Pipelines Modul 17 - BigQuery- und Bigtable-Streaming-Funktionen mit hohem Durchsatz Themen: - Streaming in BigQuery und Visualisierung der Ergebnisse - Streaming mit hohem Durchsatz mit Bigtable - Optimierung der Bigtable-Leistung Zielsetzungen: - Beschreiben Sie, wie Sie mit BigQuery und Dashboards Ad-hoc-Analysen für Streaming-Daten durchführen können. - Diskutieren Sie Bigtable als Lösung mit niedriger Latenzzeit. - Beschreiben Sie, wie Sie eine Architektur für Bigtable erstellen und wie Sie Daten in Bigtable einlesen können. - Hervorhebung der Leistungsüberlegungen für die betreffenden Dienste. Aktivitäten: - Labor: Streaming-Analytik und Dashboards - Übung: Personalisierte E-Mail-Inhalte mit BigQuery Continuous Queries und Gemini generieren - Übung: Streaming Data Pipelines in Bigtable Modul 18 - Erweiterte BigQuery-Funktionen und -Leistung Themen: - Analytische Fensterfunktionen - GIS-Funktionen - Überlegungen zur Leistung Zielsetzungen: - Überprüfen Sie einige der erweiterten Analysefunktionen von BigQuery. - Erörterung von Möglichkeiten zur Verbesserung der Abfrageleistung. Aktivitäten: - Übung: Optimieren Ihrer BigQuery-Abfragen für die LeistungDieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte hier.4 Tage2600.002600.002695.002695.002600.002495.001950.003450.002600.002600.003380.001500.00221000.009020.001950.001950.001950.002600.002640.003445.002990.00