Serverless Data Processing with Dataflow

Serverless Data Processing with DataflowSDPFGOGoogleGO-SDPF1.0<ul> <li>Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.</li><li>Fassen Sie die Vorteile des Beam Portability Frameworks zusammen und aktivieren Sie es für Ihre Dataflow-Pipelines.</li><li>Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.</li><li>Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung.</li><li>Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag.</li><li>Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung.</li><li>Wählen Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline aus und stimmen Sie sie ab.</li><li>Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.</li><li>Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.</li><li>Überwachung, Fehlerbehebung, Tests und CI/CD für Dataflow-Pipelines.</li></ul><p>Um diesen Kurs optimal nutzen zu können, sollten die Teilnehmer die folgenden Kurse absolviert haben:</p> <ul> <li>Building Batch Data Pipelines</li><li>Building Resilient Streaming Analytics Systems</li></ul><ul> <li>Dateningenieure.</li><li>Datenanalysten und Datenwissenschaftler, die ihre Fähigkeiten im Bereich Data Engineering ausbauen möchten</li></ul><h5>Modul 1: Einführung</h5><ul> <li>Stellen Sie die Kursziele vor.</li><li>Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.</li></ul><h5>Modul 2: Übertragbarkeit von Strahlen</h5><ul> <li>Fassen Sie die Vorteile des Beam Portability Framework zusammen.</li><li>Passen Sie die Datenverarbeitungsumgebung Ihrer Pipeline mithilfe benutzerdefinierter Container an.</li><li>Überprüfung der Anwendungsfälle für sprachübergreifende Transformationen.</li><li>Aktivieren Sie das Portability Framework für Ihre Dataflow-Pipelines.</li></ul><h5>Modul 3: Trennung von Datenverarbeitung und Speicherung mit Dataflow</h5><ul> <li>Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.</li><li>Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung.</li></ul><h5>Modul 4: IAM, Kontingente und Berechtigungen</h5><ul> <li>Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag.</li><li>Ermitteln Sie Ihren Kapazitätsbedarf, indem Sie die entsprechenden Quoten für Ihre Dataflow-Jobs überprüfen.</li></ul><h5>Modul 5: Sicherheit</h5><ul> <li>Wählen Sie Ihre zonale Datenverarbeitungsstrategie mit Dataflow, je nach Ihren Anforderungen an die Datenlokalisierung.</li><li>Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung.</li></ul><h5>Modul 6: Wiederholung von Strahlenkonzepten</h5><ul> <li>Überprüfung der wichtigsten Konzepte von Apache Beam (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle.</li></ul><h5>Modul 7: Fenster, Wasserzeichen, Auslöser</h5><ul> <li>Implementieren Sie eine Logik zur Verarbeitung Ihrer verspäteten Daten.</li><li>Überprüfen Sie die verschiedenen Arten von Auslösern.</li><li>Überprüfung der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster).</li></ul><h5>Modul 8: Quellen und Senken</h5><ul> <li>Schreiben Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline.</li><li>Stimmen Sie Ihre Quelle/Senke-Transformation für maximale Leistung ab.</li><li>Benutzerdefinierte Quellen und Senken mit SDF erstellen.</li></ul><h5>Modul 9: Schemata</h5><ul> <li>Einführung von Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken.</li><li>Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.</li></ul><h5>Modul 10: Zustand und Zeitgeber</h5><ul> <li>Ermittlung von Anwendungsfällen für die Implementierung von Status- und Zeitgeber-APIs.</li><li>Wählen Sie den richtigen Typ von Status und Zeitgebern für Ihre Pipeline.</li></ul><h5>Modul 11: Bewährte Praktiken</h5><ul> <li>Implementierung bewährter Verfahren für Dataflow-Pipelines.</li></ul><h5>Modul 12: Datenfluss-SQL und DataFrames</h5><ul> <li>Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.</li></ul><h5>Modul 13: Beam Notebooks</h5><ul> <li>Prototyping Ihrer Pipeline in Python mit Beam-Notebooks.</li><li>Verwenden Sie Beam-Magie, um das Verhalten der Quellenaufzeichnung in Ihrem Notebook zu steuern.</li><li>Starten Sie einen Auftrag in Dataflow von einem Notebook aus.</li></ul><h5>Modul 14: Überwachung</h5><ul> <li>Navigieren Sie durch die Benutzeroberfläche der Dataflow-Auftragsdetails.</li><li>Interpretieren Sie Job-Metrics-Diagramme, um Regressionen in der Pipeline zu diagnostizieren.</li><li>Setzen Sie Alarme für Dataflow-Aufträge mit Cloud Monitoring.</li></ul><h5>Modul 15: Protokollierung und Fehlerberichterstattung</h5><ul> <li>Verwenden Sie die Dataflow-Protokolle und Diagnose-Widgets, um Probleme in der Pipeline zu beheben.</li></ul><h5>Modul 16: Fehlersuche und Fehlerbehebung</h5><ul> <li>Verwenden Sie einen strukturierten Ansatz zum Debuggen Ihrer Dataflow-Pipelines.</li><li>Untersuchen Sie die häufigsten Ursachen für Rohrleitungsausfälle.</li></ul><h5>Modul 17: Leistung</h5><ul> <li>Verstehen Sie Leistungsüberlegungen für Pipelines.</li><li>Überlegen Sie, wie sich die Form Ihrer Daten auf die Leistung der Pipeline auswirken kann.</li></ul><h5>Modul 18: Testen und CI/CD</h5><ul> <li>Testansätze für Ihre Dataflow-Pipeline.</li><li>Prüfen Sie die verfügbaren Frameworks und Funktionen, um Ihren CI/CD-Workflow für Dataflow-Pipelines zu optimieren.</li></ul><h5>Modul 19: Verlässlichkeit</h5><ul> <li>Implementieren Sie Best Practices für die Zuverlässigkeit Ihrer Dataflow-Pipelines.</li></ul><h5>Modul 20: Flex-Vorlagen</h5><ul> <li>Verwendung von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Dataflow-Pipeline-Code.</li></ul><h5>Modul 21: Zusammenfassung</h5><ul> <li>Zusammenfassung.</li></ul><p><em>Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte <span class="cms-link-marked"><a class="fl-href-prod" href="/swisscom/en/course/google-sdpf"><svg role="img" aria-hidden="true" focusable="false" data-nosnippet class="cms-linkmark"><use xlink:href="/css/img/icnset-linkmarks.svg#linkmark"></use></svg>hier</a></span>.</em></p>- Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen. - Fassen Sie die Vorteile des Beam Portability Frameworks zusammen und aktivieren Sie es für Ihre Dataflow-Pipelines. - Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen. - Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung. - Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag. - Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung. - Wählen Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline aus und stimmen Sie sie ab. - Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern. - Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames. - Überwachung, Fehlerbehebung, Tests und CI/CD für Dataflow-Pipelines.Um diesen Kurs optimal nutzen zu können, sollten die Teilnehmer die folgenden Kurse absolviert haben: - Building Batch Data Pipelines - Building Resilient Streaming Analytics Systems- Dateningenieure. - Datenanalysten und Datenwissenschaftler, die ihre Fähigkeiten im Bereich Data Engineering ausbauen möchtenModul 1: Einführung - Stellen Sie die Kursziele vor. - Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen. Modul 2: Übertragbarkeit von Strahlen - Fassen Sie die Vorteile des Beam Portability Framework zusammen. - Passen Sie die Datenverarbeitungsumgebung Ihrer Pipeline mithilfe benutzerdefinierter Container an. - Überprüfung der Anwendungsfälle für sprachübergreifende Transformationen. - Aktivieren Sie das Portability Framework für Ihre Dataflow-Pipelines. Modul 3: Trennung von Datenverarbeitung und Speicherung mit Dataflow - Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen. - Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung. Modul 4: IAM, Kontingente und Berechtigungen - Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag. - Ermitteln Sie Ihren Kapazitätsbedarf, indem Sie die entsprechenden Quoten für Ihre Dataflow-Jobs überprüfen. Modul 5: Sicherheit - Wählen Sie Ihre zonale Datenverarbeitungsstrategie mit Dataflow, je nach Ihren Anforderungen an die Datenlokalisierung. - Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung. Modul 6: Wiederholung von Strahlenkonzepten - Überprüfung der wichtigsten Konzepte von Apache Beam (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle. Modul 7: Fenster, Wasserzeichen, Auslöser - Implementieren Sie eine Logik zur Verarbeitung Ihrer verspäteten Daten. - Überprüfen Sie die verschiedenen Arten von Auslösern. - Überprüfung der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster). Modul 8: Quellen und Senken - Schreiben Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline. - Stimmen Sie Ihre Quelle/Senke-Transformation für maximale Leistung ab. - Benutzerdefinierte Quellen und Senken mit SDF erstellen. Modul 9: Schemata - Einführung von Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken. - Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern. Modul 10: Zustand und Zeitgeber - Ermittlung von Anwendungsfällen für die Implementierung von Status- und Zeitgeber-APIs. - Wählen Sie den richtigen Typ von Status und Zeitgebern für Ihre Pipeline. Modul 11: Bewährte Praktiken - Implementierung bewährter Verfahren für Dataflow-Pipelines. Modul 12: Datenfluss-SQL und DataFrames - Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames. Modul 13: Beam Notebooks - Prototyping Ihrer Pipeline in Python mit Beam-Notebooks. - Verwenden Sie Beam-Magie, um das Verhalten der Quellenaufzeichnung in Ihrem Notebook zu steuern. - Starten Sie einen Auftrag in Dataflow von einem Notebook aus. Modul 14: Überwachung - Navigieren Sie durch die Benutzeroberfläche der Dataflow-Auftragsdetails. - Interpretieren Sie Job-Metrics-Diagramme, um Regressionen in der Pipeline zu diagnostizieren. - Setzen Sie Alarme für Dataflow-Aufträge mit Cloud Monitoring. Modul 15: Protokollierung und Fehlerberichterstattung - Verwenden Sie die Dataflow-Protokolle und Diagnose-Widgets, um Probleme in der Pipeline zu beheben. Modul 16: Fehlersuche und Fehlerbehebung - Verwenden Sie einen strukturierten Ansatz zum Debuggen Ihrer Dataflow-Pipelines. - Untersuchen Sie die häufigsten Ursachen für Rohrleitungsausfälle. Modul 17: Leistung - Verstehen Sie Leistungsüberlegungen für Pipelines. - Überlegen Sie, wie sich die Form Ihrer Daten auf die Leistung der Pipeline auswirken kann. Modul 18: Testen und CI/CD - Testansätze für Ihre Dataflow-Pipeline. - Prüfen Sie die verfügbaren Frameworks und Funktionen, um Ihren CI/CD-Workflow für Dataflow-Pipelines zu optimieren. Modul 19: Verlässlichkeit - Implementieren Sie Best Practices für die Zuverlässigkeit Ihrer Dataflow-Pipelines. Modul 20: Flex-Vorlagen - Verwendung von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Dataflow-Pipeline-Code. Modul 21: Zusammenfassung - Zusammenfassung.Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte hier.3 Tage1950.001995.002220.001950.001950.001980.006770.002095.002095.002050.002050.002050.001950.002755.002450.00