Formation Google Cloud Platform – Data Engineering

Référence : GCP200DE
Durée : 28 heures
Certification : Non
Eligible CPF : Non

RÉSUMÉ

Ce cours de quatre jours dirigé par un instructeur offre aux participants une introduction pratique à la conception et à la création de systèmes de traitement des données sur Google Cloud Platform. Grâce à une combinaison de présentations, de démonstrations et de travaux pratiques, les participants apprendront à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Le cours couvre les données structurées, non structurées et en streaming

CONNAISSANCES PREALABLES

1-Avoir suivi le cours GCP100A - Google Cloud Fundamentals: Big Data & Machine Learning ou avoir une expérience équivalente
2-Compétence de base avec un langage de requête commun tel que SQL
3-Experience avec la modélisation de données et l ‘ETL
4-Développement d’applications à l’aide d’un langage de programmation commun tel que Python
5-Connaissance du machine learning et / ou des statistiques

PROFIL DES STAGIAIRES

Développeurs expérimentés qui sont responsables de la gestion des transformations des mégadonnées, notamment: l’extraction, le chargement, la transformation, le nettoyage et la validation des données

OBJECTIFS

Conception et déploiement de pipelines et d’architectures pour le traitement des données
Création et déploiement de workflows de machine learning
Interrogation des ensembles de données
Visualisation des résultats des requêtes et création de rapports

METHODES PEDAGOGIQUES

6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
Remise d’une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

Auto-évaluation des acquis par le stagiaire via un questionnaire
Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Cloud

CONTENU DU COURS Cloud

1 - Introduction à l’ingénierie des données

Analyser les défis d’ingénierie des données
Explorez le rôle d’un data engineer
Lab: Analyse de données avec BigQuery
Etude de cas d’un client GCP
Construire des pipelines prêts pour la production
Gérer l’accès aux données et gouvernance
Travailler efficacement avec d’autres équipes de données
Bases de données transactionnelles vs data warehouses
Démo: recherche de données personnelles dans votre jeu de données avec l’API DLP
Introduction à BigQuery
Démo: requêtes fédérées avec BigQuery
Data lakes et data warehouses

2 - Construire un Data Lake

Cloud SQL en tant que data lake relationnel
Démo: exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
Stocker tous les types de données
Sécurisation de Cloud Storage
Démo: optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
Construction d’un data lake à l’aide de Cloud Storage
Stockage de données et options ETL sur GCP
Introduction aux data lakes

3 - Construire un Data Warehouse

Aperçu: Transformation de données par lots et en continu
Démo: Tables partitionnées et groupées dans BigQuery
Optimiser avec le partitionnement et le clustering
Lab: tableaux et structures
Champs imbriqués et répétés dans BigQuery
Démo: Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Conception de schéma
Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Lab: Chargement de données avec la console et la CLI
Démo: Interroger Cloud SQL à partir de BigQuery
Commencer à charger des données
Démo: Requêter des TB + de données en quelques secondes
Introduction à BigQuery
Le data warehouse moderne
Explorer les schémas

4 - Introduction à la construction de pipelines de données par lots EL, ELT, ETL

Des lacunes
ETL pour résoudre les problèmes de qualité des données
Démo: ELT pour améliorer la qualité des données dans BigQuery
Comment effectuer des opérations dans BigQuery
Considérations de qualité

5 - Exécution de Spark sur Cloud Dataproc

L’écosystème Hadoop
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
Optimiser Dataproc
Atelier: Exécution de jobs Apache Spark sur Cloud Dataproc

6 - Traitement de données sans serveur avec Cloud Dataflow

Dataflow SQL
Templates Dataflow
Lab: Entrées latérales (Python / Java)
Lab: Pipeline de flux de données simple (Python / Java)
Pipelines de flux de données
Pourquoi les clients apprécient-ils Dataflow?
Cloud Dataflow
Lab: MapReduce dans un flux de données (Python / Java)

7 - Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l’interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
Lab: Construction et exécution d’un graphe de pipeline dans Cloud Data Fusion
Orchestrer le travail entre les services GCP avec Cloud Composer – Apache Airflow Environment: DAG et opérateurs, planification du flux de travail
Démo: Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
Lab: Introduction à Cloud Composer

8 - Introduction au traitement de données en streaming

Traitement des données en streaming

9 - Serverless messaging avec Cloud Pub/Sub

Cloud Pub/Sub
Lab: Publier des données en continu dans Pub/Sub

10 - Fonctionnalités streaming de Cloud Dataflow

Fonctionnalités streaming de Cloud Dataflow
Lab: Pipelines de données en continu

11 - Fonctionnalités Streaming à haut débit BigQuery et Bigtable

Fonctionnalités de streaming BigQuery
Lab: Analyse en continu et tableaux de bord
Cloud Bigtable
Lab: Pipelines de données en continu vers Bigtable

12 - Fonctionnalité avancées de BigQuery et performance

Lab: Création de tables partitionnées par date dans BigQuery
Lab: Optimisation de vos requêtes BigQuery pour la performance
Considérations de performance
Fonctions SIG
Utiliser des clauses With
Analytic Window Functions
Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz

13 - Introduction à l’analytique et à l’IA

Qu’est-ce que l’IA ?
De l’analyse de données ad hoc aux décisions basées sur les données
Options pour modèles ML sur GCP

14 - API de modèle ML prédéfinies pour les données non structurées

Les données non structurées sont difficiles à utiliser
API ML pour enrichir les données
Lab: Utilisation de l’API en langage naturel pour classer le texte non structuré

15 - Big Data Analytics avec les notebooks Cloud AI Platform

Lab: BigQuery dans Jupyter Labs sur IA Platform
BigQuery Magic et liens avec Pandas
Qu’est-ce qu’un notebook

16 - Pipelines de production ML avec Kubeflow

Façons de faire du ML sur GCP
Kubeflow AI Hub
Lab: Utiliser des modèles d’IA sur Kubeflow

17 - Création de modèles personnalisés avec SQL dans BigQuery ML

BigQuery ML pour la construction de modèles rapides
Démo: Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
Modèles pris en charge
Lab: Prédire la durée d’une sortie en vélo avec un modèle de régression dans BigQuery ML
Lab: Recommandations de film dans BigQuery ML