Formation Google Cloud Platform – Data Engineering
- Référence : GCP200DE
- Durée : 28 heures
- Certification : Non
- Eligible CPF : Non
RÉSUMÉ
Ce cours de quatre jours dirigé par un instructeur offre aux participants une introduction pratique à la conception et à la création de systèmes de traitement des données sur Google Cloud Platform. Grâce à une combinaison de présentations, de démonstrations et de travaux pratiques, les participants apprendront à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Le cours couvre les données structurées, non structurées et en streaming
CONNAISSANCES PREALABLES
- 1-Avoir suivi le cours GCP100A - Google Cloud Fundamentals: Big Data & Machine Learning ou avoir une expérience équivalente
- 2-Compétence de base avec un langage de requête commun tel que SQL
- 3-Experience avec la modélisation de données et l ‘ETL
- 4-Développement d’applications à l’aide d’un langage de programmation commun tel que Python
- 5-Connaissance du machine learning et / ou des statistiques
PROFIL DES STAGIAIRES
- Développeurs expérimentés qui sont responsables de la gestion des transformations des mégadonnées, notamment: l’extraction, le chargement, la transformation, le nettoyage et la validation des données
OBJECTIFS
- Conception et déploiement de pipelines et d’architectures pour le traitement des données
- Création et déploiement de workflows de machine learning
- Interrogation des ensembles de données
- Visualisation des résultats des requêtes et création de rapports
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Cloud
CONTENU DU COURS Cloud
1 - Introduction à l’ingénierie des données
- Analyser les défis d’ingénierie des données
- Explorez le rôle d’un data engineer
- Lab: Analyse de données avec BigQuery
- Etude de cas d’un client GCP
- Construire des pipelines prêts pour la production
- Gérer l’accès aux données et gouvernance
- Travailler efficacement avec d’autres équipes de données
- Bases de données transactionnelles vs data warehouses
- Démo: recherche de données personnelles dans votre jeu de données avec l’API DLP
- Introduction à BigQuery
- Démo: requêtes fédérées avec BigQuery
- Data lakes et data warehouses
2 - Construire un Data Lake
- Cloud SQL en tant que data lake relationnel
- Démo: exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
- Stocker tous les types de données
- Sécurisation de Cloud Storage
- Démo: optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
- Construction d’un data lake à l’aide de Cloud Storage
- Stockage de données et options ETL sur GCP
- Introduction aux data lakes
3 - Construire un Data Warehouse
- Aperçu: Transformation de données par lots et en continu
- Démo: Tables partitionnées et groupées dans BigQuery
- Optimiser avec le partitionnement et le clustering
- Lab: tableaux et structures
- Champs imbriqués et répétés dans BigQuery
- Démo: Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
- Conception de schéma
- Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
- Lab: Chargement de données avec la console et la CLI
- Démo: Interroger Cloud SQL à partir de BigQuery
- Commencer à charger des données
- Démo: Requêter des TB + de données en quelques secondes
- Introduction à BigQuery
- Le data warehouse moderne
- Explorer les schémas
4 - Introduction à la construction de pipelines de données par lots EL, ELT, ETL
- Des lacunes
- ETL pour résoudre les problèmes de qualité des données
- Démo: ELT pour améliorer la qualité des données dans BigQuery
- Comment effectuer des opérations dans BigQuery
- Considérations de qualité
5 - Exécution de Spark sur Cloud Dataproc
- L’écosystème Hadoop
- Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
- Optimiser Dataproc
- Atelier: Exécution de jobs Apache Spark sur Cloud Dataproc
6 - Traitement de données sans serveur avec Cloud Dataflow
- Dataflow SQL
- Templates Dataflow
- Lab: Entrées latérales (Python / Java)
- Lab: Pipeline de flux de données simple (Python / Java)
- Pipelines de flux de données
- Pourquoi les clients apprécient-ils Dataflow?
- Cloud Dataflow
- Lab: MapReduce dans un flux de données (Python / Java)
7 - Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer
- Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l’interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
- Lab: Construction et exécution d’un graphe de pipeline dans Cloud Data Fusion
- Orchestrer le travail entre les services GCP avec Cloud Composer – Apache Airflow Environment: DAG et opérateurs, planification du flux de travail
- Démo: Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
- Lab: Introduction à Cloud Composer
8 - Introduction au traitement de données en streaming
- Traitement des données en streaming
9 - Serverless messaging avec Cloud Pub/Sub
- Cloud Pub/Sub
- Lab: Publier des données en continu dans Pub/Sub
10 - Fonctionnalités streaming de Cloud Dataflow
- Fonctionnalités streaming de Cloud Dataflow
- Lab: Pipelines de données en continu
11 - Fonctionnalités Streaming à haut débit BigQuery et Bigtable
- Fonctionnalités de streaming BigQuery
- Lab: Analyse en continu et tableaux de bord
- Cloud Bigtable
- Lab: Pipelines de données en continu vers Bigtable
12 - Fonctionnalité avancées de BigQuery et performance
- Lab: Création de tables partitionnées par date dans BigQuery
- Lab: Optimisation de vos requêtes BigQuery pour la performance
- Considérations de performance
- Fonctions SIG
- Utiliser des clauses With
- Analytic Window Functions
- Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
13 - Introduction à l’analytique et à l’IA
- Qu’est-ce que l’IA ?
- De l’analyse de données ad hoc aux décisions basées sur les données
- Options pour modèles ML sur GCP
14 - API de modèle ML prédéfinies pour les données non structurées
- Les données non structurées sont difficiles à utiliser
- API ML pour enrichir les données
- Lab: Utilisation de l’API en langage naturel pour classer le texte non structuré
15 - Big Data Analytics avec les notebooks Cloud AI Platform
- Lab: BigQuery dans Jupyter Labs sur IA Platform
- BigQuery Magic et liens avec Pandas
- Qu’est-ce qu’un notebook
16 - Pipelines de production ML avec Kubeflow
- Façons de faire du ML sur GCP
- Kubeflow AI Hub
- Lab: Utiliser des modèles d’IA sur Kubeflow
17 - Création de modèles personnalisés avec SQL dans BigQuery ML
- BigQuery ML pour la construction de modèles rapides
- Démo: Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
- Modèles pris en charge
- Lab: Prédire la durée d’une sortie en vélo avec un modèle de régression dans BigQuery ML
- Lab: Recommandations de film dans BigQuery ML
18 - Création de modèles personnalisés avec Cloud AutoML
- Pourquoi Auto ML ?
- Auto ML Vision
- Auto ML NLP
- Auto ML Tables