Pig, développement de scripts

  • Référence : PYCB040
  • Durée : 2 jours (14 heures)
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques

PROFIL DES STAGIAIRES

  • Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données

OBJECTIFS

  • Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données,des analyses de données,intégrer des données de différents formats.

METHODES PEDAGOGIQUES

  • Mise à disposition d’un poste de travail par participant
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Introduction

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l’écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l’approche Hive ou Spark

2 - Mise en oeuvre

  • Rappels sur les commandes HDFS
  • Prérequis techniques, configuration de Pig
  • Travaux pratiques: Exécution : les différents modes : interactif ou batch- Principe de l’exécution de scripts Pig Latin avec Grunt

3 - Base latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de bases : LOAD, FOREACH, FILTER, STORE.
  • Travaux pratiques : création d’un ETL de base
  • Contrôle d’exécution

4 - Transformations

  • Groupements, jointures, tris, produits cartésiens.
  • Transformation de base de la donnée.
  • Découpages. Découpages sur filtres.

5 - Analyse de la donnée

  • Echantillonages. Filtres. Rangements avec rank et dense.
  • Calculs : min/max, sommes, moyennes, …
  • Traitements de chaînes de caractères. Traitement de dates.

6 - Intégration

  • Formats d’entrées/sorties. Interfaçage avro, json
  • Travaux pratiques : chargement de données depuis HDFS vers HBase, analyse de données Pig/Hbase et restitution Json

7 - Extensions

  • Extension du PigLatin.
  • Création de fonctions UDF en java.
  • Intégration dans les scripts Pig.
  • Travaux pratiques : Utilisation de Pig Latin depuis des programmes Python – Execution de programmes externes, streaming.
cookie