Hadoop : l’écosystème

  • Référence : PYCB030
  • Durée : 1 jour (7 heures)
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Connaissances générales des systèmes d'information

PROFIL DES STAGIAIRES

  • Chefs de projets, développeurs, et toute personne souhaitant comprendre les mécanismes Hadoop et le rôle de chaque composant

OBJECTIFS

  • Faire le point sur les différents éléments de l'écosystème Hadoop et leurs rôles respectifs

METHODES PEDAGOGIQUES

  • Mise à disposition d’un poste de travail par participant
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Introduction

  • Rappels sur NoSQL. Le théorème CAP
  • Historique du projet hadoop
  • Les fonctionnalités : stockage, outils ‘extraction, de conversion, ETL, analyse, …
  • Exemples de cas d’utilisation sur des grands projets
  • Les principaux composants : HDFS pour le stockage et YARN pour les calculs
  • Les distributions et leurs caractéristiques (HortonWorks, Cloudera, MapR, GreenPlum, Apache, …)

2 - L'architecture

  • Terminologie : NameNode, DataNode, ResourceManager
  • Rôle et interactions des différents composants
  • Présentation des outils : d’infrastructure (ambari, avro, zookeeper) – de gestion des données (pig, oozie, falcon, pentaho, sqoop, flume) – d’interfaçage avec les applications GIS – de restitution et requêtage : webhdfs, hive, hawq, impala, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana
  • Les architectures connexes : spark, cassandra

3 - Exemples interactifs

  • Démonstrations sur une architecture Hadoop multi-noeuds.
  • Mise à disposition d’un environnement pour des exemples de calcul
  • Travaux pratiques : Recherches dans des données complexes non structurées

4 - Applications

  • Cas d’usages de Hadoop
  • Les infrastructures hyperconvergées avec les appliances Hadoop
  • Calculs distribués sur des clusters Hadoop
cookie