Hadoop Hortonworks : administration avec Ambari

  • Référence : PYCB031B
  • Durée : 3 jours (21 heures)
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Connaissance des commandes des systèmes unix/linux

PROFIL DES STAGIAIRES

  • Chefs de projet, administrateurs et toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop
  • Les travaux pratiques sont réalisés selon le choix des participants sur une distribution Hadoop Hortonworks

OBJECTIFS

  • Connaître les principes du framework Hadoop et savoir l'installer et le configurer.

METHODES PEDAGOGIQUES

  • Mise à disposition d’un poste de travail par participant
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Introduction

  • Les fonctionnalités du framework Hadoop
  • Les différentes versions
  • Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE
  • Spécificités de chaque distribution
  • Architecture et principe de fonctionnement
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager
  • Rôle des différents composants
  • Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
  • Oozie, Pig, Hive, HBase, …

2 - Les outils Hadoop

  • Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
  • Vue d’ensemble
  • Gestion des données
  • Exemple de sqoop
  • Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..
  • Outils complémentaires : Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra
  • Outils complémentaires de développement : Cascading, Scalding, Flink/Pachyderm
  • Outils complémentaires d’analyse : RHadoop, Hama, Chukwa, kafka

3 - Installation et configuration

  • Trois modes d’installation : local, pseudo-distribué, distribué
  • Première installation
  • Mise en œuvre avec un seul nœud Hadoop
  • Configuration de l’environnement,étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
  • Création des users pour les daemons hdfs et yarn,droits d’accès sur les exécutables et répertoires
  • Lancement des services
  • Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc.
  • Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, APIS natives
  • Exemples en ligne de commandes avec hdfs, yarn, mapred
  • Présentation des fonctions offertes par le serveur http
  • Travaux pratiques : Organisation et configuration d’une grappe hadoop

4 - Administration Hadoop

  • Outils complémentaires à yarn et hdfs : jConsole, jconsole yarn
  • Exemples sur le suivi de charges, l’analyse des journaux
  • Principe de gestion des noeuds, accès JMX
  • Travaux pratiques : mise en oeuvre d’un client JMX
  • Administration HDFS : présentation des outils de stockage des fichiers, fsck, dfsadmin
  • Mise en oeuvre sur des exemples simples de récupération de fichiers
  • Gestion centralisée de caches avec Cacheadmin

5 - Sécurité

  • Mécanismes de sécurité et mise en oeuvre pratique : Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode
  • Sécurisation de yarn avec la mise en oeuvre d’un proxy et d’un Linux Container Executor

6 - Exploitation

  • Installation d’une grappe Hadoop avec Ambari
  • Tableau de bord
  • Lancement des services
  • Principe de la supervision des éléments par le NodeManager
  • Monitoring grapĥique avec Ambari
  • Présentation de Ganglia,Kibana
  • Travaux pratiques : Visualisation des alertes en cas d’indisponibilité d’un nœud. Configuration des logs avec log4j
cookie