Formation Hadoop Hortonworks : administration avec Ambari
- Référence : PYCB031B
- Durée : 3 jours (21 heures)
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Connaissance des commandes des systèmes unix/linux
PROFIL DES STAGIAIRES
- Chefs de projet, administrateurs et toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop
- Les travaux pratiques sont réalisés selon le choix des participants sur une distribution Hadoop Hortonworks
OBJECTIFS
- Connaître les principes du framework Hadoop et savoir l'installer et le configurer.
METHODES PEDAGOGIQUES
- Mise à disposition d’un poste de travail par participant
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS
1 - Introduction
- Les fonctionnalités du framework Hadoop
- Les différentes versions
- Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE
- Spécificités de chaque distribution
- Architecture et principe de fonctionnement
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager
- Rôle des différents composants
- Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
- Oozie, Pig, Hive, HBase, …
2 - Les outils Hadoop
- Infrastructure/Mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
- Vue d’ensemble
- Gestion des données
- Exemple de sqoop
- Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..
- Outils complémentaires : Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra
- Outils complémentaires de développement : Cascading, Scalding, Flink/Pachyderm
- Outils complémentaires d’analyse : RHadoop, Hama, Chukwa, kafka
3 - Installation et configuration
- Trois modes d’installation : local, pseudo-distribué, distribué
- Première installation
- Mise en œuvre avec un seul nœud Hadoop
- Configuration de l’environnement,étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
- Création des users pour les daemons hdfs et yarn,droits d’accès sur les exécutables et répertoires
- Lancement des services
- Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc.
- Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, APIS natives
- Exemples en ligne de commandes avec hdfs, yarn, mapred
- Présentation des fonctions offertes par le serveur http
- Travaux pratiques : Organisation et configuration d’une grappe hadoop
4 - Administration Hadoop
- Outils complémentaires à yarn et hdfs : jConsole, jconsole yarn
- Exemples sur le suivi de charges, l’analyse des journaux
- Principe de gestion des noeuds, accès JMX
- Travaux pratiques : mise en oeuvre d’un client JMX
- Administration HDFS : présentation des outils de stockage des fichiers, fsck, dfsadmin
- Mise en oeuvre sur des exemples simples de récupération de fichiers
- Gestion centralisée de caches avec Cacheadmin
5 - Sécurité
- Mécanismes de sécurité et mise en oeuvre pratique : Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode
- Sécurisation de yarn avec la mise en oeuvre d’un proxy et d’un Linux Container Executor
6 - Exploitation
- Installation d’une grappe Hadoop avec Ambari
- Tableau de bord
- Lancement des services
- Principe de la supervision des éléments par le NodeManager
- Monitoring grapĥique avec Ambari
- Présentation de Ganglia,Kibana
- Travaux pratiques : Visualisation des alertes en cas d’indisponibilité d’un nœud. Configuration des logs avec log4j