Formation Storm : Flux de données
- Référence : PYCB038
- Durée : 14 heures
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Connaissance d'un langage de programmation comme Java ou Python
PROFIL DES STAGIAIRES
- Chefs de projet
- Data scientists
- Développeurs
OBJECTIFS
- Savoir mettre en œuvre Storm pour le traitement de flux de données
METHODES PEDAGOGIQUES
- Mise à disposition d’un poste de travail par participant
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS Bigdata
1 - Introduction
- Présentation de Storm : fonctionnalités, architecture, langages supportés
- Définitions : spout, bolt, topology
2 - Architecture
- Etude des composants d’un cluster Storm : master node ‘nimbus’ et worker nodes
- Positionnement par rapport à un cluster Hadoop. Le modèle de données. Différents types de flux
3 - Premiers pas
- Configuration d’un environnement de développement
- Installation d’un cluster Storm. Travaux pratiques sur le projet storm-starter
4 - Flux de données
- Définition du nombre de flux dans un nœud, création de topologies regroupant des flux entre différents nœuds, communication entre flux en JSON, lecture de flux d’origines diverses (JMS, Kafka, …)
5 - Haute disponibilité
- Tolérance aux pannes: principe de fiabilisation des master node, workers node, nimbus
- Garantie de traitement des flux: principe, paramètres TOPOLOGY_MESSAGE_TIMEOUT_SECS, TOPOLOGY_ACKERS
- Traitements temps réel avec Trident. Scalabilité : parallèlisme dans un cluster storm, ajouts de nœuds, commande ‘storm rebalance’