Formation Big Data : intégration SQL, hive, SparkDataframes
- Référence : PYCB045
- Durée : 14 heures
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Connaissance générale des systèmes d'informations et des bases de données
PROFIL DES STAGIAIRES
- Experts en bases de données, chefs de projet
- Toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL
OBJECTIFS
- Connaître les caractéristiques techniques des bases de données NoSQL, les différentes solutions disponibles
- Identifier les critères de choix
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS Bigdata
1 - Présentation
- Comment concilier le quoi et le comment ?
- Besoin
- Les outils : Hive, Impala, Tez, Presto, Drill, Pig, Spark/QL
- Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données : parquet, orc, raw, clés/valeurs
- Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs
2 - Hive et Pig
- Présentation
- Mode de fonctionnement
- Rappel sur map/reduce
- Hive : le langage HiveQL. Exemples
- Pig : le langage pig/latin. Exemples
3 - Impala
- Présentation
- Cadre d’utilisation
- Contraintes
- Liaison avec le métastore Hive
- Travail Pratique : Mise en évidence des performances
4 - Presto
- Travail Pratique : Mise en oeuvre d’une requête s’appuyant sur Cassandra, HDFS et PostgreSQL
- Sources de données utilisables
- Cadre d’utilisation
5 - Spark DataFrame
- Les différentes approches
- Syntaxe Spark/SQl
- APIs QL
- Compilation catalyst
- Syntaxe, opérateurs
- Comparaison avec Presto
- Travail Pratique : Mise en oeuvre d’une requête s’appusant sur HBase et HDFS
6 - Drill/sqoop
- Utilisation d’APIs JDBC, ODBC
- Indépendance Hadoop
- Contraintes d’utilisation
- Performances
7 - Comparatifs
- Compatibilité ANSI/SQL
- Approches des différents produits
- Critères de choix