Spark : Traitement de données

  • Référence : PYCB037
  • Durée : 3 jours (21 heures)
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques

PROFIL DES STAGIAIRES

  • Chefs de projet
  • Data scientists
  • Développeurs

OBJECTIFS

  • Savoir mettre en oeuvre Spark pour optimiser des calculs

METHODES PEDAGOGIQUES

  • Mise à disposition d’un poste de travail par participant
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Introduction

  • Présentation Spark, origine du projet, apports, principe de fonctionnement
  • Langages supportés

2 - Premiers pas

  • Utilisation du shell Spark avec Scala ou Python
  • Gestion du cache

3 - Règles de développement

  • Mise en pratique en Java et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistence

4 - Cluster

  • Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext,Cluster Manager, Executor sur chaque nœud
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l’interface web

5 - Intégration hadoop

  • Travaux pratiques avec YARN
  • Création et exploitation d’un cluster Spark/YARN

6 - Support Cassandra

  • Description rapide de l’architecture Cassandra. Mise en oeuvre depuis Spark
  • Exécution de travaux Spark s’appuyant sur une grappe Cassandra

7 - Spark SQL

  • Objectifs : traitement de données structurées
  • Optimisation des requêtes
  • Mise en oeuvre de Spark SQL
  • Comptabilité Hive
  • Travaux pratiques : en ligne de commande avec Spark SQL, avec un pilote JDBC
  • L’API Dataset : disponible avec Scala ou Java
  • Collections de données distribuées
  • Exemples

8 - Streaming

  • Objectifs , principe de fonctionnement : stream processing
  • Source de données : HDFS, Flume, Kafka, …
  • Notion de StreamingContexte, DStreams, démonstrations
  • Travaux pratiques : traitement de flux DStreams en Java

9 - MLib

  • Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques
  • Support de RDD
  • Mise en oeuvre avec les DataFrames

10 - GraphX

  • Fourniture d’algorithmes, d’opérateurs simples pour des calcul statistiques sur les graphes
  • Travaux pratiques : exemples d’opérations sur les graphes
cookie