Formation Spark ML

Référence : PYDS033
Durée : 14 heures
Certification : Non
Eligible CPF : Non

CONNAISSANCES PREALABLES

Connaissance d'un langage de programmation comme Python, Java ou Scala.

PROFIL DES STAGIAIRES

Architectes
Chefs de projet

OBJECTIFS

Savoir mettre en oeuvre les outils de Machine Learning sur Spark, savoir créer des modèles et les exploiter.

METHODES PEDAGOGIQUES

6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
Remise d’une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

Auto-évaluation des acquis par le stagiaire via un questionnaire
Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS Bigdata

1 - Introduction

Rappels sur Spark : principe de fonctionnement, langages supportés.

2 - DataFrames

Objectifs : traitement de données structurées
L’API Dataset et DataFrames
Optimisation des requêtes
Mise en oeuvre des Dataframes et DataSet
Chargement de données, pré-traitement : standardisation, transformations non linéaires, discrétisation
Génération de données

3 - Traitements statistiques de base

Introduction aux calculs statistiques
Paramétrisation des fonctions
Applications aux fermes de calculs distribués
Problématiques induites
Approximations
Précision des estimations
Exemples sur Spark : calculs distribués de base : moyennes, variances, écart-type, asymétrie et aplatissement (skewness/kurtosis)

4 - Machine Learning

Apprentissage automatique : définition, les attentes par rapport au Machine Learning
Les valeurs d’observation, et les variables cibles. Ingénierie des variables
Les méthodes : apprentissage supervisé et non supervisé. Classification, régression
Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques

5 - Mise en oeuvre sur Spark

Mise en oeuvre avec les DataFrames
Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, etc.
Création de jeux d’essai, entraînement et construction de modèles
Prévisions à partir de données réelles
Travaux pratiques : régression logistiques, forêts aléatoires, k-moyennes
Recommandations, recommendForAllUsers(), recommendForAllItems()

6 - Modèles

Chargement et enregistrement de modèles
Mesure de l’efficacité des algorithmes. Courbes ROC. MulticlassClassificationEvaluator()
Mesures de performance
Descente de gradient
Modification des hyper-paramètres
Application pratique avec les courbes d’évaluations

7 - Spark/GraphX

Gestion de graphes orientés sur Spark
Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
Travaux pratiques :exemples d’opérations sur les graphes.

8 - IA

Introduction aux réseaux de neurones
Les types de couches : convolution, pooling et pertes
L’approche du Deep Learning avec Spark. Deeplearning4j sur Spark

Coût :

1 610,00 € HT

Filière :

Big Data

Dates et lieux de formation

PARIS

23/09/2024

EduGroupe

18/11/2024

EduGroupe

Je m'inscris

Je demande un devis

Coût :

1 610,00 € HT

Filière :

Big Data

Dates des formations

23/09/2024
18/11/2024

Autres formations qui pourraient vous intéresser

Bases de données

Bigdata
Python : Jupyter Notebook

7H 770,00 € HT

Bigdata
Python : Jupyter Notebook

7H 770,00 € HT

22/09/2024 (prochaine session)DÉCOUVRIR

Bases de données

Bigdata
Dask : mise en oeuvre, programmation

21H 2 420,00 € HT

Bigdata
Dask : mise en oeuvre, programmation

21H 2 420,00 € HT

30/09/2024 (prochaine session)DÉCOUVRIR

Bases de données

Bigdata
Les fondamentaux de l'analyse statistique avec R

14H 1 610,00 € HT

Bigdata
Les fondamentaux de l'analyse statistique avec R

14H 1 610,00 € HT

21/10/2024 (prochaine session)DÉCOUVRIR

Bases de données

Bigdata
Machine Learning avec scikit-learn

14H 1 610,00 € HT

Bigdata
Machine Learning avec scikit-learn

14H 1 610,00 € HT

16/09/2024 (prochaine session)DÉCOUVRIR

Bases de données

Bigdata
Analyse d'images avec TensorFlow et Keras

21H 2 190,00 € HT

Bigdata
Analyse d'images avec TensorFlow et Keras

21H 2 190,00 € HT

Aucune session prévueDÉCOUVRIR

Bases de données

Bigdata
TensorFlow avancé

14H 1 610,00 € HT

Bigdata
TensorFlow avancé

14H 1 610,00 € HT

24/10/2024 (prochaine session)DÉCOUVRIR

Cookies