Formation Machine learning , l’état de l’art
- Référence : PYDS010
- Durée : 14 heures
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Connaissances des principes du BigData, et des architectures techniques mises en oeuvre
PROFIL DES STAGIAIRES
- Chefs de projet
- Développeurs
- Data scientists
- Architectes
OBJECTIFS
- Savoir définir les étapes de préparation des données, comprendre et mettre en oeuvre l'apprentissage automatique, les techniques de classification de données, les apports des réseaux de neurones et du Deep Learning
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS Bigdata
1 - Introduction
- Etapes de la préparation des données
- Définitions, présentation du data munging
- Le rôle du data scientist
- Zoom sur les données : format, volumes, structures, … et les requêtes, attentes des utilisateurs
2 - Gouvernance des données
- Qualité des données
- Transformation de l’information en donnée
- Qualification et enrichissement
- Sécurisation et étanchéité des lacs de données
- Flux de données et organisation dans l’entreprise
- De la donnée maître à la donnée de travail
- MDM
- Mise en oeuvre pratique des différentes phases : nettoyage, enrichissement, organisation des données
3 - Traitements statistiques de base
- Applications aux fermes de calculs distribués
- Précision des estimations
- Approximations
- Problématiques induites
- Paramétrisation des fonctions
- Introduction aux calculs statistiques
4 - Data Mining
- Besoin, apports et enjeux
- Extraction et organisation des classes de données
- Analyse factorielle
5 - Machine Learning
- Définition, les attentes par rapport au Machine Learning
- Choix automatique
- Parallélisation des algorithmes
- Courbes ROC.
- Mesure de l’efficacité des algorithmes
- Prévisions à partir de données réelles
- Création de jeux d’essai, entraînement et construction de modèles
- Classification des données
- Les méthodes : apprentissage supervisé et non supervisé
- Ingénierie des variables
- Les valeurs d’observation, et les variables cibles
- Apprentissage automatique
- Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, etc.
6 - IA
- Modèles de CNN
- Deeplearning4j sur Spark
- L’approche du Deep Learning
- Les types de couches : convolution, pooling et pertes
- Réseaux de neurones à convolution
- Introduction aux réseaux de neurones
7 - Les risques et écueils
- Importance de la préparation des données
- L’écueil du "surapprentissage"
8 - Visualisation des données
- L’intérêt de la visualisation
- Outils disponibles
- Exemples de visualisation avec R et Python