Formation Machine Learning avec scikit-learn
- Référence : PYDS011
- Durée : 14 heures
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Connaissance de python et d'une bibliothèque de calcul telle que numpy ou pandas
PROFIL DES STAGIAIRES
- Chefs de projet, data-scientists, souhaitant comprendre le fonctionnement de scikit-learn
OBJECTIFS
- Mettre en oeuvre scikit-learn pour de l'apprentissage machine et l'analyse de données
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS Bigdata
1 - Présentation
- Historique
- Fonctionnalités
- Lien avec Numpy et Scipy
2 - Manipulation de données
- Chargement de données
- Pré-traitement de données : standardisation, transformations non linéaires, discrétisation
- Génération de données
3 - Analyse des données et classification
- Modèles : linéaires, quadratiques, descente de gradient
- Algorithmes, choix d’un estimateur
- Classification : k-voisins, régression logistique, classification naïve bayésienne, arbres de décision, forêts aléatoires, SVC
- Régression : régression linéaire, lasso, SGDr, SVR
- Détection de groupes : k-moyennes, Spectral Clustering/GMM
- Analyse globale : Randomized PCA, kernel approximation
- Exemple de Travaux Pratiques : classification automatique d’un jeu de données à partir d’une régression logistique
- Création de jeux d’essai, entraînement et construction de modèles
- Prévisions à partir de données réelles. Mesure de l’efficacité des algorithmes. Courbes ROC
- Parallélisation des algorithmes. Choix automatique
- Exemple de Travaux Pratiques : mise en évidence des erreurs d’apprentissage en fonction des hyper-paramètres
- Recherche de clusters : modélisations, algorithmes, et méthodes d’évaluation
- Réseaux de neurones
4 - Modèles d'apprentissage
- Chargement et enregistrement
- Génération de modèles
- Estimation de la performance d’un modèle
- Mesures de performance
- Modification des hyper-paramètres
- Application pratique avec les courbes d’évaluations