Formation Python avancé pour data-scientists
- Référence : DELY010
- Durée : 3 jours (21 heures)
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Bonne connaissance de la programmation Python
PROFIL DES STAGIAIRES
- Développeurs en Python, Développeurs de logiciels, Programmeurs, Data analysts, Data scientists
OBJECTIFS
- Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
- Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
- Être capable d'extraire des données d'un fichier
- Comprendre les mécanismes d'interconnexion aux bases de données
- Comprendre les principaux outils de traitement et d'analyse de données pour Python
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS
1 - Positionnement Python dans l'analyse de données
- Besoins des data-scientists : calculs, analyse d’images, machine learning, interface avec les bases de données
- Apports de python : grande variété d’outils, expertise dans le domaine du calcul scientifique
- Tour d’horizon des outils : pandas, pyarrow, agate, bokeh, scikit-learn, pybrain, tensorflow, keras, mxnet, caffe
2 - Calculs et graphiques
- NumPy : Base du calcul sur des tableaux
- SciPy : Scientific Tools for Python, couche scientifique
- Manipulation de tableaux, fonctions mathématiques
- Représentation graphique avec basemap et matplotlib
- Exemple de Travaux Pratiques : Mise en oeuvre de SciPy/NumPy (manipulation d’images, détection de contours)
3 - Être capable d'extraire des données d'un fichier
- Pandas : manipulation de tables de données. Notion de dataframe
- Manipulation de données relationnelles
- Tableaux avec Pandas: indexation, opérations, algèbre relationnelle
- Stockage dans des fichiers: CSV, JSon
- Comparaison et performances Pandas / pyarrow / NumPy
- Exemple de Travaux Pratiques : Construction d’ETL de base entre json et csv
4 - Comprendre les mécanismes d'interconnexion aux bases de données
- Définitions : pilotes, connexions, curseurs, CRUD, transactions
- Les pilotes : postgresql, mysql, mariadb, … Présentation de sql-alchemy
- Opérations : gestion du curseur, chargement de données, insertion et modification d’enregistrements
- Exemple de Travaux Pratiques : Mise en oeuvre avec postgresql. Construction d’ETL SQL/json
5 - Comprendre les principaux outils de traitement et d'analyse de données pour Python
- Présentation des outils d’apprentissage Python : scikit-learn, pybrain, TensorFlow/keras, mxnet, caffe
- Exemple de Travaux Pratiques : Mise en oeuvre de scikit-learn et génération de jeux de données
6 - Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
- Machine learning et deep learning
- TensorFlow : principe de fonctionnement, plateformes supportées, distribution
- Présentation de pyspark