Formation Python avancé pour data-scientists

  • Référence : DELY010
  • Durée : 3 jours (21 heures)
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Bonne connaissance de la programmation Python

PROFIL DES STAGIAIRES

  • Développeurs en Python, Développeurs de logiciels, Programmeurs, Data analysts, Data scientists

OBJECTIFS

  • Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
  • Savoir appliquer les pratiques optimales en matière de nettoyage et de préparation des données avant l'analyse
  • Être capable d'extraire des données d'un fichier
  • Comprendre les mécanismes d'interconnexion aux bases de données
  • Comprendre les principaux outils de traitement et d'analyse de données pour Python

METHODES PEDAGOGIQUES

  • 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Positionnement Python dans l'analyse de données

  • Besoins des data-scientists : calculs, analyse d’images, machine learning, interface avec les bases de données
  • Apports de python : grande variété d’outils, expertise dans le domaine du calcul scientifique
  • Tour d’horizon des outils : pandas, pyarrow, agate, bokeh, scikit-learn, pybrain, tensorflow, keras, mxnet, caffe

2 - Calculs et graphiques

  • NumPy : Base du calcul sur des tableaux
  • SciPy : Scientific Tools for Python, couche scientifique
  • Manipulation de tableaux, fonctions mathématiques
  • Représentation graphique avec basemap et matplotlib
  • Exemple de Travaux Pratiques : Mise en oeuvre de SciPy/NumPy (manipulation d’images, détection de contours)

3 - Être capable d'extraire des données d'un fichier

  • Pandas : manipulation de tables de données. Notion de dataframe
  • Manipulation de données relationnelles
  • Tableaux avec Pandas: indexation, opérations, algèbre relationnelle
  • Stockage dans des fichiers: CSV, JSon
  • Comparaison et performances Pandas / pyarrow / NumPy
  • Exemple de Travaux Pratiques : Construction d’ETL de base entre json et csv

4 - Comprendre les mécanismes d'interconnexion aux bases de données

  • Définitions : pilotes, connexions, curseurs, CRUD, transactions
  • Les pilotes : postgresql, mysql, mariadb, … Présentation de sql-alchemy
  • Opérations : gestion du curseur, chargement de données, insertion et modification d’enregistrements
  • Exemple de Travaux Pratiques : Mise en oeuvre avec postgresql. Construction d’ETL SQL/json

5 - Comprendre les principaux outils de traitement et d'analyse de données pour Python

  • Présentation des outils d’apprentissage Python : scikit-learn, pybrain, TensorFlow/keras, mxnet, caffe
  • Exemple de Travaux Pratiques : Mise en oeuvre de scikit-learn et génération de jeux de données

6 - Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances

  • Machine learning et deep learning
  • TensorFlow : principe de fonctionnement, plateformes supportées, distribution
  • Présentation de pyspark
Cookies