Formation Dask : mise en oeuvre, programmation
- Référence : PYCB042
- Durée : 21 heures
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Bases de la programmation python
PROFIL DES STAGIAIRES
- Chefs de projet, Data Scientists, Développeurs, Architectes...
OBJECTIFS
- Savoir mettre en oeuvre Dask pour paralléliser des calculs en Python
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS Bigdata
1 - Introduction
- Calculs parallèles en environnements distribués, ou sur un seul serveur
- Les composants de Dask : scheduler, collections BigData
- Présentation de Dask, fonctionnalités, apports.Comparaison avec d’autres environnements : yarn, spark
2 - Premiers pas avec Dask
- Différentes méthodes d’installation : Anaconda, pip, depuis les sources
- Exemple d’atelier : installation, et création d’objets Dask, choix des méthodes et tâches, visualisation des graphes d’exécution.
- Exécution par le scheduler
3 - Elements de base
- Array: cas d’usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
- Atelier : création, stockage de Dask Array
- Bag : définition, limites
- Exemple d’atelier : exemple de création, stockage, calcul sur des Dask Bags
- Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster, critères de choix par rapport aux dataframes pandas, bonne pratiques, compatibilité avec Parquet, intégration de tables SQL
- Exemple d’atelier : mise en oeuvre de dask.dataframes et comparaison avec pandas
- Delayed ou Futures : une exécution stockée dans un graphe d’actions, ou en temps réel, critères de choix
4 - Fonctionnement avancé
- Les graphes d’exécution
- Exemple d’atelier : tests de performances et debugging
- Outils de debugging
- Utilisation du dashboard
- Configuration du scheduler
- Gesion des performances
5 - Dask.distributed
- Fonctionnalités : exécution dans un environnement distribué ou en local, outils de diagnostic et de suivi des performances, utilisation de l’API Futures pour des calculs en temps réel
- Architecture : dask-scheduler et dask-worker
- Exemple d’atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d’un client
- Présentation du dashboard
- Analyse des performances
- Limites de Dask.distributed
- Bonnes pratiques
6 - Dask-ML
- Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
- Exemples d’utilisation : modèles complexes, volumes de données importants
- Présentation de Dask-ML et principe de fonctionnement
- Intégration scikit-learn, PyTorch, Keras / Tensorflow
- Exemple d’atelier : Installation et exemples avec scikit-learn