Formation Dask : mise en oeuvre, programmation

  • Référence : PYCB042
  • Durée : 21 heures
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Bases de la programmation python

PROFIL DES STAGIAIRES

  • Chefs de projet, Data Scientists, Développeurs, Architectes...

OBJECTIFS

  • Savoir mettre en oeuvre Dask pour paralléliser des calculs en Python

METHODES PEDAGOGIQUES

  • 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS Bigdata

1 - Introduction

  • Calculs parallèles en environnements distribués, ou sur un seul serveur
  • Les composants de Dask : scheduler, collections BigData
  • Présentation de Dask, fonctionnalités, apports.Comparaison avec d’autres environnements : yarn, spark

2 - Premiers pas avec Dask

  • Différentes méthodes d’installation : Anaconda, pip, depuis les sources
  • Exemple d’atelier : installation, et création d’objets Dask, choix des méthodes et tâches, visualisation des graphes d’exécution.
  • Exécution par le scheduler

3 - Elements de base

  • Array: cas d’usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
  • Atelier : création, stockage de Dask Array
  • Bag : définition, limites
  • Exemple d’atelier : exemple de création, stockage, calcul sur des Dask Bags
  • Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster, critères de choix par rapport aux dataframes pandas, bonne pratiques, compatibilité avec Parquet, intégration de tables SQL
  • Exemple d’atelier : mise en oeuvre de dask.dataframes et comparaison avec pandas
  • Delayed ou Futures : une exécution stockée dans un graphe d’actions, ou en temps réel, critères de choix

4 - Fonctionnement avancé

  • Les graphes d’exécution
  • Exemple d’atelier : tests de performances et debugging
  • Outils de debugging
  • Utilisation du dashboard
  • Configuration du scheduler
  • Gesion des performances

5 - Dask.distributed

  • Fonctionnalités : exécution dans un environnement distribué ou en local, outils de diagnostic et de suivi des performances, utilisation de l’API Futures pour des calculs en temps réel
  • Architecture : dask-scheduler et dask-worker
  • Exemple d’atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d’un client
  • Présentation du dashboard
  • Analyse des performances
  • Limites de Dask.distributed
  • Bonnes pratiques

6 - Dask-ML

  • Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
  • Exemples d’utilisation : modèles complexes, volumes de données importants
  • Présentation de Dask-ML et principe de fonctionnement
  • Intégration scikit-learn, PyTorch, Keras / Tensorflow
  • Exemple d’atelier : Installation et exemples avec scikit-learn
Cookies