Formation Dataiku DSS

  • Référence : PYDS034
  • Durée : 14 heures
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Connaissance des principes de la manipulation de données et du machine learning

PROFIL DES STAGIAIRES

  • Chefs de projet,développeurs, data-scientists, utilisateurs de Dataiku DSS

OBJECTIFS

  • Savoir installer, configurer, Dataiku DSS, l'utiliser depuis l'interface web ou des API

METHODES PEDAGOGIQUES

  • 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS Bigdata

1 - Présentation, concepts DSS

  • Fonctionnalités : Mise à disposition des méthodes et outils de data-sciences à partir d’une interface graphique ou de langages de requêtage ou de programmation (Python, SQL, R)
  • Notions de projet, data, dataset, recipes
  • Premiers pas avec Dataiku DSS : exemples

2 - Connexion aux données

  • Connecteurs disponibles, formats de fichiers, formats spécifiques hadoop/Spark
  • Chargement des fichiers, emplacement des fichiers
  • Système de fichiers, HDFS, Amazon S3, stockage Google Cloud, etc.
  • FTP, connexion ssh, connexion aux bases de données SQL
  • Autres stockages : Cassandra, MongoDB, Elasticsearch, …

3 - Préparation des données

  • Scripts de préparation, échantillonnage, exécution, les différents moteurs d’exécution: DSS, Spark, base de données SQL, Spark

4 - Graphiques et statistiques

  • Présentation des types de graphiques disponibles et configuration
  • Echantillonnage et exécution, graphiques de base, tables, nuages de points, visualisation cartographique, etc.
  • Réalisation d’exercices pratiques
  • Fonctionnalités statistiques disponibles, démonstrations

5 - Machine learning

  • Fonctionnalités disponibles : apprentissage supervisé et non supervisé, algorithmes utilisés, scoring, deep learning, optimisation de modèles, …

6 - Flow/Recipes

  • Interface graphique de gestion des cycles de traitement,des datasets, des traitements, paramètrage de l’exécution en parallèle, des données géographiques, export en format pdf ou images, etc.
  • Travaux pratiques

7 - Interfaces de programmation

  • Présentation des différentes interfaces : SQL, Python, R
  • Exemples d’interrogations SQL et Python
  • Interfaçage avec Spark
Cookies