CONNAISSANCES PREALABLES
- Connaissance des principes de la manipulation de données et du machine learning
PROFIL DES STAGIAIRES
- Chefs de projet,développeurs, data-scientists, utilisateurs de Dataiku DSS
OBJECTIFS
- Savoir installer, configurer, Dataiku DSS, l'utiliser depuis l'interface web ou des API
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS Bigdata
1 - Présentation, concepts DSS
- Notions de projet, data, dataset, recipes
- Premiers pas avec Dataiku DSS : exemples
- Fonctionnalités : Mise à disposition des méthodes et outils de data-sciences à partir d’une interface graphique ou de langages de requêtage ou de programmation (Python, SQL, R)
2 - Connexion aux données
- Connecteurs disponibles, formats de fichiers, formats spécifiques hadoop/Spark
- Chargement des fichiers, emplacement des fichiers
- Système de fichiers, HDFS, Amazon S3, stockage Google Cloud, etc.
- FTP, connexion ssh, connexion aux bases de données SQL
- Autres stockages : Cassandra, MongoDB, Elasticsearch, …
3 - Préparation des données
- Scripts de préparation, échantillonnage, exécution, les différents moteurs d’exécution: DSS, Spark, base de données SQL, Spark
4 - Graphiques et statistiques
- Présentation des types de graphiques disponibles et configuration
- Fonctionnalités statistiques disponibles, démonstrations
- Réalisation d’exercices pratiques
- Echantillonnage et exécution, graphiques de base, tables, nuages de points, visualisation cartographique, etc.
5 - Machine learning
- Fonctionnalités disponibles : apprentissage supervisé et non supervisé, algorithmes utilisés, scoring, deep learning, optimisation de modèles, …
6 - Flow/Recipes
- Interface graphique de gestion des cycles de traitement,des datasets, des traitements, paramètrage de l’exécution en parallèle, des données géographiques, export en format pdf ou images, etc.
- Travaux pratiques
7 - Interfaces de programmation
- Présentation des différentes interfaces : SQL, Python, R
- Exemples d’interrogations SQL et Python
- Interfaçage avec Spark