Formation Programmation R et intégration Big Data
- Référence : PYCB052
- Durée : 3 jours (21 heures)
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Notions de calculs statistiques
PROFIL DES STAGIAIRES
- Chefs de projet, data scientists, statisticiens, développeurs souhaitant comprendre les apports de R pour l'analyse des données, et savoir l'intégrer à un environnement Hadoop
OBJECTIFS
- Connaître les principales fonctions statistiques de R, et savoir utiliser des programmes R dans un environnement BigData, en s'appuyant sur le système distribué hdfs
METHODES PEDAGOGIQUES
- Mise à disposition d’un poste de travail par participant
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS
1 - Présentation R
- Le projet R Programming
- Calculs statistiques et génération de graphiques
- Points forts de R Programming
- Besoins du BigData
- Positionnement R programming par rapport à Hadoop
2 - Mise en oeuvre de R
- Travaux pratiques : installation et tests sur une plate-forme CentOS
- Utilisation de R en mode commande
- Commandes de base. Syntaxe
- Opérations de base. Expressions
- Manipulations de nombres, vecteurs, tableaux, matrices.listes, etc.
3 - Tableaux et matrices
- Déclaration, dimensionnement, indexation
- Opérations de base : produit de tableaux, transposition, produits de matrices
- Matrices : équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …
4 - Liste et DataFrames
- Définitions, cas d’utilisation
- Attachement, détachement. Chargement d’un dataframe. La fonction scan
5 - Statistiques
- Distributions embarquées : uniforme, normale, poisson, exponentielle, …
- Calculs statistiques. Modèles statistiques
- Affichage en graphes, histogrammes
6 - Import/export
- Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png). Encodage. Filtrage
- Importation SQL. Importation depuis un socket réseau
- Travaux pratiques : importation de données géodésiques et export au format Json
7 - Intégration Hadoop
- Association de la puissance du calcul distribué fourni par les outils hadoop
- Différents moyens d’intégration : sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
- Transformation d’un dataframe R en un dataframe Spark
- Travaux pratiques avec Hadoop
8 - Fonctions spécifiques
- Définition de nouvelles fonctions. Appels. Passage d’argument
- Construction d’une bibliothèque
- Diffusion, installation avec R CMD INSTALL
9 - Evolutions
- Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR