Programmation R et intégration Big Data

  • Référence : PYCB052
  • Durée : 3 jours (21 heures)
  • Certification : Non
  • Eligible CPF : Non

CONNAISSANCES PREALABLES

  • Notions de calculs statistiques

PROFIL DES STAGIAIRES

  • Chefs de projet, data scientists, statisticiens, développeurs souhaitant comprendre les apports de R pour l'analyse des données, et savoir l'intégrer à un environnement Hadoop

OBJECTIFS

  • Connaître les principales fonctions statistiques de R, et savoir utiliser des programmes R dans un environnement BigData, en s'appuyant sur le système distribué hdfs

METHODES PEDAGOGIQUES

  • Mise à disposition d’un poste de travail par participant
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

  • Auto-évaluation des acquis par le stagiaire via un questionnaire
  • Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Présentation R

  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop

2 - Mise en oeuvre de R

  • Travaux pratiques : installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande
  • Commandes de base. Syntaxe
  • Opérations de base. Expressions
  • Manipulations de nombres, vecteurs, tableaux, matrices.listes, etc.

3 - Tableaux et matrices

  • Déclaration, dimensionnement, indexation
  • Opérations de base : produit de tableaux, transposition, produits de matrices
  • Matrices : équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …

4 - Liste et DataFrames

  • Définitions, cas d’utilisation
  • Attachement, détachement. Chargement d’un dataframe. La fonction scan

5 - Statistiques

  • Distributions embarquées : uniforme, normale, poisson, exponentielle, …
  • Calculs statistiques. Modèles statistiques
  • Affichage en graphes, histogrammes

6 - Import/export

  • Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png). Encodage. Filtrage
  • Importation SQL. Importation depuis un socket réseau
  • Travaux pratiques : importation de données géodésiques et export au format Json

7 - Intégration Hadoop

  • Association de la puissance du calcul distribué fourni par les outils hadoop
  • Différents moyens d’intégration : sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
  • Transformation d’un dataframe R en un dataframe Spark
  • Travaux pratiques avec Hadoop

8 - Fonctions spécifiques

  • Définition de nouvelles fonctions. Appels. Passage d’argument
  • Construction d’une bibliothèque
  • Diffusion, installation avec R CMD INSTALL

9 - Evolutions

  • Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR
cookie