Formation Talend OpenStudio intégration de données

Référence : PYCB060
Durée : 21 heures
Certification : Non
Eligible CPF : Non

CONNAISSANCES PREALABLES

Maîtrise des SGBDR et de SQL

PROFIL DES STAGIAIRES

Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données

OBJECTIFS

Maîtriser Talend dans un environnement Big Data
Se servir de Talend comme lien entre les fichiers, applications et bases de données
Acquérir la philosophie de l'outil
Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
Être capable d'implémenter ses Jobs
Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
Réaliser des Jobs de transformation à l'aide de Pig et Hive
Gérer la qualité de la donnée avec Talend
Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Maîtriser l'utilisation de la bibliothèque de composants
Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

METHODES PEDAGOGIQUES

Mise à disposition d’un poste de travail par participant
Remise d’une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

Auto-évaluation des acquis par le stagiaire via un questionnaire
Attestation des compétences acquises envoyée au stagiaire
Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS Bigdata

- Acquérir la philosophie de l'outil

Augmenter les attentes en matière de gestion des données.
Rappels sur les solutions ETL.
Ecosystème Talend : Data integration, big data, realtime big datas, data fabric. Intégration, intégrité et gouvernance des données dans une seule et même plateforme unifiée.
Présentation de TMC (talend management cloud).
Présentation Talend OpenStudio : installation, configuration des préférences utilisateurs. Documentation.
Concevoir des jobs simples avec Talend OpenStudio.
Comprendre le fonctionnement de Talend : schéma et propagation de schémas au travers de composants, flux de composants.

- Se servir de Talend comme lien entre les fichiers, applications et bases de données

Intégrer les liens avec les bases de données : présentation des bases de données supportées.
Opérations sur les tables, connexion à un schéma de bases de données.
Gérer les transactions
Utilisation de SQLBuilder pour créer des requêtes
Atelier : réaliser une transformation d'un fichier plat vers une table SQL

- Maîtriser l'utilisation de la bibliothèque de composants

Utiliser le Designer, la palette. Zoom sur les composants.
Tour d'horizon des différentes familles de composants.
Atelier : mise en oeuvre des composants jointures, tests, associations, multi-sorties.
Création d'un composant. Paramétrage d'un composant. Création de liaison "Main".
Atelier : mise en oeuvre des composants tFileInputDelimited et tMap.

- Être capable d'implémenter ses Jobs

Création d'un job. Création dans le référentiel.
Analyse du code et exécution des jobs.
Optimiser les jobs, utilisation des joblets.
Utilisation des métadonnées, import/export, propagation sur les jobs, configuration de connexions réutilisables.
Utiliser des contextes. Exploiter le composant tContextLoad.
Gérer le traitement des jobs : les composants tPreJob et tPostJob. Recherche de jobs.
Activer/désactiver un élément.
Importer/exporter un élément.
Atelier : création d'un flux à embranchements multiples avec exploitation du composant tRunIf.

- Gérer la qualité de la donnée avec Talend

Mise en oeuvre des principales connexions.
Intégration de fichiers XML, CSV et JSON. Filtrer et orienter la donnée avec le composant regex.
Etude des composants de transformation.
Les composants tAddCRCRow, tChangeFileEncoding, tUniqueRow et tIntervalMatch.
Normaliser la donnée avec tNormalize.
Atelier : création d'un flux de transformation de données et enrichissement.

- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes

Modélisation des applications.
Présentation des outils : Business Modeler, JobDesigner.
Partager avec les équipes une vue non technique des besoins en terme de flux, opérations, gouvernance des données.
Atelier : création d'un modèle à partir de diagrammes fonctionnels retraçant les fonctionnalités à prendre en compte, à implémenter dans le projet, développement réalisés par les Jobs.

- Maîtriser Talend dans un environnement Big Data

Intégration de Talend dans un environnement Hadoop. Parallélisation des tâches.
Comprendre les mécanismes BigData dans la suite Talend. Dénormalisation BigData et normalisation SGBD.
Présentation des composants BigData, connexion HDFS, mappage et stockage HDFS.
Les composants BigData disponibles.

- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend

Liens avec les bases de données : présentation des bases de données supportées.
Lecture et écriture HDFS et bases Nosql supportées.
Comprendre les composants tHDFSInput, tHDFSOutput et tHDFSConnection.
Atelier : création d'un Job ETL de base de transformation.

- Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop

Comprendre le composant tSqoopExport et le projet Sqoop pour transférer des données du système de fichiers distribué Hadoop (Hadoop Distributed File System, HDFS) vers un système de gestion de base de données relationnelle (SGBDR).
Atelier : Mise en oeuvre de tSqoopExport / tSqoopImport entre une base SQL et Hadoop HDFS.

- Réaliser des Jobs de transformation à l'aide de Pig et Hive

Jointure Pig. Comprendre les composants tPigLoad, tPigStoreResult et tPigMap.
Comprendre les composants tHiveConnection et tHiveRow.
Couplage HBase.
Atelier : réalisation d'un ETL Pig sur un lac Hadoop distribué, entre des fichiers plats et des fichiers parquets

- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Traitement de données multi-sources.
Le composant tMap.
Génération de sorties multiples.
Extensions : décomposition de jobs, mise en oeuvre du tRunJob, debugging, analyse des statistiques d'exécution, reporting avec jJasperOutput.
Atelier : création de jointures, transformations à l'aide des variables, expressions et jointures, qualification des données à l'aide de filtres.

INTER
INTRA

Coût :

2 430,00 € HT

Dates et lieux de formation

caca

                                                    array(2) {
  [0]=>
  array(5) {
    ["code"]=>
    string(0) ""
    ["date"]=>
    string(10) "27/08/2025"
    ["guarantee"]=>
    bool(false)
    ["place"]=>
    string(5) "PARIS"
    ["city"]=>
    string(5) "PARIS"
  }
  [1]=>
  array(5) {
    ["code"]=>
    string(0) ""
    ["date"]=>
    string(10) "24/11/2025"
    ["guarantee"]=>
    bool(false)
    ["place"]=>
    string(5) "PARIS"
    ["city"]=>
    string(5) "PARIS"
  }
}

À DISTANCE

27/08/2025

24/11/2025

PARIS

27/08/2025

24/11/2025

Je m'inscris

Je demande un devis

Formulaire d'inscription

« * » indique les champs nécessaires

Formation sélectionnée

Merci de choisir la date de la session qui vous intéresse*

Afin de vous adresser le bon pour accord ou devis correspondant, merci de bien vouloir nous indiquer qui vous êtes :*

Salarié / Commanditaire / Agent public

Particulier / Indépendant

Vos informations

Civilité*

Nom*

Prénom*

E-mail*

Téléphone*

Fonction

Adresse*

Code postal*

Ville*

Notre référent handicap se tient à votre disposition au 01.71.19.70.30 ou par mail à referent.handicap@edugroupe.com pour recueillir vos éventuels besoins d’aménagements, afin de vous offrir la meilleure expérience possible.

Informations société

Société*

Téléphone*

Adresse*

Code postal*

Ville*

Ce champ est masqué lorsque l‘on voit le formulaire.

SIRET

Ce champ est masqué lorsque l‘on voit le formulaire.

N° TVA intracommunautaire

Pour cette inscription, vous êtes :*

Participant

Le responsable de l'inscription

Participant

Civilité*

Nom*

Prénom*

E-mail*

Téléphone*

Fonction*

Responsable

Civilité*

Nom*

Prénom*

E-mail*

Téléphone*

Fonction*

Une prise en charge OPCO est-elle prévu pour cette formation ?

Oui

Non

Le(s) participant(s)

Liste des participants

Civilité	Nom	Prénom	E-mail	Téléphone	Fonction	Suivi de la formation	Actions

Il n'y a pas de participants.

Validation et envoi

Apportez des précisions à votre demande, si besoin :

Comment avez-vous connu EduGroupe ?*

Comments

14H 1 670,00 € HT

06/10/2025 (prochaine session)DÉCOUVRIR

Formation Talend OpenStudio intégration de données

CONNAISSANCES PREALABLES

PROFIL DES STAGIAIRES

OBJECTIFS

METHODES PEDAGOGIQUES

METHODES D'EVALUATION DES ACQUIS

FORMATEUR

CONTENU DU COURS Bigdata

- Acquérir la philosophie de l'outil

- Se servir de Talend comme lien entre les fichiers, applications et bases de données

- Maîtriser l'utilisation de la bibliothèque de composants

- Être capable d'implémenter ses Jobs

- Gérer la qualité de la donnée avec Talend

- Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes

- Maîtriser Talend dans un environnement Big Data

- Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend

- Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop

- Réaliser des Jobs de transformation à l'aide de Pig et Hive

- Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Dates et lieux de formation

À DISTANCE

PARIS

Formulaire d'inscription

Vos informations

Informations société

Participant

Responsable

Le(s) participant(s)

Validation et envoi

Autres formations qui pourraient vous intéresser

Bases de données

BigdataPython : Jupyter Notebook

BigdataPython : Jupyter Notebook

Bases de données

BigdataDask : mise en oeuvre, programmation

BigdataDask : mise en oeuvre, programmation

Bases de données

BigdataLes fondamentaux de l'analyse statistique avec R

BigdataLes fondamentaux de l'analyse statistique avec R

Bases de données

BigdataMachine Learning avec scikit-learn

BigdataMachine Learning avec scikit-learn

Bases de données

BigdataAnalyse d'images avec TensorFlow et Keras

BigdataAnalyse d'images avec TensorFlow et Keras

Bases de données

BigdataSpark ML

BigdataSpark ML

Bigdata
Python : Jupyter Notebook

Bigdata
Python : Jupyter Notebook

Bigdata
Dask : mise en oeuvre, programmation

Bigdata
Dask : mise en oeuvre, programmation

Bigdata
Les fondamentaux de l'analyse statistique avec R

Bigdata
Les fondamentaux de l'analyse statistique avec R

Bigdata
Machine Learning avec scikit-learn

Bigdata
Machine Learning avec scikit-learn

Bigdata
Analyse d'images avec TensorFlow et Keras

Bigdata
Analyse d'images avec TensorFlow et Keras

Bigdata
Spark ML

Bigdata
Spark ML