Formation IA – traitement du langage naturel NLP
- Référence : PYIA051
- Durée : 14 heures
- Certification : Non
- Eligible CPF : Non
CONNAISSANCES PREALABLES
- Connaissances de base de Python et du deep learning
PROFIL DES STAGIAIRES
- Toute personne intéressée par le NLP : Ingénieurs, Analystes, Data Scientists, Data Analysts, Data Steward, Développeurs...
OBJECTIFS
- Comprendre les principes du NLP
- Savoir les mettre en oeuvre avec Python
METHODES PEDAGOGIQUES
- 6 à 12 personnes maximum par cours, 1 poste de travail par stagiaire
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
- Auto-évaluation des acquis par le stagiaire via un questionnaire
- Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Intelligence Artificielle
CONTENU DU COURS Intelligence Artificielle
1 - NLP Introduction
- Différentes étapes : reconnaissance de caractères, ou de la voix, conversion des données en texte, décomposition en éléments de phrase, nettoyage des données, traitement de l’ambiguïté d’un mot, reconnaissance d’une entité nommée (NEM), traitement des multiples références pour une entité, extraction des informations subjectives, etc.
- Les outils de NLP et historique : outils statistiques, de machine learning, de deep learning, Watson NLU, Python et le NLTK
- Applications actuelles : solutions de détection de spam, traduction automatique, assistants virtuels, chatbots, analyses d’opinions, de sentiments, etc.
- Objectifs : comprendre le langage humain, et savoir générer des réponses
2 - Python et le NLTK
- Introduction : plateformes supportées, versions de Python
- Présentation des textes et modèles fournis avec le NLTK
- Exemple d’atelier : Atelier : installation du package NLTK et des datasets
3 - Traitements de textes
- Exemple d’Atelier : réalisation d’exemples sur des datasets simples
- Découpage d’un texte en mots ou en phrases avec nltk.tokenize(), nettoyage de textes avec le filtrage de mots, stemming avec nltk.stem, alertes sur les risques d’un mauvais usage, étiquetage des différentes parties d’un texte avec nltk.pos-tag(), lemmatisation, pour identifier les formes canoniques des mots, identification de phrases avec le chunking
- Etude des différentes fonctions fournies par le NLTK
4 - Analyses de textes
- Description de nltk.ne_chunk() pour la reconnaissance d’identités nommées
- Présentation des fonctions concordance(), dispersion_plot(), FreqDist
- Exemple d’Atelier : Import de corpus de textes, analyse, mise en évidence de l’utilisation de termes caractéristiques
5 - Etude de cas
- Analyse de sentiments avec nltk.sentiment
- Présentation des fonctions disponibles
- Exemple d’Atelier : mise en oeuvre sur un corpus. Utilisation de polarity.scores()
6 - Intégration de scikit-learn
- Import des algorithmes de classification de scikit-learn
- Exemple dAtelier : exemple d’utilisation des algorithmes de scikit-learn depuis nltk