Formation Natural Language Processing : NLP, RAG et LLM avec Python

Objectifs

Définir les concepts clés du pipeline NLP/Rag.

Expliquer les différences et complémentarités entre recherche lexicale, recherche vectorielle et recherche hybride.

Mettre en oeuvre un prétraitement texte et produire une représentation exploitable dans un script Python.

Analyser les résultats d'un moteur de recherche pour identifier les causes de performance.

Evaluer un système RAG en distinguant les métriques de retrieval de celles de génération et en interprétant les résultats pour prioriser des améliorations.

Concevoir un pipeline RAG robuste répondant à un besoin QA documentaire.

Déployer une API Python propre exposant les fonctionnalités NLP/RAG, prête à être intégrée dans une application.

Pré-requis

Avoir les bases de programmation Python

Participants

Analystes de corpus basés sur du texte

Programme de formation

Natural Language Processing : NLP, RAG et LLM avec Python

NLP sans IA générative : Traitement de texte "classique mais efficace"

NLP différente de LLM : panorama raisonné
Chaîne NLP traditionnelle
- Nettoyage
- Normalisation
- Langage
Tokenisation
- Mots
- Phrases
- N-grams
Lemmatisation / stemming : quand c'est utile (ou pas)
Nettoyage texte (regex, unicode, accents, bruit)
Statistiques lexicales
Construction
- Bag of Words
- TF-IDF
Cas réel : Recherche simple dans un corpus documentaire

NLP sans IA générative : Rechercher textuelle et scoring

Recherche lexicale
- TF-IDF
- BM25
Similarité cosine / dot product
Limites du "full lexical"
Introduction aux embeddings, sans magie
Comparaison résultats humains VS scores
Analye des erreurs (mots manquants, synonymes)

RAG : Embeddings & retrieval (le coeur du RAG)

Embeddings différent de LLM génératif
Métriques vectorielles
Chunking
- Taille
- Overlap
- Structure documentaire
Pourquoi le chunking est plus critique que le modèle
Génération d'embeddings
Index vectoriel
Recherche top-k
Analyse des faux positifs
Comparaison
- Lexical seul
- Vectoriel seul

RAG hybride (la bonne pratique)

RAG naïf VS RAG robuste
Hybrid search
- Lexical + vectoriel
Re-ranking
Gestion des sources
Anti-hallucinations structurelles
Pipeline
- Chargement documents
- Chunking
- Double index (lexical + embedding)
Retour
- Passages retrouvés
- Traçabilité

LLM minimalistes & Prompting utile

Rôle raisonnable d'un LLM en RAG
- Reformuler
- Synthétiser
- Agréger
Prompting déterministe
JSON, citations, contraintes
Pourquoi le fine-tuning est souvent inutile en RAG
Passage retrieved -> réponse structurée
Ajout
- Citations obligatoires
- Refus si contexte insuffisant
Comparaison
- Réponse avec
- Réponse sans LLM

intra sur-mesure

Durée

3 jours

Lieux

Meylan Moirans Sophia Dans vos locaux Classe distancielle

Groupe de 8 personnes maximum

Demandez un devis

Cette thématique vous intéresse ?
Nos experts conçoivent votre formation sur-mesure On adore les moutons à 5 pattes !

Demandez un devis

Formations dans la même thématique

Concevoir et lancer son Chatbot 2 jours Créer son agent IA personnalisé avec des outils no-code 2 jours Créer son propre agent IA avec les LLMs open source 2 jours Créer son propre agent IA conversationnel (avec ChatGPT, Gemini & autres) 1 jour Créer un RAG no-code 2 jours RAG et Fine Tuning d'un LLM 3 jours