Formation Natural Language Processing : NLP, RAG et LLM avec Python
Objectifs
Définir les concepts clés du pipeline NLP/Rag.
Expliquer les différences et complémentarités entre recherche lexicale, recherche vectorielle et recherche hybride.
Mettre en oeuvre un prétraitement texte et produire une représentation exploitable dans un script Python.
Analyser les résultats d'un moteur de recherche pour identifier les causes de performance.
Evaluer un système RAG en distinguant les métriques de retrieval de celles de génération et en interprétant les résultats pour prioriser des améliorations.
Concevoir un pipeline RAG robuste répondant à un besoin QA documentaire.
Déployer une API Python propre exposant les fonctionnalités NLP/RAG, prête à être intégrée dans une application.
Pré-requis
Participants
Programme de formation
NLP sans IA générative : Traitement de texte "classique mais efficace"
NLP différente de LLM : panorama raisonné
Chaîne NLP traditionnelle
- Nettoyage
- Normalisation
- Langage
Tokenisation
- Mots
- Phrases
- N-grams
Lemmatisation / stemming : quand c'est utile (ou pas)
Nettoyage texte (regex, unicode, accents, bruit)
Statistiques lexicales
Construction
- Bag of Words
- TF-IDF
Cas réel : Recherche simple dans un corpus documentaire
NLP sans IA générative : Rechercher textuelle et scoring
Recherche lexicale
- TF-IDF
- BM25
Similarité cosine / dot product
Limites du "full lexical"
Introduction aux embeddigs, sans magie
Comparaison résultats humains VS scores
Analye des erreurs (mots manquants, synonymes)
RAG : Embeddings & retrieval (le coeur du RAG)
Embeddings différent de LLM génératif
Métriques vectorielles
Chunking
- Taille
- Overlap
- Structure documentaire
Pourquoi le chunking est plus critique que le modèle
Génération d'embeddings
Index vectoriel
Recherche top-k
Analyse des faux positifs
Comparaison
- Lexical seul
- Vectoriel seul
RAG hybride (la bonne pratique)
RAG naïf VS RAG robuste
Hybrid search
- Lexical + vectoriel
Re-ranking
Gestion des sources
Anti-hallucinations structurelles
Pipeline
- Chargement documents
- Chunking
- Double index (lexical + embedding)
Retour
- Passages retrouvés
- Traçabilité
LLM minimalistes & Prompting utile
Rôle raisonnalbe d'un LLM en RAG
- Reformuler
- Synthétiser
- Agréger
Prompting déterministe
JSON, citations, contraintes
Pourquoi le fine-tuning est souvent inutile en RAG
Passage retrieved -> réponse structurée
Ajout
- Citations obligatoires
- Refus si contexte insuffisant
Comparaison
- Réponse avec
- Réponse sans LLM