Formation Natural Language Processing : NLP, RAG et LLM avec Python
Objectifs
Définir les concepts clés du pipeline NLP/Rag.
Expliquer les différences et complémentarités entre recherche lexicale, recherche vectorielle et recherche hybride.
Mettre en oeuvre un prétraitement texte et produire une représentation exploitable dans un script Python.
Analyser les résultats d'un moteur de recherche pour identifier les causes de performance.
Evaluer un système RAG en distinguant les métriques de retrieval de celles de génération et en interprétant les résultats pour prioriser des améliorations.
Concevoir un pipeline RAG robuste répondant à un besoin QA documentaire.
Déployer une API Python propre exposant les fonctionnalités NLP/RAG, prête à être intégrée dans une application.
Pré-requis
Participants
Programme de formation
NLP sans IA générative : Traitement de texte "classique mais efficace"
NLP différente de LLM : panorama raisonné
Chaîne NLP traditionnelle
Tokenisation
Lemmatisation / stemming : quand c'est utile (ou pas)
Nettoyage texte (regex, unicode, accents, bruit)
Statistiques lexicales
Construction
Cas réel : Recherche simple dans un corpus documentaire
NLP sans IA générative : Rechercher textuelle et scoring
Recherche lexicale
Similarité cosine / dot product
Limites du "full lexical"
Introduction aux embeddings, sans magie
Comparaison résultats humains VS scores
Analye des erreurs (mots manquants, synonymes)
RAG : Embeddings & retrieval (le coeur du RAG)
Embeddings différent de LLM génératif
Métriques vectorielles
Chunking
Pourquoi le chunking est plus critique que le modèle
Génération d'embeddings
Index vectoriel
Recherche top-k
Analyse des faux positifs
Comparaison
RAG hybride (la bonne pratique)
RAG naïf VS RAG robuste
Hybrid search
Re-ranking
Gestion des sources
Anti-hallucinations structurelles
Pipeline
Retour
LLM minimalistes & Prompting utile
Rôle raisonnable d'un LLM en RAG
Prompting déterministe
JSON, citations, contraintes
Pourquoi le fine-tuning est souvent inutile en RAG
Passage retrieved -> réponse structurée
Ajout
Comparaison