Cursus
Formation RAG et Fine Tuning d’un LLM
Objectifs
Décrire le fonctionnement et les limites d'une LLM.
Expliquer les concepts clés du RAG.
Créer un Pipeline RAG avec LangChain.
Expliquer les techniques de fine tuning sur un LLM.
Evaluer et optimiser les performances d'un modèle.
Déployer un modèle en production.
Pré-requis
Participants
Programme de formation
INTRODUCTION A L'IA GENERATIVE ET AUX LLM
Rappels sur le Deep Learning
Rappels sur l'architecture Transformer
Forces et faiblesses d'un LLM
Les principaux LLM à notre disposition
Première utilisation de ces modèles
Que sont le RAG (Retrieval Augmented Generation) et le Fine Tuning ?
LE RAG (RETRIEVAL AUGMENTED GENERATION)
Les concepts clés du RAG
- Qu'est-ce qu'un embedding (un plongement) ?
- Word embedding VS Sentence embedding
- Bases de données vectorielles
Indexation des données
- Chargement des données (PDF, Docx, Json, Web scraping,...)
- La vectorisation des données (FAISS, ChromaDB, Weaviate)
- Les modèles d'embedding (Mistral-Embed, OpenAI, Sentence Transformers)
Mécanisme de récupération des données
- Recherche sémantique
- Similarité cosinus, re-ranking
Génération augmentée
- Techniques de prompt engineering
- Fusion des données récupérées avec un LLM
- Mise en oeuvre d'une interface graphique avec Gradio
Cas d'usage et enjeux stratégiques
- Applications du RAG dans l'industrie
- Mise en oeuvre agents conversationnels avec une base de connaissances personnalisée
MISE EN OEUVRE D'UN PIPELINE POUR SON RAG
Pourquoi utiliser des Tool Chains ?
Les principaux outils de Pipeline
- LangChain
- LlamaIndex
- Haystack
Création d'un Pipeline RAG avec LangChain
- Configuration des outils
- Intégration des modèles de langage
- Exécution et test du Pipeline
Agents LLM et logique ReAct
- Qu'est-ce qu'un agent LLM ?
- Qu'est-ce que la Logique ReAct (Reasoning and Acting) ?
- Exemples d'agents avec LangChain
REALISER UN FINE TUNING
Fine Tuning Complet VS Fine Tuning léger (LoRA, QLoRA...)
Préparation des données
- Nettoyage et structuration des données
- Formats de fichiers utilisables (JSONL, HF datasets...)
- Stratégies d'annotation et de génération de prompts
Augmentation des données
Mise en oeuvre du Fine Tuning
- Les API utilisables
- Gestion des ressources GPU
Evaluation et métriques de performance
Distillation de modèles
OPTIMISATION ET DEPLOIEMENT
Quantization et compression d'un modèle
Déploiement d'un modèle fine tuned
- Le logiciel Gradio
- Le déploiement en API via FastAPI
- Les logiciels Jan.ai et Ollama
FINE TUNING VS RAG
Comparaison entre les deux techniques
Combiner les approches pour améliorer les performances