Cursus

Formation RAG et Fine Tuning d’un LLM

Décrire le fonctionnement et les limites d'une LLM.

Expliquer les concepts clés du RAG.

Créer un Pipeline RAG avec LangChain.

Expliquer les techniques de fine tuning sur un LLM.

Evaluer et optimiser les performances d'un modèle.

Déployer un modèle en production.

Bonne connaissance du langage Python et avoir quelques connaissances de base en Deep Learning et NLP

Chercheurs et ingénieurs en IA souhaitant optimiser et personnaliser des LLM

RAG et Fine Tuning d’un LLM

Les concepts clés du RAG
- Qu'est-ce qu'un embedding (un plongement) ?
- Word embedding VS Sentence embedding
- Bases de données vectorielles
Indexation des données
- Chargement des données (PDF, Docx, Json, Web scraping,...)
- La vectorisation des données (FAISS, ChromaDB, Weaviate)
- Les modèles d'embedding (Mistral-Embed, OpenAI, Sentence Transformers)
Mécanisme de récupération des données
- Recherche sémantique
- Similarité cosinus, re-ranking
Génération augmentée
- Techniques de prompt engineering
- Fusion des données récupérées avec un LLM
- Mise en oeuvre d'une interface graphique avec Gradio
Cas d'usage et enjeux stratégiques
- Applications du RAG dans l'industrie
- Mise en oeuvre agents conversationnels avec une base de connaissances personnalisée

Pourquoi utiliser des Tool Chains ?
Les principaux outils de Pipeline
- LangChain
- LlamaIndex
- Haystack
Création d'un Pipeline RAG avec LangChain
- Configuration des outils
- Intégration des modèles de langage
- Exécution et test du Pipeline
Agents LLM et logique ReAct
- Qu'est-ce qu'un agent LLM ?
- Qu'est-ce que la Logique ReAct (Reasoning and Acting) ?
- Exemples d'agents avec LangChain

Fine Tuning Complet VS Fine Tuning léger (LoRA, QLoRA...)
Préparation des données
- Nettoyage et structuration des données
- Formats de fichiers utilisables (JSONL, HF datasets...)
- Stratégies d'annotation et de génération de prompts
Augmentation des données
Mise en oeuvre du Fine Tuning
- Les API utilisables
- Gestion des ressources GPU
Evaluation et métriques de performance
Distillation de modèles

Quantization et compression d'un modèle
Déploiement d'un modèle fine tuned
- Le logiciel Gradio
- Le déploiement en API via FastAPI
- Les logiciels Jan.ai et Ollama