Cursus
Formation Créer son propre agent IA avec les LLMs open source
Objectifs
Comprendre le fonctionnement des modèles de langage open source (LLMs).
Installer et interagir avec un modèle type Mistral, LLaMA ou GPT-J via HuggingFace.
Construire un agent conversationnel autonome avec prompt chaining et RAG.
Déployer une interface interactive (local ou via app web simple).
Pré-requis
Participants
Programme de formation
INTRODUCTION AUX LLMS OPEN SOURCE
Enjeux de souveraineté et d'indépendance technologique
Comparatif
- Mistral
- LLaMA
- Falcon
- GPT-J...
Avantages, limites, licences d'usage (Apache 2,0, MIT...)
Choix selon objectifs
- Taille
- Performance
- Contraintes hardware
GÉNÉRATION EN LOCAL OU VIA API
Utilisation de HuggingFace Hub pour déploiement rapide
Différences entre API distante (Inference API) et inférence locale
Benchmarks de performance sur pormpts standards (temps, cohérence, coût)
ASPECTS MATÉRIELS : CPU, GPU, QUANTIZATION
Importance de la RAM, VRAM et de l'optimisation mémoire
Formats de modèles
- FP32
- INT8
- GGUF
- Quantization à la volée
Usage de serveurs, colab ou modèles en local
BIBLIOTHÈQUE TRANSFORMERS (HUGGINGFACE)
Chargement de modèles
- AutoModelForCausalLM
- AutoTokenizer
Gestion des batchs, sampling, temperature, top-p, top-k
Tokenization : spécificités des modèles (Byte Pair Encoding, SentencePiece...)
PROMPT ENGINEERING AVANCÉ
Structure d'un prompt efficace
- Consignes
- Style
- Format attendu
Définition de rôles (système de consignes persistantes)
Paramétrage de température et comportement selon le ton
CHAINING DE PROMPTS
Construction d'enchaînements logiques (task chaining, output <-> input)
Structuration de flux
- Agent décisionnel
- Etapes séquentielles
MÉMOIRE À COURT TERME
Gestion d'un historique de conversation
Mécanisme de buffer, résumé automatique, context compression
Usage de ConversationSummaryMemory ou de mémoires locales
GESTION DU CONTEXTE ET DES TOKENS
Calcul de la taille de contexte maximale selon modèle
Troncature intelligente, compression ou sélection sémantique
Réduction de charge contextuelle via embeddings
INTRODUCTION AU RAG (RETRIEVAL AUGMENTED GENERATION)
Intérêt : pallier la méconnaissance du modèle par adjonction documentaire
Architecture : embed -> store -> retrieve -> generate
Cas d'usage (FAX interne, support produit, base réglementaire)
ENCODAGE DE DOCUMENTS
Sentence Transformers
- all-MiniLM
- mpnet
- bge
- multilingual
Vectorisation texte brut, PDF, site web ou base structurée
Nettoyage des données, splitting optimal
INDEXATION DANS UNE BASE VECTORIELLE
Choix d'index
- FAISS (Facebook)
- ChromaDB
- Weaviate
Création de bases persistantes, configuration de la similarité
Recherche vectorielle
- top-k
- score de similarité
- hybridation
RÉCUPÉRATION ET GÉNÉRATION CONDITIONNÉE
Pipeline de RAG : retrieve -> rerank -> prompt final
Prompt enrichi vs prompt structuré (template + contenu injecté)
Optimisation