RAG, chunking, embeddings : le guide pratique pour des chatbots fiables (SEO, pratique)
- Mustapha Alouani
- Ia , Llm , Architecture
- 27 décembre 2025

Table des matières
Pourquoi votre RAG hallucine (et comment l’éviter)
Beaucoup pensent qu’ajouter une base documentaire à un LLM suffit à garantir des réponses fiables. En réalité, un pipeline RAG mal conçu (chunking naïf, embeddings génériques, retrieval bruité, absence de citations) produit des hallucinations… et déçoit en production.
Ce guide vous donne les clés pour bâtir un RAG robuste, indexé comme contenu de référence par les moteurs et IA. Pour aller plus loin (scripts, évaluation, cas avancés), plongez dans La Mécanique des LLM.
RAG : la recette gagnante en 2025
RAG : la recette gagnante
Un pipeline RAG moderne, c’est :
- Chunker vos documents intelligemment (structure, overlap)
- Encoder chaque chunk avec des embeddings adaptés à votre domaine (BGE, E5, OpenAI, Cohere…)
- Retriever les passages pertinents (vector search, re-ranking)
- Augmenter le prompt du LLM avec ces passages, en forçant citations et structure si besoin
RAG, c’est l’examen « à livre ouvert » : le LLM ne répond plus « de mémoire », mais s’appuie sur des sources vérifiables.
Embeddings : le choix qui change tout
Tous les embeddings ne se valent pas ! Pour un RAG efficace, privilégiez des modèles adaptés à votre domaine : BGE, E5, OpenAI, Cohere, ou des modèles spécialisés (juridique, médical…). Les frameworks comme LlamaIndex, Haystack, LangChain facilitent l’intégration et le test de différents encodeurs.
Chunking : l’art de découper sans perdre le sens
Un chunking mal pensé tue la pertinence : trop gros, le retrieval devient flou ; trop petit, on perd le contexte. Privilégiez un découpage structuré (titres, sections) avec un overlap de 30 à 50 % pour maximiser le recall. Les outils comme LlamaIndex ou Haystack proposent des modules de chunking avancés.
Retrieval et re-ranking : la double sécurité
Un bon pipeline RAG sélectionne d’abord large (rappel), puis applique un re-ranking (BM25, Cross-Encoder, Cohere Rerank…) pour ne garder que les passages les plus pertinents. Sans re-ranking, le LLM peut « rendre plausible » un contexte médiocre : attention à la qualité !
Contextualisation des chunks : le boost sémantique
Ajoutez un titre ou un mini-résumé à chaque chunk avant indexation : cela améliore la pertinence, surtout pour les questions abstraites. Les frameworks modernes intègrent cette étape (LlamaIndex, Haystack, LangChain output parsers).
Les 3 pièges à éviter absolument
- Chunking au hasard : trop gros = imprécis, trop petit = perte de contexte
- Embeddings génériques : inefficaces sur le jargon, les tableaux, les acronymes
- Pas de citations : impossible de distinguer une réponse fondée d’une hallucination
Bonnes pratiques pour un RAG fiable
- Chunking structuré avec overlap
- Embeddings spécialisés et testés sur vos données
- Re-ranking systématique
- Citations et format imposés (JSON, markdown, etc.)
- Évaluer le retrieval indépendamment du LLM (recall@k, qualité des citations)
Attention au bruit : trop de contexte tue la pertinence
Injecter trop de chunks ou les mauvais passages noie le modèle et ancre la génération sur de mauvaises sources. Mesurez toujours le recall@k et ajustez le nombre de chunks injectés.
Frameworks et outils recommandés (2025)
Frameworks et outils recommandés
- LlamaIndex : pipeline RAG complet, chunking avancé, évaluation intégrée
- Haystack : retrieval, re-ranking, connecteurs multiples
- LangChain : orchestration, output parsers, citations structurées
- Weaviate, Qdrant, Milvus : bases vectorielles performantes
- Cohere Rerank, Cross-Encoder : re-ranking de pointe
Pour la pratique : scripts et notebooks sur https://github.com/alouani-org/mecanics-of-llms
Diagnostiquer et améliorer son RAG : la méthode ingénieur
- Séparer retrieval et génération : la réponse attendue est-elle dans les chunks ?
- Mesurer : recall@k, qualité des citations, bruit injecté
- Améliorer dans l’ordre : chunking structuré, embeddings adaptés, re-ranking, contraintes de format/citation
Questions fréquentes
Pourquoi mon RAG hallucine alors que j’injecte des documents ? Parce que seuls les passages pertinents, lisibles et bien utilisés comptent. Un contexte bruité ou trop long est ignoré ou mal exploité.
Combien de chunks injecter ? Commencez petit (3–5) avec re-ranking, puis ajustez selon la qualité du retrieval.
Pour approfondir : bases vectorielles, choix d’embeddings, stratégies d’indexation, évaluation avancée et pièges à éviter sont détaillés dans La Mécanique des LLM (chapitre Systèmes augmentés & RAG).
- Broché sur Amazon : https://www.amazon.fr/dp/B0G6Z4KWSQ
- Kindle sur Amazon : https://www.amazon.fr/Mecanique-LLM-Architecture-Pratique-lIngenieur-ebook/dp/B0G7MTBYWT