RAG en 2026 : ce qui marche vraiment en production
Chunking, embeddings, hybrid search, re-ranking : ce que nos déploiements RAG en production nous ont appris à industrialiser.
Le RAG (Retrieval-Augmented Generation) est devenu l'architecture par défaut pour brancher un LLM sur une base de connaissances métier. Mais entre la démo Notion et le déploiement production, il y a un fossé. Voici ce que nous voyons fonctionner.
Le chunking — le détail qui change tout
Couper vos documents en morceaux de 500 tokens fixes est la pire option. Ce qui marche :
- Chunking sémantique : découper sur les titres, paragraphes, frontières logiques.
- Overlap 10-15% entre chunks pour préserver le contexte aux frontières.
- Métadonnées riches : titre du document, section, date, auteur — souvent plus utiles que le contenu pour le filtrage.
Embeddings — OpenAI ou alternatives ?
OpenAI text-embedding-3-large reste la référence qualité/prix en 2026. Cohere embed-multilingual-v3 est meilleur en multilingue français. Pour des cas spécialisés (juridique, médical), des modèles fine-tunés open source (BGE, E5) peuvent surpasser.
Vector DB — Pinecone n'est plus le seul choix
Le marché s'est ouvert :
- Pinecone : référence managée, simple, cher.
- Qdrant : open source, self-host, performant.
- Weaviate : hybride managed/self-host, bon support du hybrid search.
- pgvector (PostgreSQL) : suffisant pour < 1M documents et permet de garder votre stack SQL existante.
Notre choix par défaut sur les PME : pgvector. Sur les ETI : Qdrant ou Pinecone selon contrainte de souveraineté.
Hybrid search — le levier qui double la précision
Combiner recherche vectorielle (similarité sémantique) ET recherche lexicale (BM25 sur les mots-clés) double la précision de retrieval dans 80% des cas. Disponible nativement sur Weaviate, Qdrant, Elasticsearch. À configurer manuellement sur Pinecone.
Re-ranking — la couche que tout le monde oublie
Récupérer 20 chunks, puis les re-ranker avec un cross-encoder (Cohere Rerank, Jina Rerank) pour ne garder que les 3-5 meilleurs avant de les envoyer au LLM : +30-50% de précision finale, coût marginal.
Évaluation — sans elle, vous êtes aveugle
Construisez un dataset d'évaluation (50-200 questions avec réponses attendues) dès le démarrage. Mesurez régulièrement : taux de réponses correctes, taux de hallucinations, latence, coût par requête. Sans ça, vous ne saurez jamais si votre RAG s'améliore ou se dégrade.
Stack 2026 recommandée pour démarrer
n8n (orchestration) + pgvector ou Qdrant (vector DB) + OpenAI embeddings + GPT-4o-mini (génération) + Cohere Rerank. Coût mensuel : 30-150€ pour des volumes PME. Délai de mise en prod : 3-6 semaines pour un RAG métier robuste.
Cet article est publié par le cabinet d'experts Foxpilot, spécialisé dans la conception et le déploiement d'automatisations IA et no-code en entreprise depuis Paris.
Outils mentionnés