Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.
L'idée en deux mots
Seul, un modèle ne connaît que ce qu'il a appris à l'entraînement : il ignore vos notes, vos contrats, vos comptes rendus. Le RAG (de l'anglais Retrieval-Augmented Generation) comble ce vide. Quand vous posez une question, le système commence par retrouver les passages pertinents dans vos documents, puis les glisse dans la question avant que le modèle ne rédige sa réponse. Résultat : une réponse appuyée sur vos sources, et non sur la seule mémoire du modèle.
Techniquement, vos documents sont découpés et transformés en embeddings (des vecteurs de sens) ; la question est vectorisée pareillement, et l'on récupère les morceaux les plus proches. C'est ce va-et-vient entre recherche et génération qui donne au RAG sa force.
Pourquoi c'est précieux
Le RAG améliore la pertinence des réponses, ajoute de la traçabilité (on sait d'où vient l'information) et réduit nettement le risque d'hallucinations. En local, des outils comme AnythingLLM, Khoj ou Onyx le rendent accessible sans envoyer vos fichiers dans le cloud — un bel allié de la confidentialité.
À relier
- Les embeddings — le moteur sémantique du RAG.
- La fenêtre de contexte — l'espace où l'on injecte les documents.
- Les réponses inexactes — ce que le RAG aide à limiter.
- AnythingLLM · Khoj — le RAG en local.