Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.
L'idée en deux mots
Un modèle de langage ne lit pas des mots mais des tokens — de petits morceaux de texte (un token vaut environ trois à quatre caractères, soit à peu près 0,75 mot). La fenêtre de contexte est le nombre maximal de tokens que le modèle peut traiter d'un coup : votre question, les documents fournis et sa propre réponse y entrent tous. C'est sa mémoire à court terme. Au-delà de cette limite, les éléments les plus anciens sortent du champ et sont « oubliés ».
Ces fenêtres ont énormément grandi : de quelques milliers de tokens pour les premiers modèles à des centaines de milliers, voire des millions, aujourd'hui. À titre d'ordre de grandeur, 200 000 tokens permettent de garder en tête un document de plusieurs centaines de pages. Mais une grande fenêtre coûte plus de mémoire et de calcul : en local, on choisit la taille selon sa VRAM.
Pourquoi ça compte
La fenêtre de contexte explique bien des comportements : pourquoi une IA « perd le fil » d'une longue conversation, ou pourquoi on a inventé le RAG — qui n'injecte que les passages utiles plutôt que tout un corpus. La régler finement fait partie du contrôle qu'offre l'IA locale, avec Ollama ou llama.cpp.
À relier
- Le RAG — la réponse maligne aux limites de la fenêtre.
- GPU et VRAM — une grande fenêtre demande de la mémoire.
- La quantification — l'autre levier pour tenir en mémoire.
- Le contrôle total — régler soi-même ce paramètre.