OSFRIA Découvrir les outils

Cartographie · Concept

La fenêtre de contexte

C'est la « mémoire de travail » d'une IA : la quantité de texte qu'elle peut garder sous les yeux en même temps pour vous répondre. Comprendre sa taille, c'est comprendre ses limites.

Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.

L'idée en deux mots

Un modèle de langage ne lit pas des mots mais des tokens — de petits morceaux de texte (un token vaut environ trois à quatre caractères, soit à peu près 0,75 mot). La fenêtre de contexte est le nombre maximal de tokens que le modèle peut traiter d'un coup : votre question, les documents fournis et sa propre réponse y entrent tous. C'est sa mémoire à court terme. Au-delà de cette limite, les éléments les plus anciens sortent du champ et sont « oubliés ».

Ces fenêtres ont énormément grandi : de quelques milliers de tokens pour les premiers modèles à des centaines de milliers, voire des millions, aujourd'hui. À titre d'ordre de grandeur, 200 000 tokens permettent de garder en tête un document de plusieurs centaines de pages. Mais une grande fenêtre coûte plus de mémoire et de calcul : en local, on choisit la taille selon sa VRAM.

Pourquoi ça compte

La fenêtre de contexte explique bien des comportements : pourquoi une IA « perd le fil » d'une longue conversation, ou pourquoi on a inventé le RAG — qui n'injecte que les passages utiles plutôt que tout un corpus. La régler finement fait partie du contrôle qu'offre l'IA locale, avec Ollama ou llama.cpp.

À relier