OSFRIA Découvrir les outils

Cartographie · Concept

La quantification des modèles

C'est l'astuce qui fait tenir une IA puissante sur un ordinateur ordinaire : alléger les modèles en réduisant la précision de leurs chiffres, presque sans perte visible.

Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.

L'idée en deux mots

Un modèle de langage, c'est des milliards de nombres (ses « poids »). Stockés en pleine précision, ils pèsent lourd : un modèle de 7 milliards de paramètres occupe environ 14 Go. La quantification consiste à arrondir ces nombres pour les coder sur moins de bits — par exemple en 4 bits au lieu de 16. Le même modèle descend alors autour de 3,5 à 4 Go, et il tient enfin dans la mémoire d'une machine de bureau.

La bonne surprise, c'est que la qualité bouge peu. Sur les mesures usuelles, un niveau comme Q4_K_M ne perd que quelques pour cent par rapport au modèle complet — souvent imperceptible à l'usage — tout en générant le texte plus vite, car il y a moins de données à déplacer en mémoire. C'est le format GGUF, devenu un standard, qui emballe le tout dans un seul fichier.

Pourquoi c'est une bonne nouvelle

La quantification est, très concrètement, ce qui rend l'IA locale accessible. Quand vous téléchargez un modèle avec Ollama, llama.cpp ou LM Studio, vous récupérez presque toujours une version quantifiée. C'est elle qui détermine la VRAM nécessaire, et donc si tel modèle tournera chez vous. Une vraie clé du coût maîtrisé.

À relier