La quantification des modèles — IA locale

Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.

L'idée en deux mots

Un modèle de langage, c'est des milliards de nombres (ses « poids »). Stockés en pleine précision, ils pèsent lourd : un modèle de 7 milliards de paramètres occupe environ 14 Go. La quantification consiste à arrondir ces nombres pour les coder sur moins de bits — par exemple en 4 bits au lieu de 16. Le même modèle descend alors autour de 3,5 à 4 Go, et il tient enfin dans la mémoire d'une machine de bureau.

La bonne surprise, c'est que la qualité bouge peu. Sur les mesures usuelles, un niveau comme Q4_K_M ne perd que quelques pour cent par rapport au modèle complet — souvent imperceptible à l'usage — tout en générant le texte plus vite, car il y a moins de données à déplacer en mémoire. C'est le format GGUF, devenu un standard, qui emballe le tout dans un seul fichier.

Pourquoi c'est une bonne nouvelle

La quantification est, très concrètement, ce qui rend l'IA locale accessible. Quand vous téléchargez un modèle avec Ollama, llama.cpp ou LM Studio, vous récupérez presque toujours une version quantifiée. C'est elle qui détermine la VRAM nécessaire, et donc si tel modèle tournera chez vous. Une vraie clé du coût maîtrisé.

À relier

GPU et VRAM — ce que la quantification permet d'économiser.
Open weights — ces poids qu'on télécharge et qu'on quantifie.
Ollama · llama.cpp — les moteurs qui lisent le GGUF.
Coût et gratuité — pourquoi ça change la donne.

L'idée en deux mots

Pourquoi c'est une bonne nouvelle

À relier

Continuer la lecture