GPU et VRAM : le nerf de l'IA locale

Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.

L'idée en deux mots

Pour générer du texte vite, un modèle aime résider dans la VRAM, la mémoire dédiée du GPU (la carte graphique). Plus le modèle est gros, plus il en réclame. Un repère utile, une fois le modèle quantifié en 4 bits : comptez environ 8 Go de VRAM pour un modèle 7B, 10 à 12 Go pour un 13B, et bien davantage au-delà. Sans GPU, ça fonctionne quand même sur le processeur, mais plus lentement.

La fenêtre de contexte consomme elle aussi de la mémoire : un long contexte gonfle le besoin. D'où l'intérêt de bien doser quantification et taille de contexte selon sa carte. Côté RAM système, viser 32 Go confortable l'ensemble.

Une bonne nouvelle

On n'a pas besoin du dernier matériel hors de prix pour commencer. Beaucoup d'usages — discuter, résumer, coder, faire du RAG — tournent très bien sur une carte de gamme moyenne, voire sur un bon processeur. Des outils comme Ollama et LM Studio détectent votre matériel et vous orientent. C'est tout l'esprit du coût maîtrisé : commencer modeste, progresser à son rythme.

À relier

La quantification — le levier n°1 pour économiser la VRAM.
La fenêtre de contexte — l'autre poste de consommation mémoire.
L'obsolescence du matériel — choisir sans surinvestir.
Coût et gratuité — commencer avec ce qu'on a.

L'idée en deux mots

Une bonne nouvelle

À relier

Continuer la lecture