OSFRIA Découvrir les outils

Cartographie · Concept

GPU et VRAM : le nerf de l'IA locale

La question la plus concrète quand on se lance : « est-ce que ça tournera sur ma machine ? » La réponse tient surtout dans un mot — la VRAM, la mémoire de la carte graphique.

Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.

L'idée en deux mots

Pour générer du texte vite, un modèle aime résider dans la VRAM, la mémoire dédiée du GPU (la carte graphique). Plus le modèle est gros, plus il en réclame. Un repère utile, une fois le modèle quantifié en 4 bits : comptez environ 8 Go de VRAM pour un modèle 7B, 10 à 12 Go pour un 13B, et bien davantage au-delà. Sans GPU, ça fonctionne quand même sur le processeur, mais plus lentement.

La fenêtre de contexte consomme elle aussi de la mémoire : un long contexte gonfle le besoin. D'où l'intérêt de bien doser quantification et taille de contexte selon sa carte. Côté RAM système, viser 32 Go confortable l'ensemble.

Une bonne nouvelle

On n'a pas besoin du dernier matériel hors de prix pour commencer. Beaucoup d'usages — discuter, résumer, coder, faire du RAG — tournent très bien sur une carte de gamme moyenne, voire sur un bon processeur. Des outils comme Ollama et LM Studio détectent votre matériel et vous orientent. C'est tout l'esprit du coût maîtrisé : commencer modeste, progresser à son rythme.

À relier