Installer Ollama : le guide pas à pas

Ce guide est informatif et sans valeur de conseil. Les commandes ci-dessous reflètent le fonctionnement d'Ollama au moment de la rédaction. Comme tout logiciel évolue, vérifiez toujours la documentation officielle en cas de doute.

Étape 1 — Installer Ollama

Sur Windows et macOS

Rendez-vous sur ollama.com et téléchargez l'installeur correspondant à votre système. Lancez-le comme n'importe quelle application. Une fois installé, Ollama tourne en arrière-plan — sur Windows, son icône apparaît dans la barre des tâches près de l'horloge ; sur macOS, dans la barre de menus en haut.

Sur Windows, si vous voyez une alerte de sécurité Windows Defender au lancement, vous pouvez cliquer sur « Exécuter quand même » : c'est le comportement habituel pour un logiciel open source qui n'est pas signé par un grand éditeur. Vérifiez toujours que vous téléchargez bien depuis ollama.com.

Sur Linux

Ollama fournit un script d'installation officiel. Ouvrez un terminal et lancez :

curl -fsSL https://ollama.com/install.sh | sh

Bonne habitude : avant d'exécuter un script récupéré sur internet, on aime bien jeter un œil à son contenu. Vous pouvez l'ouvrir dans un navigateur à l'adresse ollama.com/install.sh pour voir ce qu'il fait avant de l'exécuter.

Étape 2 — Vérifier que tout fonctionne

Ouvrez un terminal (l'invite de commande ou PowerShell sur Windows, le Terminal sur macOS/Linux) et tapez :

ollama --version

Si une version s'affiche (par exemple ollama version 0.6.x), l'installation est réussie. Si la commande n'est pas reconnue, fermez et rouvrez le terminal, puis réessayez — l'installation peut avoir besoin d'un redémarrage du terminal pour être prise en compte.

Étape 3 — Lancer votre premier modèle

C'est là que la magie opère. Pour télécharger et lancer un modèle, une seule commande suffit. Commençons par un modèle léger, idéal pour une première fois :

ollama run llama3.2

La première fois, Ollama télécharge le modèle (environ 2 Go pour llama3.2 — cela peut prendre quelques minutes selon votre connexion). La progression s'affiche dans le terminal. Ensuite, une invite apparaît : vous pouvez discuter directement dans le terminal.

>>> Bonjour, peux-tu te présenter en une phrase ?

Pour quitter la conversation, tapez /bye ou utilisez Ctrl + D.

Quelques modèles pour débuter

Selon votre matériel et votre curiosité, vous pouvez essayer d'autres modèles. Voici ceux que nous testons le plus souvent — tous disponibles dans la bibliothèque officielle sur ollama.com/library :

# Mistral 7B — généraliste, très solide en français
ollama run mistral

# Gemma3 de Google — bon rapport taille/qualité
ollama run gemma3

# Qwen3 d'Alibaba — performant sur le code et le multilingual
ollama run qwen3

# Version ultra-légère de Llama 3.2 — tourne sur presque tout
ollama run llama3.2:1b

Les modèles « petits » (1B à 3B de paramètres) répondent vite, même sans carte graphique. Les plus gros (7B et au-delà) sont souvent plus fins mais demandent plus de mémoire. Si votre machine rame, choisissez un modèle plus léger : c'est normal, on ajuste selon ses moyens.

Avant tout usage professionnel, vérifiez la licence du modèle — elle varie selon les éditeurs. Elle est indiquée sur la page de chaque modèle sur Hugging Face ou sur ollama.com/library.

Étape 4 — Les commandes utiles au quotidien

Quelques commandes qui reviennent souvent :

# Lister les modèles déjà installés chez vous
ollama list

# Télécharger un modèle sans le lancer tout de suite
ollama pull mistral

# Voir les modèles en cours d'exécution
ollama ps

# Supprimer un modèle pour libérer de l'espace disque
ollama rm llama3.2

# Afficher la version d'Ollama installée
ollama --version

Les modèles peuvent occuper plusieurs gigaoctets sur votre disque. La commande ollama list aide à garder un œil sur ce qui est installé, et ollama rm à faire le ménage quand on veut récupérer de l'espace.

Étape 5 — Utiliser Ollama dans vos applications (optionnel)

Une fois lancé, Ollama expose une petite API locale sur votre machine, par défaut à l'adresse http://localhost:11434. Tout reste donc chez vous. Voici un exemple d'appel simple depuis un terminal :

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Explique en une phrase ce qu'est une IA locale.",
  "stream": false
}'

Cette API est compatible avec le format OpenAI, ce qui permet de la brancher à beaucoup d'outils existants sans modification. Beaucoup de gens ajoutent une interface graphique conviviale comme Open WebUI, pour discuter dans une fenêtre de navigateur plutôt que dans le terminal — avec un historique de conversations, la gestion de plusieurs modèles, et même une option multi-utilisateurs.

Et si je veux désinstaller ?

Aucun souci, on garde la main. Sur Windows et macOS, on désinstalle Ollama comme une application classique (Paramètres > Applications sur Windows, glisser dans la Corbeille sur macOS). Sur Linux, suivez la procédure de désinstallation décrite dans la documentation officielle sur GitHub. Pensez aussi à supprimer les modèles téléchargés avec ollama rm avant, ou à effacer le dossier de modèles manuellement pour récupérer tout l'espace disque.

En résumé

Avec Ollama, faire ses premiers pas avec une IA locale tient en trois temps : installer, lancer ollama run, discuter. Pas de cloud, pas d'abonnement, vos échanges restent sur votre machine.

C'est exactement l'esprit d'OSFRIA : on partage ce qu'on a trouvé, pour que chacun puisse essayer.

Vous avez installé votre première IA locale ? Bravo. Pour comprendre les enjeux de confidentialité derrière tout ça, lisez nos pistes sur l'IA souveraine. Et si vous souhaitez aller plus loin, l'écosystème toulousain de Sébastien Vidotto propose des repères : IIAT accompagne les projets, LIGNEIA forme à l'IA.

FAQ — questions après l'installation

Ollama est-il lancé automatiquement au démarrage de l'ordinateur ?

Oui, par défaut sur Windows et macOS, Ollama se lance au démarrage et tourne en arrière-plan. C'est pratique pour l'avoir toujours disponible. Si vous préférez le contrôler manuellement, vous pouvez désactiver ce comportement dans les paramètres de l'application (icône dans la barre des tâches ou la barre de menus > Préférences).

Le téléchargement du modèle prend trop longtemps. Que faire ?

Les modèles sont volumineux : llama3.2 pèse environ 2 Go, mistral environ 4 Go. Sur une connexion lente, comptez quelques dizaines de minutes. La bonne nouvelle : une fois téléchargé, le modèle est stocké sur votre disque et ne se re-télécharge pas. Si le téléchargement est interrompu, relancez simplement la même commande : Ollama reprend où il s'est arrêté.

Mon ordinateur rame quand je lance le modèle. Est-ce normal ?

C'est courant, surtout sans carte graphique dédiée. L'inférence (le calcul qui produit les réponses) sollicite le processeur ou la mémoire vive selon votre configuration. La première réponse peut prendre plusieurs secondes — les suivantes dans la même session sont généralement plus rapides. Si c'est trop lent, essayez un modèle plus petit : ollama run llama3.2:1b est nettement moins gourmand.

Comment savoir si Ollama utilise ma carte graphique ?

Lancez ollama ps pendant qu'un modèle tourne : la colonne « Processor » indique si le calcul se fait sur le GPU ou sur le CPU. Sur une machine sans GPU compatible (ou avec peu de VRAM), Ollama bascule automatiquement sur le CPU — c'est plus lent mais ça fonctionne. Sur NVIDIA, assurez-vous d'avoir les pilotes CUDA à jour pour que le GPU soit détecté.

Installer Ollama, pas à pas