Ollama — faire tourner une IA locale en quelques commandes

Page informative, sans valeur de conseil. Téléchargez depuis la source officielle, vérifiez la licence du logiciel et de chaque modèle, et gardez en tête qu'un modèle de langage peut se tromper : croisez les informations importantes.

À quoi ça sert

Ollama est un moteur d'exécution pour modèles de langage open source — Llama, Mistral, Qwen, Gemma, Phi et bien d'autres. Il s'appuie sur le moteur llama.cpp et y ajoute ce qui simplifie tout : un catalogue de modèles prêts à l'emploi, la gestion automatique du téléchargement et de la mémoire, et une API locale. Une commande — ollama run mistral — télécharge le modèle, le charge et ouvre la conversation. Tout se passe sur votre poste : aucune donnée ne part en ligne.

Ce qui fait sa force

Tous les modèles, en une commande. Le catalogue est immense (Llama, Mistral, Qwen, Gemma, Phi, DeepSeek…) et passer de l'un à l'autre tient en une ligne — idéal pour comparer et trouver celui qui convient à votre machine.
Local par défaut, ouvrable si besoin. Vos données restent chez vous ; et le jour où vous voulez servir le modèle à d'autres postes ou applications, vous pouvez l'exposer. Vous gardez le choix.
Une API au format OpenAI. Ollama expose un point d'accès compatible avec l'API d'OpenAI : un script ou une application déjà prévus pour OpenAI fonctionnent en pointant simplement vers Ollama, sans réécrire le code. C'est ce qui le rend si pratique en développement et dans les projets open source.
Connectable partout. Des dizaines d'interfaces et d'outils s'y branchent directement — Open WebUI, extensions d'éditeurs de code, outils d'automatisation, agents…
Un standard de fait. Arrivé tôt et adopté massivement, Ollama est aujourd'hui intégré dans une grande partie de l'écosystème de l'IA locale : une base sûre pour démarrer comme pour construire.

Pour qui

Idéal pour quelqu'un à l'aise avec un terminal et qui veut démarrer vite. Si vous préférez une interface graphique sans ligne de commande, regardez plutôt GPT4All, LM Studio ou Jan — dont plusieurs s'appuient, en coulisses, sur le même moteur.

Installation

Télécharger et installer

Source officielle : ollama.com. Sous Windows et macOS, un installeur graphique ; sous Linux, le script officiel :

curl -fsSL https://ollama.com/install.sh | sh

Vérifier l'installation

ollama --version

Si un numéro de version s'affiche, tout est en place.

Lancer votre premier modèle

Pour télécharger et lancer un modèle en une commande :

ollama run llama3.2

La première fois, Ollama télécharge le modèle (durée selon votre connexion). Ensuite, vous discutez directement dans le terminal.

Commandes utiles

# Lister les modèles installés
ollama list

# Télécharger un modèle sans le lancer
ollama pull mistral

# Voir ce qui tourne en mémoire
ollama ps

# Supprimer un modèle (libérer de l'espace disque)
ollama rm llama3.2

# Quitter une conversation
/bye

Bien choisir son modèle

La taille d'un modèle (3B, 7B, 8B, 13B… milliards de paramètres) détermine la mémoire nécessaire. Repère simple : comptez environ la taille du fichier en RAM (ou en VRAM si vous avez un GPU). Un 7B quantifié pèse ~4 à 5 Go ; un 3B, ~2 Go. Sur une machine modeste, commencez par un 3B ou 7B quantifié (suffixe q4). Le GPU accélère nettement, mais n'est pas obligatoire : Ollama tourne aussi sur processeur.

Aller plus loin : l'API en local

Une fois lancé, Ollama expose une API sur http://localhost:11434 — API native et point d'accès compatible OpenAI sur /v1. C'est par là qu'on branche une interface web, un éditeur de code ou ses propres scripts, toujours en local. Pour pointer un outil « OpenAI » vers Ollama, il suffit en général de remplacer l'URL de base par celle d'Ollama.

Points de vigilance

Ollama est un outil sain : tout reste local par défaut, et un modèle trop lourd ne fait que ralentir la machine — sans rien casser ni exposer vos données. Les deux vrais points à garder en tête concernent donc moins l'outil que ce qu'on lui demande :

Point d'attention	Niveau	Ce qu'il faut savoir
Licence du modèle (≠ celle d'Ollama)	🟡 selon le modèle	Ollama est sous licence MIT (permissive), mais chaque modèle a la sienne : Llama et Gemma imposent des conditions d'usage, Mistral et Qwen (Apache 2.0) sont plus souples. À vérifier avant un usage commercial.
Sécuriser l'API si vous l'exposez	🟡 selon configuration	L'API (port 11434) écoute en local et sans authentification. C'est parfait en local ; mais si vous la publiez sur le réseau (`OLLAMA_HOST=0.0.0.0`), placez-la derrière un pare-feu ou un proxy authentifié. Ne l'exposez jamais directement sur Internet.
CVE 2025-2026 — tenir à jour	🟡 réel	Plusieurs vulnérabilités ont été corrigées dans Ollama en 2025 et 2026 (dont des failles liées à l'exposition réseau). La règle d'or : tenez Ollama à jour systématiquement et ne l'exposez pas sur Internet sans protection. Vérifiez les releases sur GitHub.

Sécurité

Gardez l'API en local par défaut (port 11434 sur localhost). Ne l'exposez sur Internet qu'avec une couche d'authentification (reverse-proxy, VPN, pare-feu).
Téléchargez les modèles depuis des sources fiables — le registre officiel ollama.com/library ou des dépôts réputés (Hugging Face). Un modèle GGUF, ce sont des poids, pas du code exécuté ; privilégiez tout de même les sources de confiance.
Tenez Ollama à jour pour bénéficier des correctifs.

Aller plus loin

Guide complet : installer Ollama pas à pas — toutes les étapes en détail.
Open WebUI — une interface web confortable pour piloter Ollama.
llama.cpp — le moteur bas niveau sur lequel Ollama s'appuie.
La quantification · GPU et VRAM — bien choisir la taille d'un modèle.
Les modèles européens — Mistral et consorts, en local.
OSIALab — comparer Ollama avec GPT4All, LM Studio et Jan.

Sources

Site officiel : ollama.com
Code source & licence (MIT) : github.com/ollama/ollama
Bibliothèque de modèles : ollama.com/library

Ollama — faire tourner des modèles d'IA en local