IA locale : faire tourner une IA chez soi

Qu'est-ce qu'une IA locale ?

Une IA locale, c'est un modèle de langage (ou d'image, de voix...) installé et exécuté sur votre propre machine. Quand vous posez une question, le calcul se fait chez vous. Rien n'est envoyé sur un serveur distant.

C'est rendu possible par deux choses :

Des modèles open source (comme la famille Llama de Meta, Mistral en France, Gemma de Google, Qwen d'Alibaba et bien d'autres), publiés librement et téléchargeables gratuitement.
Des outils gratuits qui simplifient leur installation : Ollama (en ligne de commande), LM Studio (interface graphique), Jan (chat épuré), ou encore Open WebUI (interface web auto-hébergée).

Concrètement, à quoi ça ressemble ?

En pratique, une session d'IA locale peut ressembler à ça. Vous ouvrez un terminal, vous tapez ollama run llama3.2, et trente secondes plus tard vous discutez avec un modèle de langage — sur votre machine, hors ligne si vous le souhaitez, sans compte, sans abonnement, sans compteur de tokens.

Quelques usages concrets que nous avons testés ou observés :

Résumer un document interne — on colle le texte dans le prompt, le modèle en extrait l'essentiel. Rien ne quitte la machine.
Rédiger un premier jet — email, compte-rendu, proposition commerciale — sans envoyer le contexte à un tiers.
Poser des questions sur ses propres fichiers — avec des outils comme GPT4All (fonction LocalDocs) ou Open WebUI, on peut discuter avec ses PDF, ses notes, ses données internes.
Expérimenter sans risque — tester des prompts, comprendre comment un modèle raisonne, apprendre l'IA en faisant.

Pourquoi ça nous intéresse

On ne dira pas que l'IA locale est « meilleure » que les services en ligne. Chaque approche a ses forces. Mais voici ce qui nous séduit dans la version locale.

Vos échanges restent chez vous

Quand le modèle tourne sur votre ordinateur, vos questions et vos documents ne quittent pas votre machine. Pour qui manipule des informations sensibles — un dirigeant prudent, un indépendant, une association — c'est une tranquillité d'esprit qui compte. Un cabinet comptable qui analyse des bilans, un avocat qui reformule une clause, un médecin qui rédige une observation : autant de situations où garder les données sur place peut faire sens.

(Cela dit, la confidentialité dépend aussi de votre propre installation : il faut rester vigilant, rien n'est magique.)

Pas d'abonnement, pas de compteur

Les modèles open source sont gratuits. Une fois installés, vous pouvez les utiliser autant que vous voulez, sans facture à l'usage. Le seul coût, c'est l'électricité et le temps de calcul de votre machine.

Ça marche même hors ligne

Une IA locale fonctionne sans connexion internet. Pratique en déplacement, ou simplement rassurant : vous ne dépendez pas de la disponibilité d'un service tiers.

On apprend en faisant

Installer une IA chez soi, c'est aussi la meilleure façon de comprendre comment ça marche. On démystifie, on touche du doigt, on garde la main.

Et les limites, alors ?

Soyons honnêtes, l'IA locale n'est pas une solution miracle.

Les performances dépendent de votre matériel. Un grand modèle réclame de la mémoire et, idéalement, une carte graphique. Un modèle de 7 milliards de paramètres — ce qui est déjà capable — peut demander 8 Go de mémoire vive. Sur une machine modeste, on se tourne vers des modèles plus petits (1 à 3 milliards de paramètres) : plus rapides, parfois moins fins sur des tâches complexes.
La qualité ne rivalise pas avec les très grands modèles cloud. ChatGPT-4o, Claude et les grands modèles cloud propriétaires tournent sur des milliers de GPU. Un modèle local de 7B est honnête pour beaucoup d'usages courants, mais ne produira pas le même niveau de nuance sur des tâches pointues. C'est le compromis assumé de la confidentialité.
Les très gros modèles restent difficiles à faire tourner seul. Pour ceux-là, des infrastructures dédiées (françaises et de confiance, c'est possible) prennent le relais.
La mise en route demande un petit effort. Rien d'insurmontable, mais il faut suivre quelques étapes. C'est justement pour ça qu'on écrit des guides.

De quoi a-t-on besoin pour commencer ?

Bonne nouvelle : pour débuter, un ordinateur récent suffit souvent. À titre indicatif, et sans rien garantir car tout dépend du modèle choisi :

Pour un petit modèle (1B à 3B de paramètres) : n'importe quel ordinateur récent avec 8 Go de RAM peut faire tourner un premier modèle, même sans carte graphique dédiée. La réponse sera un peu lente, mais ça fonctionne.
Pour un modèle intermédiaire (7B) : 16 Go de RAM sont confortables. Une carte graphique NVIDIA ou AMD avec 6 à 8 Go de VRAM accélère nettement les choses.
Pour un modèle plus costaud (13B et au-delà) : davantage de mémoire, et une carte graphique bien équipée. C'est là que les configurations dédiées font la différence.
Système : Windows, macOS ou Linux — les principaux outils fonctionnent sur les trois.

Le mieux reste d'essayer avec un petit modèle, de voir comment votre machine réagit, puis d'ajuster. On commence petit, on monte en puissance ensuite.

Par où démarrer concrètement

Le chemin le plus simple que nous ayons trouvé pour faire ses premiers pas, c'est Ollama. C'est gratuit, open source, et ça fonctionne en quelques commandes. Pour ceux qui préfèrent éviter tout terminal, LM Studio ou Jan proposent une interface graphique complète, sans ligne de commande du tout.

Suivez notre guide pas à pas pour installer Ollama.
Ou explorez OSIALab pour un tour d'horizon de tous les outils.
Pour bien choisir un modèle selon votre machine : la quantification et GPU et VRAM.
Côté sobriété, voyez l'empreinte énergétique de l'IA — le local est une piste sobre.
Si la confidentialité vous occupe l'esprit, jetez un œil à nos pistes de réflexion sur l'IA souveraine.

OSFRIA partage ces ressources gratuitement, dans l'esprit du projet. Si vous voulez approfondir, l'écosystème toulousain autour de Sébastien Vidotto propose des repères complémentaires : LIGNEIA pour se former, IIAT pour l'accompagnement. Aucune obligation : ici, on partage d'abord.

FAQ — vos questions fréquentes

Est-ce que mes données sont vraiment protégées avec une IA locale ?

Lorsqu'un modèle tourne sur votre machine avec un outil comme Ollama ou LM Studio, les échanges restent en local : rien n'est envoyé à un serveur distant lors de l'inférence. C'est une différence concrète par rapport aux services cloud. Cela dit, ce n'est pas une protection magique : si votre machine est connectée à internet et mal sécurisée, d'autres risques existent. La prudence reste de mise, en local comme ailleurs. Pour les sujets sensibles à enjeu juridique, rapprochez-vous de professionnels qualifiés et des sources officielles (CNIL, ANSSI).

Ça marche sur quel type d'ordinateur ?

Sur la plupart des ordinateurs récents. Un PC sous Windows avec 8 Go de RAM peut déjà faire tourner un petit modèle (Llama 3.2 1B ou 3B, Mistral 7B en quantifié). Un Mac Apple Silicon (M1, M2, M3…) est particulièrement bien adapté grâce à sa mémoire unifiée. Linux fonctionne aussi très bien. L'expérience sera plus fluide avec une carte graphique, mais ce n'est pas obligatoire pour commencer.

Quels modèles choisir pour débuter ?

Pour un premier essai, on recommande de commencer par llama3.2 (3B) ou mistral (7B) via Ollama : légers, rapides, bien documentés. Si votre machine est modeste, llama3.2:1b fonctionne sur presque tout. Ensuite, explorez selon votre usage : Qwen3 est réputé pour les langues asiatiques et le code, Gemma3 pour les tâches courtes. Les licences varient : lisez-les avant tout usage professionnel (disponibles sur Hugging Face).

L'IA locale peut-elle se tromper ?

Oui, tout comme les IA en ligne. Les modèles de langage peuvent produire des informations inexactes — on appelle ça des « hallucinations ». Un modèle local de 7 milliards de paramètres est capable et utile pour beaucoup de tâches courantes, mais il n'est pas infaillible. Traitez ses réponses comme des pistes à vérifier, pas comme des certitudes. Sur des sujets importants (santé, droit, finance), croisez toujours avec d'autres sources.