OSFRIA Découvrir les outils

OSIALab · Moteur avancé

llama.cpp — le moteur open source de référence

llama.cpp est le moteur open source « bas niveau » pour faire tourner des modèles de langage directement sur votre matériel (CPU ou GPU). C'est celui sur lequel reposent Ollama et d'autres outils. Pour utilisateurs à l'aise avec un terminal et curieux de comprendre comment ça fonctionne.

Cette page est informative et sans valeur de conseil. Téléchargez toujours depuis la source officielle de chaque outil, vérifiez la licence du logiciel et des modèles, et gardez en tête qu'un modèle d'IA peut se tromper : croisez les informations importantes.

À quoi ça sert

llama.cpp est un moteur bas niveau — un programme en ligne de commande qui charge un modèle de langage et le fait tourner sur votre machine. Contrairement à Ollama (qui cache la complexité), llama.cpp vous laisse davantage de contrôle et de flexibilité. C'est celui qu'utilisent les développeurs et les curieux techniques.

Attention : llama.cpp n'est pas une interface graphique. Pas de bouton, pas de menu — juste des commandes. Si vous cherchez à démarrer rapidement, Ollama est beaucoup plus accessible.

Pour qui

Pour utilisateurs à l'aise avec un terminal, développeurs, ou curieux techniques souhaitant comprendre comment fonctionne l'inférence locale « sous le capot ». Si cela vous semble trop compliqué, utilisez plutôt Ollama, qui repose dessus mais vous épargne les détails.

Installation

Télécharger les binaires précompilés

Rendez-vous sur le dépôt officiel : github.com/ggerganov/llama.cpp.

Ouvrez l'onglet « Releases » et téléchargez la dernière version pour votre système d'exploitation (Windows, macOS ou Linux). Les binaires précompilés incluent tout ce dont vous avez besoin.

Compiler depuis les sources (optionnel)

Si les binaires précompilés ne fonctionnent pas sur votre système, vous pouvez compiler llama.cpp vous-même. Le dépôt officiel contient un `Makefile` et des instructions — consultez le README.

Obtenir un modèle au format GGUF

llama.cpp fonctionne avec des modèles au format GGUF (un format optimisé pour l'inférence CPU). Vous pouvez les trouver sur Hugging Face.

Cherchez un modèle (par exemple « llama-2-7b-gguf ») et téléchargez le fichier `.gguf`.

Lancer une inférence

Une fois le modèle téléchargé, lancez une commande comme celle-ci :

./llama-cli -m chemin/vers/modele.gguf -n 256 -p "Explique en une phrase ce qu'est une IA locale."

Les options principales :

  • -m : chemin vers le modèle GGUF
  • -n : nombre de tokens à générer
  • -p : le « prompt » (votre question)

Lancer un serveur API (optionnel)

llama.cpp peut aussi lancer un serveur API compatible OpenAI :

./llama-server -m chemin/vers/modele.gguf -ngl 32

Le serveur écoute par défaut sur http://localhost:8000. Vous pouvez ensuite le connecter à d'autres outils ou applications.

Précautions d'usage

  • Le niveau de difficulté est réel. Compilation, formats de fichiers, paramètres en ligne de commande — prévoyez du temps d'apprentissage.
  • Les modèles GGUF se trouvent sur Hugging Face. Vérifiez toujours la source et la licence avant de télécharger.
  • La mémoire dépend du modèle et de la quantification. Un modèle GGUF de 7 milliards de paramètres peut varier de 4 Go à 13 Go selon le niveau de quantification. Consultez les notes du modèle.
  • Les modèles peuvent se tromper. Comme n'importe quel modèle, ne suivez pas un conseil important sans vérifier.
  • Les options évoluent fréquemment. Référez-vous toujours au `README` du dépôt pour votre version.

Matrice de risque

Risque Niveau Mitigation
Fuite de données vers le cloud 🟢 Faible — tout reste local Garder l'usage local, éviter les options API distantes
Modèle GGUF depuis une source non fiable 🟡 Moyen Télécharger uniquement depuis Hugging Face ou dépôts officiels identifiés
Licence du modèle non respectée 🟡 Moyen Lire la licence avant usage, en particulier professionnel
Consommation mémoire excessive 🟡 Moyen Choisir un niveau de quantification adapté ; tester d'abord sur une machine disposant assez de RAM
Réponse erronée du modèle 🟡 Moyen Vérifier, croiser les sources
Complexité technique 🟡 Moyen Commencer par un tutoriel officiel ; ne pas hésiter à utiliser Ollama comme couche d'abstraction

Sécurité

Toute l'inférence se passe sur votre machine — rien n'est envoyé en ligne. Pensez à :

  • Mettez llama.cpp à jour régulièrement. Les mises à jour de sécurité et corrections arrivent fréquemment.
  • Téléchargez toujours depuis le dépôt officiel. Ne compilez que depuis des sources de confiance.
  • Si vous lancez un serveur API, sécurisez l'accès. Le serveur écoute par défaut sur `localhost` — c'est sûr. Ne l'exposez pas sur Internet sans authentification.
  • Vérifiez la licence du modèle GGUF. Elle figure sur la page Hugging Face.

Aller plus loin

Sources