Cette page est informative et sans valeur de conseil. Téléchargez toujours depuis la source officielle de chaque outil, vérifiez la licence du logiciel et des modèles, et gardez en tête qu'un modèle d'IA peut se tromper : croisez les informations importantes.
À quoi ça sert
llama.cpp est un moteur bas niveau — un programme en ligne de commande qui charge un modèle de langage et le fait tourner sur votre machine. Contrairement à Ollama (qui cache la complexité), llama.cpp vous laisse davantage de contrôle et de flexibilité. C'est celui qu'utilisent les développeurs et les curieux techniques.
Attention : llama.cpp n'est pas une interface graphique. Pas de bouton, pas de menu — juste des commandes. Si vous cherchez à démarrer rapidement, Ollama est beaucoup plus accessible.
Pour qui
Pour utilisateurs à l'aise avec un terminal, développeurs, ou curieux techniques souhaitant comprendre comment fonctionne l'inférence locale « sous le capot ». Si cela vous semble trop compliqué, utilisez plutôt Ollama, qui repose dessus mais vous épargne les détails.
Installation
Télécharger les binaires précompilés
Rendez-vous sur le dépôt officiel : github.com/ggerganov/llama.cpp.
Ouvrez l'onglet « Releases » et téléchargez la dernière version pour votre système d'exploitation (Windows, macOS ou Linux). Les binaires précompilés incluent tout ce dont vous avez besoin.
Compiler depuis les sources (optionnel)
Si les binaires précompilés ne fonctionnent pas sur votre système, vous pouvez compiler
llama.cpp vous-même. Le dépôt officiel contient un `Makefile` et des instructions — consultez
le README.
Obtenir un modèle au format GGUF
llama.cpp fonctionne avec des modèles au format GGUF (un format optimisé pour l'inférence CPU). Vous pouvez les trouver sur Hugging Face.
Cherchez un modèle (par exemple « llama-2-7b-gguf ») et téléchargez le fichier `.gguf`.
Lancer une inférence
Une fois le modèle téléchargé, lancez une commande comme celle-ci :
./llama-cli -m chemin/vers/modele.gguf -n 256 -p "Explique en une phrase ce qu'est une IA locale."
Les options principales :
-m: chemin vers le modèle GGUF-n: nombre de tokens à générer-p: le « prompt » (votre question)
Lancer un serveur API (optionnel)
llama.cpp peut aussi lancer un serveur API compatible OpenAI :
./llama-server -m chemin/vers/modele.gguf -ngl 32
Le serveur écoute par défaut sur http://localhost:8000. Vous pouvez ensuite
le connecter à d'autres outils ou applications.
Précautions d'usage
- Le niveau de difficulté est réel. Compilation, formats de fichiers, paramètres en ligne de commande — prévoyez du temps d'apprentissage.
- Les modèles GGUF se trouvent sur Hugging Face. Vérifiez toujours la source et la licence avant de télécharger.
- La mémoire dépend du modèle et de la quantification. Un modèle GGUF de 7 milliards de paramètres peut varier de 4 Go à 13 Go selon le niveau de quantification. Consultez les notes du modèle.
- Les modèles peuvent se tromper. Comme n'importe quel modèle, ne suivez pas un conseil important sans vérifier.
- Les options évoluent fréquemment. Référez-vous toujours au `README` du dépôt pour votre version.
Matrice de risque
| Risque | Niveau | Mitigation |
|---|---|---|
| Fuite de données vers le cloud | 🟢 Faible — tout reste local | Garder l'usage local, éviter les options API distantes |
| Modèle GGUF depuis une source non fiable | 🟡 Moyen | Télécharger uniquement depuis Hugging Face ou dépôts officiels identifiés |
| Licence du modèle non respectée | 🟡 Moyen | Lire la licence avant usage, en particulier professionnel |
| Consommation mémoire excessive | 🟡 Moyen | Choisir un niveau de quantification adapté ; tester d'abord sur une machine disposant assez de RAM |
| Réponse erronée du modèle | 🟡 Moyen | Vérifier, croiser les sources |
| Complexité technique | 🟡 Moyen | Commencer par un tutoriel officiel ; ne pas hésiter à utiliser Ollama comme couche d'abstraction |
Sécurité
Toute l'inférence se passe sur votre machine — rien n'est envoyé en ligne. Pensez à :
- Mettez llama.cpp à jour régulièrement. Les mises à jour de sécurité et corrections arrivent fréquemment.
- Téléchargez toujours depuis le dépôt officiel. Ne compilez que depuis des sources de confiance.
- Si vous lancez un serveur API, sécurisez l'accès. Le serveur écoute par défaut sur `localhost` — c'est sûr. Ne l'exposez pas sur Internet sans authentification.
- Vérifiez la licence du modèle GGUF. Elle figure sur la page Hugging Face.
Aller plus loin
- Dépôt officiel llama.cpp — documentation complète et notes de release.
- Modèles GGUF sur Hugging Face — consultez chaque licence avant utilisation.
- Ollama — version beaucoup plus accessible de llama.cpp.
- OSIALab — comparer tous les outils d'IA locale.
Sources
- Dépôt officiel : github.com/ggerganov/llama.cpp
- Documentation : README officiel
- Modèles GGUF : huggingface.co/models?library=gguf