OSFRIA Découvrir les outils

OSIALab · Voix & transcription

whisper.cpp — transcription vocale locale sans cloud

whisper.cpp est une implémentation légère du modèle Whisper d'OpenAI, entièrement locale. Elle transcrit la parole en texte sur votre propre machine, sans envoyer un seul octet vers un serveur distant.

Cette page est informative et sans valeur de conseil. Téléchargez toujours depuis la source officielle de chaque outil, vérifiez la licence du logiciel et des modèles, et gardez en tête qu'un modèle d'IA peut se tromper : relisez toujours une transcription avant de l'utiliser.

À quoi ça sert

whisper.cpp reconnaît la parole dans un fichier audio ou en temps réel et la convertit en texte. Il supporte des dizaines de langues dont le français. Conçu pour être léger, il fonctionne même sur un ordinateur modeste — CPU uniquement, sans carte graphique. On l'utilise pour transcrire des réunions, des interviews, des vidéos, ou pour alimenter des pipelines d'analyse de voix.

Pour qui

Idéal pour quelqu'un à l'aise avec un terminal qui veut une transcription rapide, locale et gratuite. Si vous cherchez une solution clé en main avec interface graphique, regardez plutôt des outils qui intègrent whisper.cpp sous le capot, comme Open WebUI (voix vers texte) ou des frontends dédiés.

Installation

Prérequis

Un compilateur C++ (GCC ou Clang sur Linux/macOS, MSVC ou MinGW sur Windows), git, et make.

Compiler depuis les sources

git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
make

Télécharger un modèle

whisper.cpp propose un script de téléchargement des modèles officiels (base, small, medium, large) :

# Modèle « small » — bon équilibre vitesse/qualité
bash ./models/download-ggml-model.sh small

# Modèle « medium » pour une meilleure précision
bash ./models/download-ggml-model.sh medium

Transcrire un fichier audio

# Convertir d'abord en WAV 16 kHz si nécessaire (avec ffmpeg)
ffmpeg -i mon_audio.mp3 -ar 16000 -ac 1 -c:a pcm_s16le mon_audio.wav

# Lancer la transcription
./main -m models/ggml-small.bin -f mon_audio.wav -l fr

Options utiles

# Sortie en SRT (sous-titres)
./main -m models/ggml-small.bin -f mon_audio.wav -l fr -osrt

# Afficher les timestamps mot par mot
./main -m models/ggml-small.bin -f mon_audio.wav -l fr -owts

# Transcription en temps réel (microphone)
./stream -m models/ggml-small.bin -l fr

Précautions d'usage

  • La transcription n'est pas parfaite. Le modèle peut se tromper sur des noms propres, des accents marqués ou des termes techniques. Relisez systématiquement avant d'utiliser le résultat.
  • Données sensibles. Le traitement est local — c'est l'avantage. Mais les fichiers audio restent sur votre disque : gérez-les avec la même précaution que n'importe quel document confidentiel.
  • La licence du modèle. Les modèles Whisper sont publiés sous licence MIT. Le code de whisper.cpp est également MIT. Vérifiez la licence de tout modèle tiers avant usage professionnel.
  • Performances selon le matériel. Les grands modèles (large) nécessitent beaucoup de RAM. Commencez par small ou medium et ajustez selon vos résultats.

Matrice de risque

Risque Niveau Mitigation
Fuite de données audio vers le cloud 🟢 Faible — traitement 100% local Ne pas connecter l'outil à un service distant
Erreur de transcription 🟡 Moyen Relecture humaine systématique avant usage
Utilisation sur des enregistrements sans consentement 🔴 Élevé Obtenir le consentement des personnes enregistrées ; respecter le RGPD
Saturation mémoire avec un grand modèle 🟡 Moyen Choisir un modèle adapté à la RAM disponible

Sécurité

Le traitement reste intégralement sur votre poste. Quelques points à surveiller :

  • Ne compilez que depuis la source officielle. Vérifiez l'URL du dépôt : github.com/ggml-org/whisper.cpp.
  • Mettez à jour régulièrement. Le projet évolue vite : les mises à jour apportent des corrections de bugs et parfois de sécurité.
  • Gérez les fichiers audio comme des données sensibles. Si les enregistrements contiennent des informations confidentielles, chiffrez le dossier de stockage.

Aller plus loin

  • faster-whisper — une implémentation Python plus rapide, basée sur CTranslate2.
  • FFmpeg — indispensable pour convertir vos fichiers audio avant transcription.
  • OSIALab — explorer tous les outils vocaux et de transcription.

Sources