OSFRIA Découvrir les outils

OSIALab · Voix & transcription

faster-whisper — transcription vocale rapide et locale

faster-whisper est une réimplémentation du modèle Whisper basée sur CTranslate2. Elle offre une transcription vocale deux à quatre fois plus rapide que l'implémentation officielle, tout en restant entièrement locale.

Cette page est informative et sans valeur de conseil. Téléchargez toujours depuis la source officielle de chaque outil, vérifiez la licence du logiciel et des modèles, et gardez en tête qu'une transcription automatique peut se tromper : relisez avant tout usage important.

À quoi ça sert

faster-whisper transcrit des fichiers audio ou des flux en temps réel, en français comme dans de nombreuses autres langues. Grâce à la bibliothèque CTranslate2 et à la quantification des modèles, la vitesse de traitement est nettement supérieure à Whisper classique — sur CPU comme sur GPU. C'est l'option privilégiée quand on intègre la transcription dans un pipeline Python ou une application.

Pour qui

Pour les développeurs ou utilisateurs avancés à l'aise avec Python qui souhaitent intégrer une transcription performante dans leurs scripts ou applications. Si vous voulez une solution en ligne de commande simple sans Python, regardez plutôt whisper.cpp.

Installation

Prérequis

Python 3.8 ou supérieur, pip. Une carte graphique NVIDIA avec CUDA (optionnel mais recommandé pour les volumes importants).

Installer via pip

# Installation standard (CPU)
pip install faster-whisper

# Avec support GPU CUDA
pip install faster-whisper
# + installer les bibliothèques CUDA correspondantes (cuBLAS, cuDNN)

Utilisation en Python

from faster_whisper import WhisperModel

# Charger le modèle (small, medium, large-v3...)
model = WhisperModel("small", device="cpu", compute_type="int8")

# Transcrire un fichier
segments, info = model.transcribe("mon_audio.wav", language="fr")

for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

Choisir le bon modèle

# Modèles disponibles (du plus léger au plus précis)
# tiny, base, small, medium, large-v2, large-v3

# Sur CPU avec peu de RAM : tiny ou small
model = WhisperModel("small", device="cpu", compute_type="int8")

# Sur GPU NVIDIA : medium ou large pour plus de précision
model = WhisperModel("large-v3", device="cuda", compute_type="float16")

Transcription avec horodatage mot par mot

segments, info = model.transcribe(
    "mon_audio.wav",
    language="fr",
    word_timestamps=True
)

for segment in segments:
    for word in segment.words:
        print(f"[{word.start:.2f}s] {word.word}")

Précautions d'usage

  • Relisez toujours la transcription. Les erreurs sur les noms propres, termes techniques ou accents marqués sont fréquentes. Ne diffusez pas une transcription non relue.
  • Consentement des personnes enregistrées. Transcrire une voix sans accord est problématique sur le plan légal et éthique. Assurez-vous d'avoir les droits sur les enregistrements traités.
  • Données médicales, juridiques ou confidentielles. Le traitement est local, ce qui est un atout. Mais la sortie texte doit ensuite être protégée avec les mêmes précautions que les données source.
  • Licences. faster-whisper est sous licence MIT. Les modèles Whisper sont également MIT. Vérifiez tout modèle tiers avant usage commercial.

Matrice de risque

Risque Niveau Mitigation
Fuite de données vers le cloud 🟢 Faible — traitement 100% local Rester en usage local, ne pas connecter à une API distante
Transcription erronée 🟡 Moyen Relecture humaine systématique avant usage
Enregistrement sans consentement 🔴 Élevé Obtenir le consentement ; respecter le RGPD et le droit à l'image
Consommation mémoire élevée (grands modèles) 🟡 Moyen Choisir un modèle adapté au matériel disponible

Sécurité

Le traitement est intégralement local. Points d'attention :

  • Installez uniquement depuis PyPI officiel. La commande pip install faster-whisper depuis le PyPI officiel est la voie sûre. Méfiez-vous des paquets homonymes.
  • Protégez les fichiers audio et les transcriptions. Si vos enregistrements sont sensibles, chiffrez le dossier de travail.
  • Mettez à jour régulièrement. pip install --upgrade faster-whisper permet de bénéficier des correctifs.

Aller plus loin

  • whisper.cpp — alternative en C++ sans dépendance Python, pour la ligne de commande.
  • FFmpeg — convertir vos fichiers audio dans le format attendu.
  • Piper TTS — l'autre bout de la chaîne : synthétiser de la voix localement.
  • OSIALab — tous les outils voix et transcription.

Sources