OSFRIA Découvrir les outils

OSIALab · Voix & synthèse

Piper TTS — synthèse vocale locale, légère et gratuite

Piper est un moteur de synthèse vocale (text-to-speech) qui fonctionne entièrement en local, sans connexion internet. Il produit une voix naturelle en quelques millisecondes, même sur un Raspberry Pi.

Cette page est informative et sans valeur de conseil. Téléchargez toujours depuis la source officielle de chaque outil, vérifiez la licence du logiciel et des voix, et gardez en tête que la qualité varie selon le modèle utilisé.

À quoi ça sert

Piper TTS transforme du texte en parole synthétique. Il est conçu pour être rapide et léger : pas de GPU nécessaire, pas de connexion cloud. On l'utilise pour lire des documents à voix haute, créer des assistants vocaux locaux, automatiser la lecture de notifications, ou intégrer la voix dans des applications. Des voix françaises de qualité correcte sont disponibles.

Pour qui

Pour toute personne souhaitant ajouter de la synthèse vocale à un projet sans passer par un service cloud payant. L'installation en binaire est accessible même sans maîtriser Python. Les intégrateurs apprécieront son API simple et sa faible empreinte.

Installation

Via le binaire précompilé (recommandé)

Rendez-vous sur la page des releases GitHub : github.com/rhasspy/piper. Téléchargez l'archive correspondant à votre système (Linux x86_64, ARM, macOS, Windows).

# Exemple Linux x86_64
wget https://github.com/rhasspy/piper/releases/latest/download/piper_linux_x86_64.tar.gz
tar -xf piper_linux_x86_64.tar.gz
cd piper

Télécharger une voix française

Les voix sont des fichiers .onnx et .onnx.json à télécharger séparément depuis le dépôt de voix Piper :

# Exemple : voix française "fr_FR-siwis-medium"
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/fr/fr_FR/siwis/medium/fr_FR-siwis-medium.onnx
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/fr/fr_FR/siwis/medium/fr_FR-siwis-medium.onnx.json

Synthétiser de la voix

# Lire un texte et l'envoyer vers les haut-parleurs
echo "Bonjour, ceci est un test de synthèse vocale locale." | \
  ./piper --model fr_FR-siwis-medium.onnx --output_raw | \
  aplay -r 22050 -f S16_LE -t raw -

# Sauvegarder dans un fichier WAV
echo "Mon texte à synthétiser." | \
  ./piper --model fr_FR-siwis-medium.onnx --output_file sortie.wav

Via pip (alternative Python)

pip install piper-tts

# Utilisation
echo "Bonjour !" | piper --model fr_FR-siwis-medium.onnx --output_file sortie.wav

Précautions d'usage

  • Vérifiez la licence de chaque voix. Piper (le logiciel) est sous licence MIT. Mais chaque voix a sa propre licence (CC0, CC-BY, etc.). Lisez-la avant tout usage commercial ou de diffusion publique.
  • Clonage vocal. Piper ne clone pas des voix réelles — il utilise des voix entraînées avec le consentement des locuteurs. Si vous envisagez de créer une voix personnalisée ressemblant à une personne réelle, c'est un sujet éthique et légal distinct, qui dépasse le cadre de Piper.
  • Usage trompeur. Utiliser une voix synthétique pour faire croire qu'une personne réelle a dit quelque chose est une pratique trompeuse — voire illégale. Indiquez toujours si une voix est synthétique.
  • Qualité variable selon le modèle. Les voix « medium » et « high » sont plus naturelles que « low ». Le résultat reste synthétique et peut être reconnu comme tel.

Matrice de risque

Risque Niveau Mitigation
Envoi de données texte vers le cloud 🟢 Faible — 100% local Ne pas connecter Piper à un service tiers
Licence de voix inadaptée à l'usage 🟡 Moyen Lire la licence de chaque voix avant diffusion publique ou usage commercial
Usage trompeur ou désinformation vocale 🔴 Élevé Indiquer explicitement qu'une voix est synthétique ; ne pas usurper une identité
Qualité insuffisante pour un usage professionnel 🟡 Moyen Tester plusieurs modèles ; valider la qualité avant diffusion

Sécurité

Piper fonctionne entièrement hors ligne. Points d'attention :

  • Téléchargez uniquement depuis GitHub (rhasspy/piper) et Hugging Face officiel. Des binaires non officiels peuvent contenir du code malveillant.
  • Vérifiez les checksums si disponibles. Pour les environnements sensibles, comparez le hash du fichier téléchargé.
  • Mettez à jour le binaire. Les nouvelles versions corrigent des bugs et améliorent la qualité vocale.

Aller plus loin

  • whisper.cpp — l'inverse : de la parole vers le texte, en local.
  • Bark — synthèse vocale plus expressive, mais plus lourde.
  • FFmpeg — convertir ou traiter les fichiers audio produits.
  • OSIALab — explorer tous les outils vocaux.

Sources