VoiceMode MCP — Installer & Démo en direct

Pourquoi l'utiliser

Fonctionnalités clés

Option Whisper local — pas d'audio dans le cloud
Plusieurs backends TTS : OpenAI, ElevenLabs, Coqui local
Modes push-to-talk ou activation vocale
Diffuse les réponses partielles pour entendre Claude « réfléchir »
Fonctionne dans le terminal aux côtés du CLI Claude Code

Démo en direct

Aperçu en pratique

voicemode-mcp.replay ▶ prêt

0/0

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add voicemode-mcp -- uvx voice-mode

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : VoiceMode

Piloter une session Claude Code mains libres en lisant sur un autre écran

👤 Devs qui lisent de la doc ou des designs sur un écran pendant qu'ils codent ⏱ ~30 min intermediate

Quand l'utiliser : Vous lisez un document de design et voulez dicter des modifications sans Alt-Tab.

Prérequis

Microphone + haut-parleurs — Audio système configuré — testez avec say "hello" ou l'équivalent
Modèle Whisper prêt — voice-mode install-whisper télécharge le modèle local

Déroulement

Démarrer la voix

Utilise voicemode. Écoute les prompts et parle les réponses. Répète après moi : « prêt »✓ Copié

→ Le TTS joue « prêt »
Dicter une modification

[parlé] Mets à jour src/auth.ts — utilise bcrypt à la place de SHA256 brut pour les mots de passe.✓ Copié

→ Transcription correcte ; modification appliquée ; TTS confirme
Réviser

[parlé] Lis-moi le diff.✓ Copié

→ Le TTS lit le diff par morceaux, avec possibilité de pause

Résultat : Une session de travail où vos mains ne quittent jamais ce qu'elles faisaient.

Pièges

Le TTS parle par-dessus vos prompts — Activez le mode push-to-talk ou un mot de réveil

Combiner avec : filesystem

Coder par la voix pour l'accessibilité ou la récupération d'un TMS

👤 Devs avec TMS, malvoyants ou préférant la saisie vocale ⏱ ~60 min intermediate

Quand l'utiliser : Vous ne pouvez pas taper pendant un moment et avez besoin de continuer à livrer.

Prérequis

Bruit ambiant tolérable — Pièce calme ; un micro-casque est meilleur que le micro du portable

Déroulement

Référence

[parlé] Utilise voicemode. Lis-moi le dernier git diff à voix haute, en faisant une pause entre les fichiers.✓ Copié

→ Lecture TTS claire
Flux de travail

[parlé] Refactorise le modèle utilisateur dans src/models/user.ts. Déplace le hachage des mots de passe dans une méthode. Montre-moi le plan d'abord.✓ Copié

→ Plan énoncé ; confirmation requise avant les modifications

Résultat : Une session de codage complète sans saisie au clavier.

Pièges

Les symboles de code mal prononcés par le TTS — Configurez le dictionnaire de phonèmes TTS pour les termes de programmation courants

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

voicemode-mcp + filesystem

Les modifications de code dictées atterrissent dans le dépôt

Je vais dicter les modifications ; applique-les dans les fichiers après avoir lu chacune.✓ Copié

voicemode-mcp + github

Dicter une description de PR après avoir révisé le diff vocalement

Lis-moi les modifications en staging, puis ouvre une PR avec une description que je vais dicter.✓ Copié

Outils

Ce que ce MCP expose

Outil	Entrées	Quand appeler	Coût
start_listening	mode: "ptt"\|"vad"	Démarrer une session vocale	free or OpenAI Whisper API
speak	text: str, voice?: str	Chaque fois que Claude veut diffuser quelque chose de manière audible	TTS provider-dependent
transcribe_last	none	Récupérer ce que l'utilisateur vient de dire	Whisper call
stop_listening	none	Terminer la session vocale	free

Coût et limites

Coût d'exécution

Quota d'API: Local : gratuit. OpenAI Whisper : 0,006 $/min. ElevenLabs TTS : ~0,30 $/1k chars.
Tokens par appel: Les pipelines audio ne sont pas comptabilisés directement en tokens
Monétaire: Gratuit avec le stack local ; facturation à l'usage avec les fournisseurs cloud
Astuce: Whisper local + Coqui TTS est totalement gratuit mais moins qualitatif — commencez cloud, réduisez ensuite

Sécurité

Permissions, secrets, portée

Portées minimales : microphone speakers

Stockage des identifiants : Clés API TTS/STT en variables d'environnement

Sortie de données : Audio vocal vers le fournisseur TTS/STT si non local

N'utilisez jamais le STT cloud dans des appels avec de l'audio confidentiel sans faire confiance à la politique de rétention du fournisseur

Dépannage

Erreurs courantes et correctifs

Micro non détecté

Permission audio système — accordez l'accès micro au terminal/Claude Code

Vérifier : `voice-mode test-mic` prints levels

Le TTS sonne robotique

Par défaut c'est Coqui local — passez à OpenAI tts-1-hd via VOICE_MODE_TTS=openai

Délai entre ma parole et la réponse

Utilisez Whisper-tiny local pour la reconnaissance ; le cloud ajoute 500 ms+

Alternatives

VoiceMode vs autres

Alternative	Quand l'utiliser	Compromis
macOS Dictation + say command	Vous voulez juste une voix basique au niveau OS	Pas d'intégration avec la sortie de Claude — sens unique seulement
Superwhisper / Wispr Flow	Vous voulez une app de dictée macOS native soignée	Non intégré au MCP ; pas de flux de travail niveau agent

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills