/ Annuaire / Playground / VoiceMode
● Communauté mbailey 🔑 Nécessite votre clé

VoiceMode

par mbailey · mbailey/voicemode

Parlez à Claude Code, entendez-le répondre — codage mains libres pour le pair programming, l'accessibilité et les sessions en état de flow.

VoiceMode ajoute une voix bidirectionnelle naturelle à Claude Code via MCP. Utilise Whisper pour la reconnaissance vocale (local ou API) et un TTS configurable (OpenAI, ElevenLabs ou local). Fait tourner un petit pipeline audio en parallèle de votre serveur MCP. Fonctionne mieux pour les prompts courts et les lectures de révision, pas pour les monologues de 5 minutes.

Pourquoi l'utiliser

Fonctionnalités clés

Démo en direct

Aperçu en pratique

voicemode-mcp.replay ▶ prêt
0/0

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json
{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add voicemode-mcp -- uvx voice-mode

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : VoiceMode

Piloter une session Claude Code mains libres en lisant sur un autre écran

👤 Devs qui lisent de la doc ou des designs sur un écran pendant qu'ils codent ⏱ ~30 min intermediate

Quand l'utiliser : Vous lisez un document de design et voulez dicter des modifications sans Alt-Tab.

Prérequis
  • Microphone + haut-parleurs — Audio système configuré — testez avec say "hello" ou l'équivalent
  • Modèle Whisper prêtvoice-mode install-whisper télécharge le modèle local
Déroulement
  1. Démarrer la voix
    Utilise voicemode. Écoute les prompts et parle les réponses. Répète après moi : « prêt »✓ Copié
    → Le TTS joue « prêt »
  2. Dicter une modification
    [parlé] Mets à jour src/auth.ts — utilise bcrypt à la place de SHA256 brut pour les mots de passe.✓ Copié
    → Transcription correcte ; modification appliquée ; TTS confirme
  3. Réviser
    [parlé] Lis-moi le diff.✓ Copié
    → Le TTS lit le diff par morceaux, avec possibilité de pause

Résultat : Une session de travail où vos mains ne quittent jamais ce qu'elles faisaient.

Pièges
  • Le TTS parle par-dessus vos prompts — Activez le mode push-to-talk ou un mot de réveil
Combiner avec : filesystem

Coder par la voix pour l'accessibilité ou la récupération d'un TMS

👤 Devs avec TMS, malvoyants ou préférant la saisie vocale ⏱ ~60 min intermediate

Quand l'utiliser : Vous ne pouvez pas taper pendant un moment et avez besoin de continuer à livrer.

Prérequis
  • Bruit ambiant tolérable — Pièce calme ; un micro-casque est meilleur que le micro du portable
Déroulement
  1. Référence
    [parlé] Utilise voicemode. Lis-moi le dernier git diff à voix haute, en faisant une pause entre les fichiers.✓ Copié
    → Lecture TTS claire
  2. Flux de travail
    [parlé] Refactorise le modèle utilisateur dans src/models/user.ts. Déplace le hachage des mots de passe dans une méthode. Montre-moi le plan d'abord.✓ Copié
    → Plan énoncé ; confirmation requise avant les modifications

Résultat : Une session de codage complète sans saisie au clavier.

Pièges
  • Les symboles de code mal prononcés par le TTS — Configurez le dictionnaire de phonèmes TTS pour les termes de programmation courants

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

voicemode-mcp + filesystem

Les modifications de code dictées atterrissent dans le dépôt

Je vais dicter les modifications ; applique-les dans les fichiers après avoir lu chacune.✓ Copié
voicemode-mcp + github

Dicter une description de PR après avoir révisé le diff vocalement

Lis-moi les modifications en staging, puis ouvre une PR avec une description que je vais dicter.✓ Copié

Outils

Ce que ce MCP expose

OutilEntréesQuand appelerCoût
start_listening mode: "ptt"|"vad" Démarrer une session vocale free or OpenAI Whisper API
speak text: str, voice?: str Chaque fois que Claude veut diffuser quelque chose de manière audible TTS provider-dependent
transcribe_last none Récupérer ce que l'utilisateur vient de dire Whisper call
stop_listening none Terminer la session vocale free

Coût et limites

Coût d'exécution

Quota d'API
Local : gratuit. OpenAI Whisper : 0,006 $/min. ElevenLabs TTS : ~0,30 $/1k chars.
Tokens par appel
Les pipelines audio ne sont pas comptabilisés directement en tokens
Monétaire
Gratuit avec le stack local ; facturation à l'usage avec les fournisseurs cloud
Astuce
Whisper local + Coqui TTS est totalement gratuit mais moins qualitatif — commencez cloud, réduisez ensuite

Sécurité

Permissions, secrets, portée

Portées minimales : microphone speakers
Stockage des identifiants : Clés API TTS/STT en variables d'environnement
Sortie de données : Audio vocal vers le fournisseur TTS/STT si non local

Dépannage

Erreurs courantes et correctifs

Micro non détecté

Permission audio système — accordez l'accès micro au terminal/Claude Code

Vérifier : `voice-mode test-mic` prints levels
Le TTS sonne robotique

Par défaut c'est Coqui local — passez à OpenAI tts-1-hd via VOICE_MODE_TTS=openai

Délai entre ma parole et la réponse

Utilisez Whisper-tiny local pour la reconnaissance ; le cloud ajoute 500 ms+

Alternatives

VoiceMode vs autres

AlternativeQuand l'utiliserCompromis
macOS Dictation + say commandVous voulez juste une voix basique au niveau OSPas d'intégration avec la sortie de Claude — sens unique seulement
Superwhisper / Wispr FlowVous voulez une app de dictée macOS native soignéeNon intégré au MCP ; pas de flux de travail niveau agent

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills