/ Directorio / Playground / VoiceMode
● Comunidad mbailey 🔑 Requiere tu clave

VoiceMode

por mbailey · mbailey/voicemode

Habla con Claude Code y escucha sus respuestas — programación con manos libres para hacer pairing, accesibilidad y sesiones de flujo total.

VoiceMode añade voz bidireccional natural a Claude Code vía MCP. Usa Whisper para STT (local o API) y un TTS configurable (OpenAI, ElevenLabs o local). Ejecuta un pequeño pipeline de audio junto a tu servidor MCP. Funciona mejor para prompts cortos y lecturas de revisión, no para monólogos de 5 minutos.

Por qué usarlo

Características clave

Demo en vivo

Cómo se ve en la práctica

voicemode-mcp.replay ▶ listo
0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json
{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add voicemode-mcp -- uvx voice-mode

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: VoiceMode

Controlar una sesión de Claude Code con manos libres mientras lees en otra pantalla

👤 Desarrolladores que leen docs o diseños en un monitor mientras codifican ⏱ ~30 min intermediate

Cuándo usarlo: Estás leyendo un documento de diseño y quieres dictar cambios sin cambiar de ventana.

Requisitos previos
  • Micrófono y altavoces — Audio del sistema configurado — prueba con say "hello" o equivalente
  • Modelo Whisper listovoice-mode install-whisper descarga el modelo local
Flujo
  1. Iniciar voz
    Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ Copiado
    → TTS reproduce "ready"
  2. Dictar un cambio
    [spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ Copiado
    → Transcripción correcta; cambio aplicado; TTS confirma
  3. Revisar
    [spoken] Read me the diff.✓ Copiado
    → TTS lee el diff por fragmentos, con pausa posible

Resultado: Una sesión funcional en la que tus manos no se apartan de lo que estaban haciendo.

Errores comunes
  • El TTS habla encima de tus prompts — Activa el modo push-to-talk o una palabra de activación
Combinar con: filesystem

Programar por voz por accesibilidad o recuperación de RSI

👤 Desarrolladores con RSI, baja visión o que prefieren la entrada por voz ⏱ ~60 min intermediate

Cuándo usarlo: No puedes escribir por un tiempo y necesitas seguir entregando trabajo.

Requisitos previos
  • Ruido ambiental tolerable — Habitación tranquila; el micrófono de diadema supera al del portátil
Flujo
  1. Línea base
    [spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ Copiado
    → Lectura TTS clara
  2. Flujo de trabajo
    [spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ Copiado
    → Plan hablado; confirmación requerida antes de cambios

Resultado: Una sesión de programación completa sin entrada de teclado.

Errores comunes
  • El TTS pronuncia mal los símbolos de código — Configura el diccionario de fonemas del TTS para términos comunes de programación

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

voicemode-mcp + filesystem

Los cambios de código dictados por voz se guardan en el repositorio

I'll dictate changes; apply them in files after reading each back.✓ Copiado
voicemode-mcp + github

Dictar una descripción de PR tras revisar el diff por voz

Read me the staged changes, then open a PR with a description I'll dictate.✓ Copiado

Herramientas

Lo que expone este MCP

HerramientaEntradasCuándo llamarCoste
start_listening mode: "ptt"|"vad" Iniciar una sesión de voz free or OpenAI Whisper API
speak text: str, voice?: str Cada vez que Claude quiera presentar algo de forma audible TTS provider-dependent
transcribe_last none Obtener lo que acaba de decir el usuario Whisper call
stop_listening none Terminar la sesión de voz free

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API
Local: gratis. OpenAI Whisper: $0.006/min. ElevenLabs TTS: ~$0.30/1k caracteres.
Tokens por llamada
Los pipelines de audio no tienen coste directo en tokens
Monetario
Gratuito con stack local; con medición al usar proveedores en la nube
Consejo
Whisper local + Coqui TTS es completamente gratis pero de menor calidad — empieza en la nube y degrada después

Seguridad

Permisos, secretos, alcance

Ámbitos mínimos: microphone speakers
Almacenamiento de credenciales: Claves API de TTS/STT en variables de entorno
Salida de datos: Audio de voz al proveedor de TTS/STT si no es local

Resolución de problemas

Errores comunes y soluciones

Micrófono no detectado

Permiso de audio del sistema — otorga acceso al micrófono al terminal o a Claude Code

Verificar: `voice-mode test-mic` prints levels
El TTS suena robótico

El predeterminado es Coqui local — cambia a OpenAI tts-1-hd mediante VOICE_MODE_TTS=openai

Retraso entre mi voz y la respuesta

Usa Whisper-tiny local para STT; la nube añade 500ms o más

Alternativas

VoiceMode vs otros

AlternativaCuándo usarlaContrapartida
macOS Dictation + say commandSolo quieres voz básica a nivel del sistema operativoSin integración con la salida de Claude — solo en un sentido
Superwhisper / Wispr FlowQuieres una app nativa de dictado para macOS bien acabadaNo integrado con MCP; sin flujos de trabajo a nivel de agente

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills