VoiceMode MCP — Instalar & Demo en vivo

Por qué usarlo

Características clave

Opción de Whisper local — sin audio en la nube
Múltiples backends de TTS: OpenAI, ElevenLabs, Coqui local
Modos push-to-talk o activado por voz
Transmite respuestas parciales para escuchar a Claude mientras piensa
Funciona en terminal junto a la CLI de Claude Code

Demo en vivo

Cómo se ve en la práctica

voicemode-mcp.replay ▶ listo

0/0

Instalar

Elige tu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Abre Claude Desktop → Settings → Developer → Edit Config. Reinicia después de guardar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor usa el mismo esquema mcpServers que Claude Desktop. La configuración del proyecto prevalece sobre la global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Haz clic en el icono MCP Servers de la barra lateral de Cline y luego en "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Mismo formato que Claude Desktop. Reinicia Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue usa un array de objetos de servidor en lugar de un mapa.

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Añádelo a context_servers. Zed recarga en caliente al guardar.

claude mcp add voicemode-mcp -- uvx voice-mode

Un solo comando. Verifica con claude mcp list. Quita con claude mcp remove.

Casos de uso

Usos del mundo real: VoiceMode

Controlar una sesión de Claude Code con manos libres mientras lees en otra pantalla

👤 Desarrolladores que leen docs o diseños en un monitor mientras codifican ⏱ ~30 min intermediate

Cuándo usarlo: Estás leyendo un documento de diseño y quieres dictar cambios sin cambiar de ventana.

Requisitos previos

Micrófono y altavoces — Audio del sistema configurado — prueba con say "hello" o equivalente
Modelo Whisper listo — voice-mode install-whisper descarga el modelo local

Flujo

Iniciar voz

Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ Copiado

→ TTS reproduce "ready"
Dictar un cambio

[spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ Copiado

→ Transcripción correcta; cambio aplicado; TTS confirma
Revisar

[spoken] Read me the diff.✓ Copiado

→ TTS lee el diff por fragmentos, con pausa posible

Resultado: Una sesión funcional en la que tus manos no se apartan de lo que estaban haciendo.

Errores comunes

El TTS habla encima de tus prompts — Activa el modo push-to-talk o una palabra de activación

Combinar con: filesystem

Programar por voz por accesibilidad o recuperación de RSI

👤 Desarrolladores con RSI, baja visión o que prefieren la entrada por voz ⏱ ~60 min intermediate

Cuándo usarlo: No puedes escribir por un tiempo y necesitas seguir entregando trabajo.

Requisitos previos

Ruido ambiental tolerable — Habitación tranquila; el micrófono de diadema supera al del portátil

Flujo

Línea base

[spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ Copiado

→ Lectura TTS clara
Flujo de trabajo

[spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ Copiado

→ Plan hablado; confirmación requerida antes de cambios

Resultado: Una sesión de programación completa sin entrada de teclado.

Errores comunes

El TTS pronuncia mal los símbolos de código — Configura el diccionario de fonemas del TTS para términos comunes de programación

Combinaciones

Combínalo con otros MCPs para multiplicar por 10

voicemode-mcp + filesystem

Los cambios de código dictados por voz se guardan en el repositorio

I'll dictate changes; apply them in files after reading each back.✓ Copiado

voicemode-mcp + github

Dictar una descripción de PR tras revisar el diff por voz

Read me the staged changes, then open a PR with a description I'll dictate.✓ Copiado

Herramientas

Lo que expone este MCP

Herramienta	Entradas	Cuándo llamar	Coste
start_listening	mode: "ptt"\|"vad"	Iniciar una sesión de voz	free or OpenAI Whisper API
speak	text: str, voice?: str	Cada vez que Claude quiera presentar algo de forma audible	TTS provider-dependent
transcribe_last	none	Obtener lo que acaba de decir el usuario	Whisper call
stop_listening	none	Terminar la sesión de voz	free

Coste y límites

Lo que cuesta ejecutarlo

Cuota de API: Local: gratis. OpenAI Whisper: $0.006/min. ElevenLabs TTS: ~$0.30/1k caracteres.
Tokens por llamada: Los pipelines de audio no tienen coste directo en tokens
Monetario: Gratuito con stack local; con medición al usar proveedores en la nube
Consejo: Whisper local + Coqui TTS es completamente gratis pero de menor calidad — empieza en la nube y degrada después

Seguridad

Permisos, secretos, alcance

Ámbitos mínimos: microphone speakers

Almacenamiento de credenciales: Claves API de TTS/STT en variables de entorno

Salida de datos: Audio de voz al proveedor de TTS/STT si no es local

Nunca uses STT en la nube en llamadas con audio confidencial a menos que confíes en la política de retención del proveedor

Resolución de problemas

Errores comunes y soluciones

Micrófono no detectado

Permiso de audio del sistema — otorga acceso al micrófono al terminal o a Claude Code

Verificar: `voice-mode test-mic` prints levels

El TTS suena robótico

El predeterminado es Coqui local — cambia a OpenAI tts-1-hd mediante VOICE_MODE_TTS=openai

Retraso entre mi voz y la respuesta

Usa Whisper-tiny local para STT; la nube añade 500ms o más

Alternativas

VoiceMode vs otros

Alternativa	Cuándo usarla	Contrapartida
macOS Dictation + say command	Solo quieres voz básica a nivel del sistema operativo	Sin integración con la salida de Claude — solo en un sentido
Superwhisper / Wispr Flow	Quieres una app nativa de dictado para macOS bien acabada	No integrado con MCP; sin flujos de trabajo a nivel de agente

Más

Recursos

📖 Lee el README oficial en GitHub

🐙 Ver issues abiertas

🔍 Ver todos los 400+ servidores MCP y Skills