VoiceMode MCP — Instalar & Demo ao vivo

Por que usar

Principais recursos

Opção Whisper local — sem áudio na nuvem
Múltiplos backends TTS: OpenAI, ElevenLabs, Coqui local
Modos push-to-talk ou ativação por voz
Transmite respostas parciais para você ouvir o Claude "pensando"
Funciona no terminal junto com o Claude Code CLI

Demo ao vivo

Como fica na prática

voicemode-mcp.replay ▶ pronto

0/0

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add voicemode-mcp -- uvx voice-mode

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: VoiceMode

Conduzir uma sessão do Claude Code sem as mãos enquanto lê em outro monitor

👤 Devs que leem docs ou designs em um monitor enquanto codificam ⏱ ~30 min intermediate

Quando usar: Você está lendo um documento de design e quer ditar mudanças sem alternar entre janelas.

Pré-requisitos

Microfone + alto-falantes — Áudio do sistema configurado — teste com say "hello" ou equivalente
Modelo Whisper pronto — voice-mode install-whisper baixa o modelo local

Fluxo

Ativar voz

Use voicemode. Escute os prompts e fale as respostas. Repita após mim: "pronto"✓ Copiado

→ TTS reproduz "pronto"
Ditar uma mudança

[falado] Atualize src/auth.ts — use bcrypt em vez de SHA256 puro para senhas.✓ Copiado

→ Transcrição correta; mudança aplicada; TTS confirma
Revisar

[falado] Leia o diff para mim.✓ Copiado

→ TTS lê o diff em partes, podendo pausar

Resultado: Uma sessão de trabalho onde suas mãos nunca saem do que estavam fazendo.

Armadilhas

TTS falando por cima dos seus prompts — Habilite o modo push-to-talk ou uma palavra de ativação

Combine com: filesystem

Programar por voz para acessibilidade ou recuperação de LER

👤 Devs com LER, baixa visão ou que preferem entrada por voz ⏱ ~60 min intermediate

Quando usar: Você não pode digitar por um tempo e precisa continuar entregando.

Pré-requisitos

Ruído ambiente tolerável — Sala silenciosa; microfone headset é melhor que o do laptop

Fluxo

Baseline

[falado] Use voicemode. Leia o último git diff em voz alta, fazendo pausa entre os arquivos.✓ Copiado

→ Leitura TTS clara
Fluxo de trabalho

[falado] Refatore o modelo de usuário em src/models/user.ts. Mova o hash de senha para um método. Me mostre o plano primeiro.✓ Copiado

→ Plano falado; confirmação necessária antes das mudanças

Resultado: Uma sessão de programação completa sem entrada pelo teclado.

Armadilhas

Símbolos de código pronunciados errado pelo TTS — Configure o dicionário de fonemas do TTS para termos comuns de programação

Combinações

Combine com outros MCPs para 10× de alavancagem

voicemode-mcp + filesystem

Mudanças de código ditadas por voz chegam ao repositório

Vou ditar as mudanças; aplique-as nos arquivos depois de ler cada uma de volta.✓ Copiado

voicemode-mcp + github

Ditar uma descrição de PR após revisar o diff por voz

Leia as mudanças staged para mim, depois abra um PR com uma descrição que vou ditar.✓ Copiado

Ferramentas

O que este MCP expõe

Ferramenta	Entradas	Quando chamar	Custo
start_listening	mode: "ptt"\|"vad"	Iniciar uma sessão de voz	free or OpenAI Whisper API
speak	text: str, voice?: str	Sempre que o Claude quiser apresentar algo de forma audível	TTS provider-dependent
transcribe_last	none	Buscar o que o usuário acabou de falar	Whisper call
stop_listening	none	Encerrar a sessão de voz	free

Custo e limites

O que custa rodar

Cota de API: Local: gratuito. OpenAI Whisper: $0,006/min. ElevenLabs TTS: ~$0,30/1k caracteres.
Tokens por chamada: Pipelines de áudio não têm custo direto em tokens
Monetário: Gratuito com stack local; medido com provedores na nuvem
Dica: Whisper local + Coqui TTS é totalmente gratuito, mas com qualidade inferior — comece na nuvem e mude depois

Segurança

Permissões, segredos, alcance

Escopos mínimos: microphone speakers

Armazenamento de credenciais: Chaves de API do TTS/STT em variáveis de ambiente

Saída de dados: Áudio de voz para o provedor TTS/STT se não for local

Nunca use STT na nuvem em chamadas com áudio confidencial sem confiar na política de retenção do provedor

Solução de problemas

Erros comuns e correções

Microfone não detectado

Permissão de áudio do sistema — conceda acesso ao microfone para o terminal/Claude Code

Verificar: `voice-mode test-mic` exibe os níveis

TTS soa robótico

O padrão é Coqui local — mude para OpenAI tts-1-hd via VOICE_MODE_TTS=openai

Lag entre minha fala e a resposta

Use Whisper-tiny local para STT; a nuvem adiciona 500ms+

Alternativas

VoiceMode vs. outros

Alternativa	Quando usar	Troca
macOS Dictation + say command	Você quer apenas voz básica no nível do OS	Sem integração com a saída do Claude — somente de entrada
Superwhisper / Wispr Flow	Você quer um app nativo de ditado polido para macOS	Sem integração MCP; sem fluxos de nível de agente

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills