/ Diretório / Playground / VoiceMode
● Comunidade mbailey 🔑 Requer sua chave

VoiceMode

por mbailey · mbailey/voicemode

Fale com o Claude Code e ouça de volta — programação sem as mãos para pair programming, acessibilidade e sessões em estado de fluxo.

O VoiceMode adiciona voz bidirecional natural ao Claude Code via MCP. Usa Whisper para STT (local ou API) e um TTS configurável (OpenAI, ElevenLabs ou local). Roda um pequeno pipeline de áudio junto com o servidor MCP. Funciona melhor para prompts curtos e leituras de revisão, não para monólogos de 5 minutos.

Por que usar

Principais recursos

Demo ao vivo

Como fica na prática

voicemode-mcp.replay ▶ pronto
0/0

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json
{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add voicemode-mcp -- uvx voice-mode

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: VoiceMode

Conduzir uma sessão do Claude Code sem as mãos enquanto lê em outro monitor

👤 Devs que leem docs ou designs em um monitor enquanto codificam ⏱ ~30 min intermediate

Quando usar: Você está lendo um documento de design e quer ditar mudanças sem alternar entre janelas.

Pré-requisitos
  • Microfone + alto-falantes — Áudio do sistema configurado — teste com say "hello" ou equivalente
  • Modelo Whisper prontovoice-mode install-whisper baixa o modelo local
Fluxo
  1. Ativar voz
    Use voicemode. Escute os prompts e fale as respostas. Repita após mim: "pronto"✓ Copiado
    → TTS reproduz "pronto"
  2. Ditar uma mudança
    [falado] Atualize src/auth.ts — use bcrypt em vez de SHA256 puro para senhas.✓ Copiado
    → Transcrição correta; mudança aplicada; TTS confirma
  3. Revisar
    [falado] Leia o diff para mim.✓ Copiado
    → TTS lê o diff em partes, podendo pausar

Resultado: Uma sessão de trabalho onde suas mãos nunca saem do que estavam fazendo.

Armadilhas
  • TTS falando por cima dos seus prompts — Habilite o modo push-to-talk ou uma palavra de ativação
Combine com: filesystem

Programar por voz para acessibilidade ou recuperação de LER

👤 Devs com LER, baixa visão ou que preferem entrada por voz ⏱ ~60 min intermediate

Quando usar: Você não pode digitar por um tempo e precisa continuar entregando.

Pré-requisitos
  • Ruído ambiente tolerável — Sala silenciosa; microfone headset é melhor que o do laptop
Fluxo
  1. Baseline
    [falado] Use voicemode. Leia o último git diff em voz alta, fazendo pausa entre os arquivos.✓ Copiado
    → Leitura TTS clara
  2. Fluxo de trabalho
    [falado] Refatore o modelo de usuário em src/models/user.ts. Mova o hash de senha para um método. Me mostre o plano primeiro.✓ Copiado
    → Plano falado; confirmação necessária antes das mudanças

Resultado: Uma sessão de programação completa sem entrada pelo teclado.

Armadilhas
  • Símbolos de código pronunciados errado pelo TTS — Configure o dicionário de fonemas do TTS para termos comuns de programação

Combinações

Combine com outros MCPs para 10× de alavancagem

voicemode-mcp + filesystem

Mudanças de código ditadas por voz chegam ao repositório

Vou ditar as mudanças; aplique-as nos arquivos depois de ler cada uma de volta.✓ Copiado
voicemode-mcp + github

Ditar uma descrição de PR após revisar o diff por voz

Leia as mudanças staged para mim, depois abra um PR com uma descrição que vou ditar.✓ Copiado

Ferramentas

O que este MCP expõe

FerramentaEntradasQuando chamarCusto
start_listening mode: "ptt"|"vad" Iniciar uma sessão de voz free or OpenAI Whisper API
speak text: str, voice?: str Sempre que o Claude quiser apresentar algo de forma audível TTS provider-dependent
transcribe_last none Buscar o que o usuário acabou de falar Whisper call
stop_listening none Encerrar a sessão de voz free

Custo e limites

O que custa rodar

Cota de API
Local: gratuito. OpenAI Whisper: $0,006/min. ElevenLabs TTS: ~$0,30/1k caracteres.
Tokens por chamada
Pipelines de áudio não têm custo direto em tokens
Monetário
Gratuito com stack local; medido com provedores na nuvem
Dica
Whisper local + Coqui TTS é totalmente gratuito, mas com qualidade inferior — comece na nuvem e mude depois

Segurança

Permissões, segredos, alcance

Escopos mínimos: microphone speakers
Armazenamento de credenciais: Chaves de API do TTS/STT em variáveis de ambiente
Saída de dados: Áudio de voz para o provedor TTS/STT se não for local

Solução de problemas

Erros comuns e correções

Microfone não detectado

Permissão de áudio do sistema — conceda acesso ao microfone para o terminal/Claude Code

Verificar: `voice-mode test-mic` exibe os níveis
TTS soa robótico

O padrão é Coqui local — mude para OpenAI tts-1-hd via VOICE_MODE_TTS=openai

Lag entre minha fala e a resposta

Use Whisper-tiny local para STT; a nuvem adiciona 500ms+

Alternativas

VoiceMode vs. outros

AlternativaQuando usarTroca
macOS Dictation + say commandVocê quer apenas voz básica no nível do OSSem integração com a saída do Claude — somente de entrada
Superwhisper / Wispr FlowVocê quer um app nativo de ditado polido para macOSSem integração MCP; sem fluxos de nível de agente

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills