/ Каталог / Песочница / VoiceMode
● Сообщество mbailey 🔑 Нужен свой ключ

VoiceMode

автор mbailey · mbailey/voicemode

Говорите с Claude Code и слышьте ответ — кодирование без рук для парного программирования, доступности и сессий в состоянии потока.

VoiceMode добавляет естественный двусторонний голос в Claude Code через MCP. Использует Whisper для STT (локально или через API) и настраиваемый TTS (OpenAI, ElevenLabs или локальный). Запускает небольшой аудиопайплайн рядом с MCP-сервером. Лучше всего работает для коротких промптов и чтения ревью, а не монологов на 5 минут.

Зачем использовать

Ключевые функции

Живое демо

Как выглядит на практике

voicemode-mcp.replay ▶ готово
0/0

Установка

Выберите клиент

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Откройте Claude Desktop → Settings → Developer → Edit Config. Перезапустите после сохранения.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor использует ту же схему mcpServers, что и Claude Desktop. Конфиг проекта приоритетнее глобального.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Щёлкните значок MCP Servers на боковой панели Cline, затем "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Тот же формат, что и Claude Desktop. Перезапустите Windsurf для применения.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue использует массив объектов серверов, а не map.

~/.config/zed/settings.json
{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

Добавьте в context_servers. Zed перезагружается автоматически.

claude mcp add voicemode-mcp -- uvx voice-mode

Однострочная команда. Проверить: claude mcp list. Удалить: claude mcp remove.

Сценарии использования

Реальные сценарии: VoiceMode

Вести сессию Claude Code без рук, читая документ на другом экране

👤 Разработчики, читающие доки или дизайн на одном мониторе во время кодинга ⏱ ~30 min intermediate

Когда использовать: Вы читаете дизайн-документ и хотите диктовать изменения без переключения окон.

Предварительные требования
  • Микрофон + динамики — Настройте системный звук — проверьте командой say "hello" или аналогом
  • Модель Whisper готоваvoice-mode install-whisper скачивает локальную модель
Поток
  1. Запустить голосовой режим
    Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ Скопировано
    → TTS воспроизводит «ready»
  2. Продиктовать изменение
    [spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ Скопировано
    → Транскрипция корректна; изменение применено; TTS подтверждает
  3. Ревью
    [spoken] Read me the diff.✓ Скопировано
    → TTS читает дифф по частям, с паузами

Итог: Рабочая сессия, где ваши руки не отрываются от того, чем занимались.

Подводные камни
  • TTS перебивает ваши промпты — Включите режим push-to-talk или wake-слово
Сочетать с: filesystem

Кодировать голосом для доступности или восстановления после RSI

👤 Разработчики с RSI, слабым зрением или предпочитающие голосовой ввод ⏱ ~60 min intermediate

Когда использовать: Вы не можете какое-то время печатать, но нужно продолжать работу.

Предварительные требования
  • Терпимый фоновый шум — Тихое помещение; гарнитурный микрофон лучше встроенного ноутбука
Поток
  1. Базовая проверка
    [spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ Скопировано
    → Чёткое воспроизведение через TTS
  2. Рабочий флоу
    [spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ Скопировано
    → План озвучен; перед изменениями нужно подтверждение

Итог: Полноценная сессия кодирования без ввода с клавиатуры.

Подводные камни
  • TTS неправильно произносит символы кода — Настройте фонемный словарь TTS для распространённых программных терминов

Комбинации

Сочетайте с другими MCP — эффект x10

voicemode-mcp + filesystem

Продиктованные изменения кода попадают в репозиторий

I'll dictate changes; apply them in files after reading each back.✓ Скопировано
voicemode-mcp + github

Продиктовать описание PR после голосового ревью диффа

Read me the staged changes, then open a PR with a description I'll dictate.✓ Скопировано

Инструменты

Что предоставляет этот MCP

ИнструментВходные данныеКогда вызыватьСтоимость
start_listening mode: "ptt"|"vad" Начать голосовую сессию free or OpenAI Whisper API
speak text: str, voice?: str Всякий раз, когда Claude хочет сообщить что-то голосом TTS provider-dependent
transcribe_last none Получить транскрипт последней реплики пользователя Whisper call
stop_listening none Завершить голосовую сессию free

Стоимость и лимиты

Во что обходится

Квота API
Локально: бесплатно. OpenAI Whisper: $0.006/мин. ElevenLabs TTS: ~$0.30/1k символов.
Токенов на вызов
Аудиопайплайны не тарифицируются в токенах напрямую
Деньги
Бесплатно при локальном стеке; с тарификацией при облачных провайдерах
Совет
Локальный Whisper + Coqui TTS полностью бесплатны, но качество ниже — начните с облака, потом перейдите на локальный

Безопасность

Права, секреты, радиус поражения

Минимальные скоупы: microphone speakers
Хранение учётных данных: API-ключи TTS/STT в переменных окружения
Исходящий трафик: Голосовое аудио отправляется TTS/STT-провайдеру, если не локально

Устранение неполадок

Частые ошибки и исправления

Микрофон не обнаружен

Разрешение на аудио в системе — дайте доступ к микрофону терминалу/Claude Code

Проверить: `voice-mode test-mic` prints levels
TTS звучит роботообразно

По умолчанию используется локальный Coqui — переключитесь на OpenAI tts-1-hd через VOICE_MODE_TTS=openai

Задержка между речью и ответом

Используйте локальный Whisper-tiny для STT; облако добавляет 500мс+

Альтернативы

VoiceMode в сравнении

АльтернативаКогда использоватьКомпромисс
macOS Dictation + say commandНужен базовый голосовой ввод уровня ОСНет интеграции с выводом Claude — только в одну сторону
Superwhisper / Wispr FlowХотите отполированное нативное macOS-приложение для диктовкиНе интегрировано с MCP; нет агентных воркфлоу

Ещё

Ресурсы

📖 Читать официальный README на GitHub

🐙 Открытые задачи

🔍 Все 400+ MCP-серверов и Skills