/ ディレクトリ / プレイグラウンド / VoiceMode
● コミュニティ mbailey 🔑 自分のキーが必要

VoiceMode

作者 mbailey · mbailey/voicemode

クロード コードに話しかけて、それを聞きます。ペアリング、アクセシビリティ、およびフロー状態セッションのためのハンズフリー コーディングです。

VoiceMode は、MCP 経由で自然な双方向音声をクロード コードに追加します。 STT (ローカルまたは API) および構成可能な TTS (OpenAI、イレブンラボ、またはローカル) に Whisper を使用します。 MCP サーバーと一緒に小さなオーディオ パイプラインを実行します。 5 分間のモノローグではなく、短いプロンプトやレビューを読むのに最適です。

なぜ使うのか

主な機能

ライブデモ

実際の動作

voicemode-mcp.replay ▶ 準備完了
0/0

インストール

クライアントを選択

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config を開く。保存後、アプリを再起動。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor は Claude Desktop と同じ mcpServers スキーマを使用。プロジェクト設定はグローバルより優先。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cline サイドバーの MCP Servers アイコンをクリックし、"Edit Configuration" を選択。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Claude Desktop と同じ形式。Windsurf を再起動して反映。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue はマップではなくサーバーオブジェクトの配列を使用。

~/.config/zed/settings.json
{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

context_servers に追加。保存時に Zed がホットリロード。

claude mcp add voicemode-mcp -- uvx voice-mode

ワンライナー。claude mcp list で確認、claude mcp remove で削除。

ユースケース

実用的な使い方: VoiceMode

別の画面で読みながら、ハンズフリーでクロード コード セッションを実行します

👤 コーディング中に 1 台のモニターでドキュメントやデザインを読む開発者 ⏱ ~30 min intermediate

使うタイミング: あなたは設計ドキュメントを読んでいて、Alt-Tab キーを使用せずに変更を指示したいと考えています。

前提条件
  • マイク+スピーカー — システムオーディオが設定されています — 「say "hello"」または同等のコマンドを使用してテストします
  • ウィスパーモデル準備完了voice-mode install-whisper はローカル モデルをダウンロードします
フロー
  1. スタートボイス
    Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ コピーしました
    → TTS plays "ready"
  2. 変更を指示する
    [spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ コピーしました
    → Transcription correct; change applied; TTS confirms
  3. レビュー
    [spoken] Read me the diff.✓ コピーしました
    → TTS reads diff in chunks, pausable

結果: 作業中の作業から手を離すことのない作業セッション。

注意点
  • TTS talking over your prompts — Enable push-to-talk mode or a wake word
組み合わせ: ファイルシステム

アクセシビリティまたは RSI リカバリのための音声によるコード作成

👤 RSI、弱視、または音声入力を好む開発者 ⏱ ~60 min intermediate

使うタイミング: しばらく入力できないため、発送を続ける必要があります。

前提条件
  • 許容可能な周囲騒音 — 静かな部屋。ヘッドセットマイクがラップトップマイクを上回る
フロー
  1. ベースライン
    [spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ コピーしました
    → Clear TTS read
  2. ワークフロー
    [spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ コピーしました
    → Plan spoken; confirmation required before changes

結果: キーボード入力を必要としない完全なコーディング セッション。

注意点
  • Code symbols mispronounced by TTS — Configure the TTS phoneme dictionary for common programming terms

組み合わせ

他のMCPと組み合わせて10倍の力を

voicemode-mcp + filesystem

Voice-dictated code changes land in the repo

私が変更を指示します。それぞれを読み返した後、ファイルに適用します。✓ コピーしました
voicemode-mcp + github

Dictate a PR description after voice-reviewing the diff

段階的な変更を読んでから、私が口述する説明を含む PR を開きます。✓ コピーしました

ツール

このMCPが提供する機能

ツール入力呼び出すタイミングコスト
start_listening mode: "ptt"|"vad" 音声セッションを開始する free or OpenAI Whisper API
speak text: str, voice?: str クロードが何かを聴覚的に表面化したいときはいつでも TTS provider-dependent
transcribe_last none ユーザーが今言ったことを取得する Whisper call
stop_listening none 音声セッションを終了する free

コストと制限

運用コスト

APIクォータ
ローカル:無料。 OpenAI ウィスパー: $0.006/分イレブンラボ TTS: ~$0.30/1,000 文字。
呼び出しあたりのトークン
オーディオ パイプラインは直接トークンコストを計算されません
金額
ローカルスタックでは無料。クラウドプロバイダーによる従量制
ヒント
Local Whisper + Coqui TTS は完全に無料ですが、低品質です - クラウドを開始し、後でダウングレードします

セキュリティ

権限、シークレット、影響範囲

最小スコープ: microphone speakers
認証情報の保管: env の TTS/STT API キー
データ送信先: ローカルでない場合は、TTS/STT プロバイダーへの音声音声

トラブルシューティング

よくあるエラーと対処法

マイクが検出されない

システムオーディオ許可 — 端末/Claude Code マイクへのアクセスを許可します。

確認: `voice-mode test-mic` prints levels
TTS はロボットっぽいですね

デフォルトは Coqui ローカルです — VOICE_MODE_TTS=openai 経由で OpenAI tts-1-hd に切り替えます

私の発話と応答の間に遅れがある

STT にはローカルの Whisper-tiny を使用します。クラウドは 500 ミリ秒以上追加します

代替案

VoiceMode 他との比較

代替案代わりに使う場面トレードオフ
macOS Dictation + say command基本的な OS レベルの音声が必要なだけClaude の出力との統合はありません - 一方向のみ
Superwhisper / Wispr Flow洗練されたネイティブ macOS ディクテーション アプリが必要な場合MCP は統合されていません。エージェントレベルのワークフローはありません

その他

リソース

📖 GitHub の公式 README を読む

🐙 オープンな issue を見る

🔍 400以上のMCPサーバーとSkillsを見る