VoiceMode MCP — インストール & ライブデモ

なぜ使うのか

主な機能

ローカルウィスパーオプション — クラウドオーディオなし
複数の TTS バックエンド: OpenAI、イレブンラボ、ローカル Coqui
プッシュツートークまたは音声起動モード
部分的な応答をストリーミングして、クロードの考えを聞くことができます
Claude Code CLI と並行してターミナルで動作します

ライブデモ

実際の動作

voicemode-mcp.replay ▶ 準備完了

0/0

インストール

クライアントを選択

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config を開く。保存後、アプリを再起動。

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor は Claude Desktop と同じ mcpServers スキーマを使用。プロジェクト設定はグローバルより優先。

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cline サイドバーの MCP Servers アイコンをクリックし、"Edit Configuration" を選択。

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Claude Desktop と同じ形式。Windsurf を再起動して反映。

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue はマップではなくサーバーオブジェクトの配列を使用。

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

context_servers に追加。保存時に Zed がホットリロード。

claude mcp add voicemode-mcp -- uvx voice-mode

ワンライナー。claude mcp list で確認、claude mcp remove で削除。

ユースケース

実用的な使い方： VoiceMode

別の画面で読みながら、ハンズフリーでクロードコードセッションを実行します

👤 コーディング中に 1 台のモニターでドキュメントやデザインを読む開発者 ⏱ ~30 min intermediate

使うタイミング： あなたは設計ドキュメントを読んでいて、Alt-Tab キーを使用せずに変更を指示したいと考えています。

前提条件

マイク+スピーカー — システムオーディオが設定されています — 「say "hello"」または同等のコマンドを使用してテストします
ウィスパーモデル準備完了 — voice-mode install-whisper はローカルモデルをダウンロードします

フロー

スタートボイス

Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ コピーしました

→ TTS plays "ready"
変更を指示する

[spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ コピーしました

→ Transcription correct; change applied; TTS confirms
レビュー

[spoken] Read me the diff.✓ コピーしました

→ TTS reads diff in chunks, pausable

結果： 作業中の作業から手を離すことのない作業セッション。

注意点

TTS talking over your prompts — Enable push-to-talk mode or a wake word

組み合わせ： ファイルシステム

アクセシビリティまたは RSI リカバリのための音声によるコード作成

👤 RSI、弱視、または音声入力を好む開発者 ⏱ ~60 min intermediate

使うタイミング： しばらく入力できないため、発送を続ける必要があります。

前提条件

許容可能な周囲騒音 — 静かな部屋。ヘッドセットマイクがラップトップマイクを上回る

フロー

ベースライン

[spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ コピーしました

→ Clear TTS read
ワークフロー

[spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ コピーしました

→ Plan spoken; confirmation required before changes

結果： キーボード入力を必要としない完全なコーディングセッション。

注意点

Code symbols mispronounced by TTS — Configure the TTS phoneme dictionary for common programming terms

組み合わせ

他のMCPと組み合わせて10倍の力を

voicemode-mcp + filesystem

Voice-dictated code changes land in the repo

私が変更を指示します。それぞれを読み返した後、ファイルに適用します。✓ コピーしました

voicemode-mcp + github

Dictate a PR description after voice-reviewing the diff

段階的な変更を読んでから、私が口述する説明を含む PR を開きます。✓ コピーしました

ツール

このMCPが提供する機能

ツール	入力	呼び出すタイミング	コスト
start_listening	mode: "ptt"\|"vad"	音声セッションを開始する	free or OpenAI Whisper API
speak	text: str, voice?: str	クロードが何かを聴覚的に表面化したいときはいつでも	TTS provider-dependent
transcribe_last	none	ユーザーが今言ったことを取得する	Whisper call
stop_listening	none	音声セッションを終了する	free

コストと制限

運用コスト

APIクォータ: ローカル：無料。 OpenAI ウィスパー: $0.006/分イレブンラボ TTS: ~$0.30/1,000 文字。
呼び出しあたりのトークン: オーディオパイプラインは直接トークンコストを計算されません
金額: ローカルスタックでは無料。クラウドプロバイダーによる従量制
ヒント: Local Whisper + Coqui TTS は完全に無料ですが、低品質です - クラウドを開始し、後でダウングレードします

セキュリティ

権限、シークレット、影響範囲

最小スコープ： microphone speakers

認証情報の保管： env の TTS/STT API キー

データ送信先： ローカルでない場合は、TTS/STT プロバイダーへの音声音声

プロバイダーの保持ポリシーを信頼しない限り、機密音声を使用した通話ではクラウド STT を決して使用しないでください。

トラブルシューティング

よくあるエラーと対処法

マイクが検出されない

システムオーディオ許可 — 端末/Claude Code マイクへのアクセスを許可します。

確認： `voice-mode test-mic` prints levels

TTS はロボットっぽいですね

デフォルトは Coqui ローカルです — VOICE_MODE_TTS=openai 経由で OpenAI tts-1-hd に切り替えます

私の発話と応答の間に遅れがある

STT にはローカルの Whisper-tiny を使用します。クラウドは 500 ミリ秒以上追加します

代替案

VoiceMode 他との比較

代替案	代わりに使う場面	トレードオフ
macOS Dictation + say command	基本的な OS レベルの音声が必要なだけ	Claude の出力との統合はありません - 一方向のみ
Superwhisper / Wispr Flow	洗練されたネイティブ macOS ディクテーションアプリが必要な場合	MCP は統合されていません。エージェントレベルのワークフローはありません

その他

リソース

📖 GitHub の公式 README を読む

🐙 オープンな issue を見る

🔍 400以上のMCPサーバーとSkillsを見る