VoiceMode MCP — Installieren & Live-Demo

Warum nutzen

Hauptfunktionen

Lokale Whisper-Option — kein Cloud-Audio
Mehrere TTS-Backends: OpenAI, ElevenLabs, lokales Coqui
Push-to-Talk- oder sprachaktivierter Modus
Streamt Teil-Antworten, sodass man Claude beim Denken hört
Funktioniert im Terminal zusammen mit Claude Code CLI

Live-Demo

In der Praxis

voicemode-mcp.replay ▶ bereit

0/0

Installieren

Wählen Sie Ihren Client

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Öffne Claude Desktop → Settings → Developer → Edit Config. Nach dem Speichern neu starten.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor nutzt das gleiche mcpServers-Schema wie Claude Desktop. Projektkonfiguration schlägt die globale.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Klicken Sie auf das MCP-Servers-Symbol in der Cline-Seitenleiste, dann "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Gleiche Struktur wie Claude Desktop. Windsurf neu starten zum Übernehmen.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue nutzt ein Array von Serverobjekten statt einer Map.

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

In context_servers hinzufügen. Zed lädt beim Speichern neu.

claude mcp add voicemode-mcp -- uvx voice-mode

Einzeiler. Prüfen mit claude mcp list. Entfernen mit claude mcp remove.

Anwendungsfälle

Praxisnahe Nutzung: VoiceMode

Eine Claude Code-Session freihändig steuern, während man einen anderen Bildschirm liest

👤 Entwickler, die auf einem Monitor Docs/Designs lesen und gleichzeitig coden ⏱ ~30 min intermediate

Wann einsetzen: Du liest ein Design-Dokument und willst Änderungen diktieren, ohne Alt-Tab zu drücken.

Voraussetzungen

Mikrofon + Lautsprecher — Systemaudio konfiguriert — mit say "hello" oder Äquivalent testen
Whisper-Modell bereit — voice-mode install-whisper lädt das lokale Modell herunter

Ablauf

Sprache starten

Nutze voicemode. Auf Prompts hören und Antworten sprechen. Wiederhole nach mir: "bereit"✓ Kopiert

→ TTS spielt "bereit" ab
Änderung diktieren

[gesprochen] Aktualisiere src/auth.ts — bcrypt statt einfachem SHA256 für Passwörter verwenden.✓ Kopiert

→ Transkription korrekt; Änderung angewendet; TTS bestätigt
Überprüfen

[gesprochen] Lies mir den Diff vor.✓ Kopiert

→ TTS liest Diff in Abschnitten vor, pausierbar

Ergebnis: Eine funktionierende Session, bei der die Hände nie von dem wegmüssen, womit man beschäftigt war.

Fallstricke

TTS unterbricht eigene Prompts — Push-to-Talk-Modus oder ein Wake-Word aktivieren

Kombinieren mit: filesystem

Per Sprache coden für Barrierefreiheit oder RSI-Erholung

👤 Entwickler mit RSI, Seheinschränkungen oder Präferenz für Spracheingabe ⏱ ~60 min intermediate

Wann einsetzen: Du kannst eine Zeit lang nicht tippen und musst trotzdem weiter liefern.

Voraussetzungen

Erträgliches Umgebungsgeräusch — Ruhiger Raum; Headset-Mikrofon ist besser als Laptop-Mikrofon

Ablauf

Grundlage

[gesprochen] Nutze voicemode. Den neuesten Git-Diff laut vorlesen, mit Pause zwischen den Dateien.✓ Kopiert

→ Klare TTS-Vorlesung
Workflow

[gesprochen] Das User-Model in src/models/user.ts refaktorieren. Password-Hashing in eine Methode verschieben. Zeig mir erst den Plan.✓ Kopiert

→ Plan vorgelesen; Bestätigung vor Änderungen erforderlich

Ergebnis: Eine vollständige Coding-Session ohne Tastatureingabe.

Fallstricke

Code-Symbole werden vom TTS falsch ausgesprochen — TTS-Phonem-Wörterbuch für gängige Programmierbegriffe konfigurieren

Kombinationen

Mit anderen MCPs für 10-fache Wirkung

voicemode-mcp + filesystem

Per Sprache diktierte Code-Änderungen landen im Repository

Ich diktiere Änderungen; nach dem Vorlesen in Dateien anwenden.✓ Kopiert

voicemode-mcp + github

PR-Beschreibung diktieren, nachdem der Diff per Sprache überprüft wurde

Staged Changes vorlesen, dann einen PR mit einer von mir diktierten Beschreibung öffnen.✓ Kopiert

Werkzeuge

Was dieses MCP bereitstellt

Werkzeug	Eingaben	Wann aufrufen	Kosten
start_listening	mode: "ptt"\|"vad"	Eine Sprach-Session beginnen	free or OpenAI Whisper API
speak	text: str, voice?: str	Immer wenn Claude etwas hörbar ausgeben soll	TTS provider-dependent
transcribe_last	none	Abrufen, was der Nutzer gerade gesagt hat	Whisper call
stop_listening	none	Sprach-Session beenden	free

Kosten & Limits

Was der Betrieb kostet

API-Kontingent: Lokal: kostenlos. OpenAI Whisper: $0,006/Min. ElevenLabs TTS: ca. $0,30/1k Zeichen.
Tokens pro Aufruf: Audio-Pipelines werden nicht direkt in Token berechnet
Kosten in €: Kostenlos mit lokalem Stack; nutzungsbasiert mit Cloud-Anbietern
Tipp: Lokales Whisper + Coqui TTS ist völlig kostenlos, aber geringere Qualität — mit Cloud starten, später downgraden

Sicherheit

Rechte, Secrets, Reichweite

Minimale Scopes: microphone speakers

Credential-Speicherung: TTS/STT API-Keys in Umgebungsvariablen

Datenabfluss: Sprachaudio zum TTS/STT-Anbieter, wenn nicht lokal

Cloud-STT niemals in Gesprächen mit vertraulichem Audio verwenden, es sei denn, der Anbieter ist vertrauenswürdig bezüglich seiner Aufbewahrungsrichtlinie

Fehlerbehebung

Häufige Fehler und Lösungen

Mikrofon nicht erkannt

Systemaudio-Berechtigung — Terminal/Claude Code Mikrofon-Zugriff gewähren

Prüfen: `voice-mode test-mic` prints levels

TTS klingt roboterhaft

Standard ist lokales Coqui — auf OpenAI tts-1-hd über VOICE_MODE_TTS=openai wechseln

Verzögerung zwischen Sprache und Antwort

Lokales Whisper-tiny für STT verwenden; Cloud fügt 500ms+ hinzu

Alternativen

VoiceMode vs. andere

Alternative	Wann stattdessen	Kompromiss
macOS Dictation + say command	Du willst nur einfache OS-Sprachunterstützung	Keine Integration mit Claudes Ausgabe — nur eine Richtung
Superwhisper / Wispr Flow	Du willst eine ausgereifte native macOS-Diktat-App	Nicht MCP-integriert; keine Agent-Level-Workflows

Mehr

Ressourcen

📖 Offizielle README auf GitHub lesen

🐙 Offene Issues ansehen

🔍 Alle 400+ MCP-Server und Skills durchsuchen