/ Verzeichnis / Playground / VoiceMode
● Community mbailey 🔑 Eigener Schlüssel nötig

VoiceMode

von mbailey · mbailey/voicemode

Mit Claude Code sprechen und Antworten hören — freihändiges Coden für Pair-Programming, Barrierefreiheit und Flow-Zustand-Sessions.

VoiceMode fügt Claude Code über MCP natürliche bidirektionale Sprache hinzu. Nutzt Whisper für STT (lokal oder API) und ein konfigurierbares TTS (OpenAI, ElevenLabs oder lokal). Führt eine kleine Audio-Pipeline neben dem MCP-Server aus. Funktioniert am besten für kurze Prompts und Review-Vorlesungen, nicht für 5-Minuten-Monologe.

Warum nutzen

Hauptfunktionen

Live-Demo

In der Praxis

voicemode-mcp.replay ▶ bereit
0/0

Installieren

Wählen Sie Ihren Client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Öffne Claude Desktop → Settings → Developer → Edit Config. Nach dem Speichern neu starten.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor nutzt das gleiche mcpServers-Schema wie Claude Desktop. Projektkonfiguration schlägt die globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Klicken Sie auf das MCP-Servers-Symbol in der Cline-Seitenleiste, dann "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Gleiche Struktur wie Claude Desktop. Windsurf neu starten zum Übernehmen.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue nutzt ein Array von Serverobjekten statt einer Map.

~/.config/zed/settings.json
{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

In context_servers hinzufügen. Zed lädt beim Speichern neu.

claude mcp add voicemode-mcp -- uvx voice-mode

Einzeiler. Prüfen mit claude mcp list. Entfernen mit claude mcp remove.

Anwendungsfälle

Praxisnahe Nutzung: VoiceMode

Eine Claude Code-Session freihändig steuern, während man einen anderen Bildschirm liest

👤 Entwickler, die auf einem Monitor Docs/Designs lesen und gleichzeitig coden ⏱ ~30 min intermediate

Wann einsetzen: Du liest ein Design-Dokument und willst Änderungen diktieren, ohne Alt-Tab zu drücken.

Voraussetzungen
  • Mikrofon + Lautsprecher — Systemaudio konfiguriert — mit say "hello" oder Äquivalent testen
  • Whisper-Modell bereitvoice-mode install-whisper lädt das lokale Modell herunter
Ablauf
  1. Sprache starten
    Nutze voicemode. Auf Prompts hören und Antworten sprechen. Wiederhole nach mir: "bereit"✓ Kopiert
    → TTS spielt "bereit" ab
  2. Änderung diktieren
    [gesprochen] Aktualisiere src/auth.ts — bcrypt statt einfachem SHA256 für Passwörter verwenden.✓ Kopiert
    → Transkription korrekt; Änderung angewendet; TTS bestätigt
  3. Überprüfen
    [gesprochen] Lies mir den Diff vor.✓ Kopiert
    → TTS liest Diff in Abschnitten vor, pausierbar

Ergebnis: Eine funktionierende Session, bei der die Hände nie von dem wegmüssen, womit man beschäftigt war.

Fallstricke
  • TTS unterbricht eigene Prompts — Push-to-Talk-Modus oder ein Wake-Word aktivieren
Kombinieren mit: filesystem

Per Sprache coden für Barrierefreiheit oder RSI-Erholung

👤 Entwickler mit RSI, Seheinschränkungen oder Präferenz für Spracheingabe ⏱ ~60 min intermediate

Wann einsetzen: Du kannst eine Zeit lang nicht tippen und musst trotzdem weiter liefern.

Voraussetzungen
  • Erträgliches Umgebungsgeräusch — Ruhiger Raum; Headset-Mikrofon ist besser als Laptop-Mikrofon
Ablauf
  1. Grundlage
    [gesprochen] Nutze voicemode. Den neuesten Git-Diff laut vorlesen, mit Pause zwischen den Dateien.✓ Kopiert
    → Klare TTS-Vorlesung
  2. Workflow
    [gesprochen] Das User-Model in src/models/user.ts refaktorieren. Password-Hashing in eine Methode verschieben. Zeig mir erst den Plan.✓ Kopiert
    → Plan vorgelesen; Bestätigung vor Änderungen erforderlich

Ergebnis: Eine vollständige Coding-Session ohne Tastatureingabe.

Fallstricke
  • Code-Symbole werden vom TTS falsch ausgesprochen — TTS-Phonem-Wörterbuch für gängige Programmierbegriffe konfigurieren

Kombinationen

Mit anderen MCPs für 10-fache Wirkung

voicemode-mcp + filesystem

Per Sprache diktierte Code-Änderungen landen im Repository

Ich diktiere Änderungen; nach dem Vorlesen in Dateien anwenden.✓ Kopiert
voicemode-mcp + github

PR-Beschreibung diktieren, nachdem der Diff per Sprache überprüft wurde

Staged Changes vorlesen, dann einen PR mit einer von mir diktierten Beschreibung öffnen.✓ Kopiert

Werkzeuge

Was dieses MCP bereitstellt

WerkzeugEingabenWann aufrufenKosten
start_listening mode: "ptt"|"vad" Eine Sprach-Session beginnen free or OpenAI Whisper API
speak text: str, voice?: str Immer wenn Claude etwas hörbar ausgeben soll TTS provider-dependent
transcribe_last none Abrufen, was der Nutzer gerade gesagt hat Whisper call
stop_listening none Sprach-Session beenden free

Kosten & Limits

Was der Betrieb kostet

API-Kontingent
Lokal: kostenlos. OpenAI Whisper: $0,006/Min. ElevenLabs TTS: ca. $0,30/1k Zeichen.
Tokens pro Aufruf
Audio-Pipelines werden nicht direkt in Token berechnet
Kosten in €
Kostenlos mit lokalem Stack; nutzungsbasiert mit Cloud-Anbietern
Tipp
Lokales Whisper + Coqui TTS ist völlig kostenlos, aber geringere Qualität — mit Cloud starten, später downgraden

Sicherheit

Rechte, Secrets, Reichweite

Minimale Scopes: microphone speakers
Credential-Speicherung: TTS/STT API-Keys in Umgebungsvariablen
Datenabfluss: Sprachaudio zum TTS/STT-Anbieter, wenn nicht lokal

Fehlerbehebung

Häufige Fehler und Lösungen

Mikrofon nicht erkannt

Systemaudio-Berechtigung — Terminal/Claude Code Mikrofon-Zugriff gewähren

Prüfen: `voice-mode test-mic` prints levels
TTS klingt roboterhaft

Standard ist lokales Coqui — auf OpenAI tts-1-hd über VOICE_MODE_TTS=openai wechseln

Verzögerung zwischen Sprache und Antwort

Lokales Whisper-tiny für STT verwenden; Cloud fügt 500ms+ hinzu

Alternativen

VoiceMode vs. andere

AlternativeWann stattdessenKompromiss
macOS Dictation + say commandDu willst nur einfache OS-SprachunterstützungKeine Integration mit Claudes Ausgabe — nur eine Richtung
Superwhisper / Wispr FlowDu willst eine ausgereifte native macOS-Diktat-AppNicht MCP-integriert; keine Agent-Level-Workflows

Mehr

Ressourcen

📖 Offizielle README auf GitHub lesen

🐙 Offene Issues ansehen

🔍 Alle 400+ MCP-Server und Skills durchsuchen