VoiceMode MCP — 설치 & 라이브 데모

왜 쓰나요

핵심 기능

로컬 속삭임 옵션 — 클라우드 오디오 없음
다중 TTS 백엔드: OpenAI, ElevenLabs, 로컬 Coqui
푸시 투 토크(Push-to-talk) 또는 음성 활성화 모드
Claude의 생각을 들을 수 있도록 부분 응답을 스트리밍합니다.
Claude Code CLI와 함께 터미널에서 작동

라이브 데모

실제 사용 모습

voicemode-mcp.replay ▶ 준비됨

0/0

설치

클라이언트 선택

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config 열기. 저장 후 앱 재시작.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cursor는 Claude Desktop과 동일한 mcpServers 스키마 사용. 프로젝트 설정이 전역보다 우선.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Cline 사이드바의 MCP Servers 아이콘 클릭 후 "Edit Configuration" 선택.

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "voicemode-mcp": {
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  }
}

Claude Desktop과 같은 형식. Windsurf 재시작 후 적용.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "voicemode-mcp",
      "command": "uvx",
      "args": [
        "voice-mode"
      ]
    }
  ]
}

Continue는 맵이 아닌 서버 오브젝트 배열 사용.

~/.config/zed/settings.json

{
  "context_servers": {
    "voicemode-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "voice-mode"
        ]
      }
    }
  }
}

context_servers에 추가. 저장 시 Zed가 핫 리로드.

claude mcp add voicemode-mcp -- uvx voice-mode

한 줄 명령. claude mcp list로 확인, claude mcp remove로 제거.

사용 사례

실전 활용법: VoiceMode

다른 화면에서 읽는 동안 Claude Code 세션을 핸즈프리로 운전하세요.

👤 코딩을 하면서 하나의 모니터로 문서나 디자인을 읽는 개발자 ⏱ ~30 min intermediate

언제 쓸까: 디자인 문서를 읽고 있는데 Alt 키를 누르지 않고 변경 사항을 지시하고 싶습니다.

사전 조건

마이크 + 스피커 — 시스템 오디오 구성 - say "hello" 또는 이와 동등한 기능으로 테스트하세요.
속삭임 모델 준비됨 — voice-mode install-whisper는 로컬 모델을 다운로드합니다.

흐름

음성 시작

Use voicemode. Listen for prompts and speak responses. Repeat after me: "ready"✓ 복사됨

→ TTS plays "ready"
변경 지시

[spoken] Update src/auth.ts — use bcrypt instead of plain SHA256 for passwords.✓ 복사됨

→ Transcription correct; change applied; TTS confirms
검토

[spoken] Read me the diff.✓ 복사됨

→ TTS reads diff in chunks, pausable

결과: 손이 하던 일을 떠나지 않는 작업 세션입니다.

함정

TTS talking over your prompts — Enable push-to-talk mode or a wake word

함께 쓰기: 파일 시스템

접근성 또는 RSI 복구를 위한 음성 코딩

👤 RSI, 저시력 또는 음성 입력을 선호하는 개발자 ⏱ ~60 min intermediate

언제 쓸까: 한동안 타이핑을 할 수 없어 계속 배송을 해야 합니다.

사전 조건

허용 가능한 주변 소음 — 조용한 방; 헤드셋 마이크가 노트북 마이크를 이긴다

흐름

기준선

[spoken] Use voicemode. Read the latest git diff out loud, pausing between files.✓ 복사됨

→ Clear TTS read
작업흐름

[spoken] Refactor the user model in src/models/user.ts. Move password hashing into a method. Show me the plan first.✓ 복사됨

→ Plan spoken; confirmation required before changes

결과: 키보드 입력 없이 전체 코딩 세션을 수행합니다.

함정

Code symbols mispronounced by TTS — Configure the TTS phoneme dictionary for common programming terms

조합

다른 MCP와 조합해 10배 효율

voicemode-mcp + filesystem

Voice-dictated code changes land in the repo

나는 변화를 지시할 것이다; 다시 읽은 후 파일에 적용하십시오.✓ 복사됨

voicemode-mcp + github

Dictate a PR description after voice-reviewing the diff

단계적 변경 사항을 읽어본 다음 제가 지시할 설명이 포함된 PR을 엽니다.✓ 복사됨

도구

이 MCP가 노출하는 것

도구	입력	언제 호출	비용
start_listening	mode: "ptt"\|"vad"	음성 세션 시작	free or OpenAI Whisper API
speak	text: str, voice?: str	Claude가 무언가를 청각적으로 표면화하고 싶을 때마다	TTS provider-dependent
transcribe_last	none	사용자가 방금 말한 내용을 가져옵니다.	Whisper call
stop_listening	none	음성 세션 종료	free

비용 및 제한

운영 비용

API 쿼터: 지역: 무료. OpenAI 속삭임: $0.006/분. ElevenLabs TTS: ~$0.30/1,000자.
호출당 토큰: 오디오 파이프라인에는 토큰 비용이 직접적으로 부과되지 않습니다.
금액: 로컬 스택이 있으면 무료입니다. 클라우드 공급자와 측정
팁: Local Whisper + Coqui TTS는 완전히 무료이지만 품질이 낮습니다. 클라우드를 시작하고 나중에 다운그레이드하세요.

보안

권한, 시크릿, 파급범위

최소 스코프: microphone speakers

자격 증명 저장: 환경의 TTS/STT API 키

데이터 외부 송신: 로컬이 아닌 경우 TTS/STT 제공업체에 대한 음성 오디오

공급자의 보존 정책을 신뢰하지 않는 한 기밀 오디오 통화에 클라우드 STT를 사용하지 마십시오.

문제 해결

자주 발생하는 오류와 해결

마이크가 감지되지 않음

시스템 오디오 권한 — 터미널/Claude Code 마이크 액세스 권한 부여

확인: `voice-mode test-mic` prints levels

TTS는 로봇처럼 들립니다.

기본값은 Coqui local입니다. VOICE_MODE_TTS=openai를 통해 OpenAI tts-1-hd로 전환합니다.

내 말과 반응 사이의 지연

STT에는 로컬 속삭임을 사용하십시오. 클라우드는 500ms 이상을 추가합니다.

대안

VoiceMode 다른 것과 비교

대안	언제 쓰나	단점/장점
macOS Dictation + say command	기본적인 OS 수준의 음성만 원하는 경우	Claude의 출력과 통합되지 않음 - 단방향으로만 가능
Superwhisper / Wispr Flow	세련된 기본 macOS 받아쓰기 앱을 원합니다	MCP 통합이 아닙니다. 상담사 수준 워크플로 없음

VoiceMode

왜 쓰나요

핵심 기능

라이브 데모

실제 사용 모습

설치

클라이언트 선택

사용 사례

실전 활용법: VoiceMode

다른 화면에서 읽는 동안 Claude Code 세션을 핸즈프리로 운전하세요.

사전 조건

흐름

함정

접근성 또는 RSI 복구를 위한 음성 코딩

사전 조건

흐름

함정

조합

다른 MCP와 조합해 10배 효율

도구

이 MCP가 노출하는 것

비용 및 제한

운영 비용

보안

권한, 시크릿, 파급범위

문제 해결

자주 발생하는 오류와 해결

대안

VoiceMode 다른 것과 비교

더 보기

리소스