/ 디렉터리 / 플레이그라운드 / Kreuzberg
● 커뮤니티 kreuzberg-dev ⚡ 바로 사용

Kreuzberg

제작: kreuzberg-dev · kreuzberg-dev/kreuzberg

Rust 코어 MCP를 통해 PDF, Office 문서, 이미지 및 97개 이상의 기타 형식에서 깨끗한 텍스트, 표 및 메타데이터를 추출합니다.

Kreuzberg는 다중 언어 문서 인텔리전스 프레임워크입니다. MCP 서버는 핵심 Rust 파이프라인을 래핑합니다. Claude는 Unstructured/Tika/pdfplumber로 셸링하지 않고 모든 문서 형식에서 구조화된 콘텐츠를 추출하기 위해 이 서버를 호출합니다. 스캔한 PDF, 테이블 감지 및 메타데이터에 대한 OCR을 한 번의 통화로 처리합니다.

왜 쓰나요

핵심 기능

라이브 데모

실제 사용 모습

kreuzberg.replay ▶ 준비됨
0/0

설치

클라이언트 선택

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config 열기. 저장 후 앱 재시작.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Cursor는 Claude Desktop과 동일한 mcpServers 스키마 사용. 프로젝트 설정이 전역보다 우선.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Cline 사이드바의 MCP Servers 아이콘 클릭 후 "Edit Configuration" 선택.

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Claude Desktop과 같은 형식. Windsurf 재시작 후 적용.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "kreuzberg",
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  ]
}

Continue는 맵이 아닌 서버 오브젝트 배열 사용.

~/.config/zed/settings.json
{
  "context_servers": {
    "kreuzberg": {
      "command": {
        "path": "uvx",
        "args": [
          "kreuzberg-mcp"
        ]
      }
    }
  }
}

context_servers에 추가. 저장 시 Zed가 핫 리로드.

claude mcp add kreuzberg -- uvx kreuzberg-mcp

한 줄 명령. claude mcp list로 확인, claude mcp remove로 제거.

사용 사례

실전 활용법: Kreuzberg

지저분한 PDF에서 깨끗한 감점으로 표 추출

👤 보고서 PDF를 다루는 분석가 ⏱ ~10 min beginner

언제 쓸까: Pdftotext가 맹글링되는 표가 있는 PDF가 있으며 다시 입력하고 싶지 않습니다.

사전 조건
  • MCP 설치됨uvx kreuzberg-mcp — 또는 claude mcp add를 통해 추가
흐름
  1. 탈출
    Kreuzberg를 사용하여/docs/2025-annual-report.pdf를 추출합니다. 표는 감점, 본문은 별도로 주세요.✓ 복사됨
    → 보존된 헤더가 있는 감점 테이블 정리
  2. 인증하기
    "세그먼트별 수익" 테이블의 경우 열 합계를 조정합니다. 잘못된 OCR 읽음에 플래그를 지정합니다.✓ 복사됨
    → 플래그가 지정된 셀을 사용한 산술 검사

결과: 재작업 없이 문서에 붙여넣을 수 있는 마크다운 표입니다.

함정
  • 스캔한 PDF — OCR 실수 6 for 8 — OCR 신뢰도 출력을 사용하고 저신뢰 셀을 수동으로 다시 스캔합니다.
함께 쓰기: 파일 시스템

다운스트림 인덱싱을 위한 혼합 형식 문서 폴더 수집

👤 헝겊 파이프라인을 만드는 엔지니어 ⏱ ~30 min intermediate

언제 쓸까: 클라이언트는 PDF, Word 문서, PowerPoint가 포함된 zip을 제공하며 포함하려면 깨끗한 텍스트가 필요합니다.

사전 조건
  • 폴더로 범위가 지정된 파일 시스템 MCP — 수집 디렉토리를 루트로 사용하여 fs MCP를 시작하십시오.
흐름
  1. 목록
    List every file under /ingest/. For each, call kreuzberg.detect_format and report.✓ 복사됨
    → Format-per-file table
  2. 벌크추출물
    For each file, extract text + metadata. Write cleaned .txt next to the original and a manifest.json with metadata.✓ 복사됨
    → All files processed; manifest contains every entry
  3. 품질검사
    List every file where extraction returned <100 chars — those are likely scanned or corrupt. Re-run with OCR forced.✓ 복사됨
    → Low-content files identified and retried

결과: 메타데이터 매니페스트와 함께 포함할 준비가 된 정리된 텍스트 파일의 폴더입니다.

함정
  • Encrypted PDF — Kreuzberg returns an error — decrypt with qpdf or ask for the unlocked copy
함께 쓰기: 파일 시스템 · 메모리

조합

다른 MCP와 조합해 10배 효율

kreuzberg + filesystem

Walk a folder and extract every doc in place

/docs 아래의 각 PDF에 대해 텍스트를 추출하고 그 옆에 .md로 저장합니다.✓ 복사됨
kreuzberg + memory

Ingest extracted content into a knowledge graph

/contracts/*.pdf를 추출하고 문서 간 쿼리를 위해 주요 용어를 메모리에 저장합니다.✓ 복사됨

도구

이 MCP가 노출하는 것

도구입력언제 호출비용
extract_text path: str, ocr?: bool 기본 추출 호출 free
extract_metadata path: str 본문 없이 메타데이터만 원함 free
extract_tables path: str 테이블 중심 추출 free
detect_format path: str 추출 전 형식 확인 free

비용 및 제한

운영 비용

API 쿼터
무제한 — 지역
호출당 토큰
문서 크기에 비례합니다. 20페이지 PDF ≒ 8,000개의 출력 토큰
금액
무료(오픈소스)
관련 없는 파일 처리를 방지하려면 대용량 파일에 extract_metadata를 먼저 사용하세요.

보안

권한, 시크릿, 파급범위

자격 증명 저장: 로컬 모드에는 없음
데이터 외부 송신: 없음 - 모든 처리가 로컬에서 수행됩니다.

문제 해결

자주 발생하는 오류와 해결

ModuleNotFoundError: tesseract

Tesseract 시스템 바이너리 설치: brew install tesseract / apt install tesseract-ocr

확인: `tesseract --version`
PDF의 빈 출력

이미지 전용 PDF일 가능성이 높음 — ocr=true로 다시 실행

확인: Check output.metadata.has_text_layer
XLSX 테이블이 뒤죽박죽으로 나옵니다.

명시적으로 패스 시트 이름: 도구는 sheet 인수를 지원합니다.

대안

Kreuzberg 다른 것과 비교

대안언제 쓰나단점/장점
markdownify-mcpOCR이 없는 더 가벼운 노드 기반 변환기를 원합니다.더 적은 형식, 테이블 보존 없음
Unstructured.io기업용 PDF 구문 분석이 필요하고 클라우드 비용을 수용합니다.유급의; 클라우드 호스팅

더 보기

리소스

📖 GitHub에서 공식 README 읽기

🐙 열린 이슈 보기

🔍 400+ MCP 서버 및 Skills 전체 보기