kreuzberg-dev/kreuzberg
GitHub: kreuzberg-dev/kreuzberg
Kreuzberg 是一个以 Rust 为核心的多语言文档智能框架,能从 90 多种文件格式和 300 多种编程语言中原生速度提取文本、元数据、图片和结构化代码智能,无需 GPU 即可运行。
Stars: 8389 | Forks: 495
# Kreuzberg
以原生速度从 90 多种文件格式和 300 多种编程语言中提取文本、元数据和代码智能,无需 GPU。
## 核心特性
- **代码智能** – 通过 tree-sitter 从 [300 多种编程语言](https://docs.tree-sitter-language-pack.kreuzberg.dev) 中提取函数、类、导入、符号和文档字符串。结果存储在 `ExtractionResult.code_intelligence` 中,支持语义分块
- **可扩展架构** – 插件系统,支持自定义 OCR 后端、验证器、后处理器、文档提取器和渲染器
- **多语言支持** – 提供 Rust、Python、TypeScript/Node.js、Ruby、Go、Java、Kotlin、C#、PHP、Elixir、R、Dart、Swift、Zig 和 C 的原生绑定
- **90 多种文件格式** – PDF、Office 文档、图片、HTML、XML、电子邮件、归档文件、学术格式,共 8 大类
- **LLM 智能** – VLM OCR(GPT-4o、Claude、Gemini、Ollama)、带模式约束的结构化 JSON 提取,以及通过 [liter-llm](https://github.com/kreuzberg-dev/liter-llm) 支持 143 个 LLM 提供商的托管嵌入(包括本地引擎:Ollama、LM Studio、vLLM、llama.cpp)
- **OCR 支持** – Tesseract(所有绑定,包括浏览器用的 Tesseract-WASM)、PaddleOCR(所有原生绑定)、EasyOCR(Python)、VLM OCR(143 个视觉模型提供商,包括本地引擎),可通过插件 API 扩展
- **高性能** – Rust 核心,纯 Rust PDF 实现,SIMD 优化和完全并行
- **灵活部署** – 可作为库、CLI 工具、REST API 服务器或 MCP 服务器使用
- **TOON 线格式** – 面向 LLM/RAG 管道的令牌高效序列化,比 JSON 节省约 30-50% 的令牌
- **GFM 质量输出** – 基于 Comrak 的渲染,支持正确的围栏代码块、表格节点、括号转义和跨格式一致性(Markdown、HTML、Djot、纯文本)
- **HTML 直通** – HTML 到 Markdown 的转换直接使用 html-to-markdown 的输出,避免有损的中间往返
- **内存高效** – 支持多 GB 文件的流式解析器
**[完整文档](https://kreuzberg.dev/)** | **[在线演示](https://docs.kreuzberg.dev/demo.html)** | **[安装指南](#installation)**
## 安装
每种语言绑定都提供了包含示例和最佳实践的综合文档。选择你的平台开始使用:
**脚本语言:**
- **[Python](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/python)** – PyPI 包,异步/同步 API,OCR 后端(Tesseract、PaddleOCR、EasyOCR)
- **[Ruby](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/ruby)** – RubyGems 包,符合 Ruby 习惯的 API,原生绑定
- **[PHP](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/php)** – Composer 包,支持现代 PHP 8.2+,类型安全的 API,异步提取
- **[Elixir](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/elixir)** – Hex 包,OTP 集成,并发处理
- **[R](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/r)** – r-universe 包,符合 R 习惯的 API,extendr 绑定
- **[Dart / Flutter](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/dart)** – pub.dev 包,flutter_rust_bridge 运行时,macOS/iOS/Android/Linux/Windows 原生绑定
**JavaScript/TypeScript:**
- **[@kreuzberg/node](https://github.com/kreuzberg-dev/kreuzberg/tree/main/crates/kreuzberg-node)** – Node.js/Bun 的原生 NAPI-RS 绑定,性能最快
- **[@kreuzberg/wasm](https://github.com/kreuzberg-dev/kreuzberg/tree/main/crates/kreuzberg-wasm)** – 浏览器/Deno/Cloudflare Workers 的 WebAssembly,全面的格式和 OCR 支持(PDF、Excel、归档文件、所有 Office 格式、通过 WASI 构建的真实 Tesseract)— 仅排除依赖 ORT 的功能(paddle-ocr、布局检测、嵌入、自动旋转)和服务器模式(api/mcp/cli)
**编译语言:**
- **[Go](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/go/v5)** – 带 FFI 绑定的 Go 模块,支持上下文的异步操作
- **[Java](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/java)** – Maven Central,Foreign Function & Memory API
- **[Kotlin](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/kotlin-android)** – Maven Central,Kotlin/JVM,提供符合习惯的数据类、密封枚举和基于协程的异步操作
- **[C#](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/csharp)** – NuGet 包,.NET 6.0+,完整的 async/await 支持
- **[Swift](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/swift)** – Swift Package Manager,macOS 13+/iOS 16+,原生 Swift 类型和 async/await
**原生:**
- **[Rust](https://github.com/kreuzberg-dev/kreuzberg/tree/main/crates/kreuzberg)** – 核心库,灵活的特性标志,零拷贝 API
- **[Zig](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/zig)** – `zig fetch` + `build.zig.zon`,符合习惯的错误集、可选类型、基于切片的内存
- **[C (FFI)](https://github.com/kreuzberg-dev/kreuzberg/tree/main/crates/kreuzberg-ffi)** – C 头文件 + 共享库,pkg-config/CMake 支持,跨平台
**容器:**
- **[Docker](https://docs.kreuzberg.dev/guides/docker/)** – 官方镜像,支持 API、CLI 和 MCP 服务器模式(核心版:约 1.0-1.3GB,完整版:约 1.0-1.3GB,含 OCR + 旧格式支持)
**命令行:**
- **[CLI](https://docs.kreuzberg.dev/cli/usage/)** – 跨平台二进制文件,批处理,MCP 服务器模式
## 平台支持
所有语言绑定的完整架构覆盖:
| 语言 | Linux x86_64 | Linux aarch64 | macOS ARM64 | Windows x64 |
| -------- | :----------: | :-----------: | :---------: | :---------: |
| Python | ✅ | ✅ | ✅ | ✅ |
| Node.js | ✅ | ✅ | ✅ | ✅ |
| WASM | ✅ | ✅ | ✅ | ✅ |
| Ruby | ✅ | ✅ | ✅ | - |
| R | ✅ | ✅ | ✅ | ✅ |
| Elixir | ✅ | ✅ | ✅ | ✅ |
| Go | ✅ | ✅ | ✅ | ✅ |
| Java | ✅ | ✅ | ✅ | ✅ |
| Kotlin | ✅ | ✅ | ✅ | ✅ |
| C# | ✅ | ✅ | ✅ | ✅ |
| PHP | ✅ | ✅ | ✅ | ✅ |
| Swift | - | - | ✅ | - |
| Dart | ✅ | ✅ | ✅ | ✅ |
| Zig | ✅ | ✅ | ✅ | ✅ |
| Rust | ✅ | ✅ | ✅ | ✅ |
| C (FFI) | ✅ | ✅ | ✅ | ✅ |
| CLI | ✅ | ✅ | ✅ | ✅ |
| Docker | ✅ | ✅ | ✅ | - |
**注意**:✅ = 提供预编译二进制文件,可即时安装。WASM 可在任何支持 WebAssembly 的环境中运行(浏览器、Deno、Bun、Cloudflare Workers)。所有平台均在 CI 中测试。macOS 支持仅限 Apple Silicon。
### 移动端(iOS、Android)
| 目标平台 | 依赖 ORT 的功能\* |
| -------------------------------------------------- | :----------------------: |
| iOS(`aarch64-apple-ios`、`aarch64-apple-ios-sim`) | ✅ |
| Android arm64(`aarch64-linux-android`) | ✅ |
| Android x86_64 模拟器(`x86_64-linux-android`) | ❌ |
\*依赖 ORT 的功能:PaddleOCR、布局检测、嵌入、自动旋转。
所有非 ORT 功能(Tesseract OCR、每种文档格式、分块、语言检测、关键词、tree-sitter 代码智能、API/MCP、LLM)在四个移动目标平台上均可用。
`x86_64-linux-android` 模拟器三元组缺少 ORT 预构建上游包;kreuzberg 的 `kreuzberg` crate 暴露了一个 `android-target` 聚合特性,选择与 WASM 相同的无 ORT 特性集。`kreuzberg-ffi` 和 `kreuzberg-dart` crate 通过目标条件依赖自动为模拟器选择该聚合 — 主机和 arm64 手机自动获得完整功能。
### 浏览器 / 边缘(WebAssembly)
WASM 排除与 Android x86_64 模拟器相同的依赖 ORT 的特性集。共享的无 ORT 基础位于核心 crate 的 `no-ort-target` 特性之后;`wasm-target` 和 `android-target` 均由其组合而成。
### 嵌入支持(可选)
要使用嵌入功能:
1. **安装 ONNX Runtime 1.24+**:
- Linux:从 [ONNX Runtime 发布页](https://github.com/microsoft/onnxruntime/releases) 下载(Debian 包可能版本较旧)
- MacOS:`brew install onnxruntime`
- Windows:从 [ONNX Runtime 发布页](https://github.com/microsoft/onnxruntime/releases) 下载
2. 在代码中使用嵌入 – 参见 [嵌入指南](https://docs.kreuzberg.dev/features/#embeddings)
**注意:** Kreuzberg 需要 ONNX Runtime 1.24+ 版本才能使用嵌入功能。所有其他 Kreuzberg 功能无需 ONNX Runtime 即可运行。
## 支持的格式
8 大类共 90 多种文件格式,支持智能格式检测和全面的元数据提取。
### Office 文档
| 类别 | 格式 | 功能 |
| ------------------- | ------------------------------------------------------------------------------------------------ | -------------------------------------------------- |
| **文字处理** | `.docx`、`.docm`、`.dotx`、`.dotm`、`.dot`、`.odt`、`.pages` | 完整文本、表格、列表、图片、元数据、样式 |
| **电子表格** | `.xlsx`、`.xlsm`、`.xlsb`、`.xls`、`.xla`、`.xlam`、`.xltm`、`.xltx`、`.xlt`、`.ods`、`.numbers` | 工作表数据、公式、单元格元数据、图表 |
| **演示文稿** | `.pptx`、`.pptm`、`.ppsx`、`.potx`、`.potm`、`.pot`、`.key` | 幻灯片、演讲者备注、图片、元数据 |
| **PDF** | `.pdf` | 文本、表格、图片、元数据、OCR 支持 |
| **电子书** | `.epub`、`.fb2` | 章节、元数据、嵌入资源 |
| **数据库** | `.dbf` | 表数据提取、字段类型支持 |
| **韩文** | `.hwp`、`.hwpx` | 韩文文档格式、文本提取 |
### 图片(支持 OCR)
| 类别 | 格式 | 功能 |
| ------------ | -------------------------------------------------------------------------------- | ------------------------------------------------------------ |
| **位图** | `.png`、`.jpg`、`.jpeg`、`.gif`、`.webp`、`.bmp`、`.tiff`、`.tif` | OCR、表格检测、EXIF 元数据、尺寸、色彩空间 |
| **高级** | `.jp2`、`.jpx`、`.jpm`、`.mj2`、`.jbig2`、`.jb2`、`.pnm`、`.pbm`、`.pgm`、`.ppm` | 纯 Rust 解码器(JPEG 2000、JBIG2)、OCR、表格检测 |
| **矢量** | `.svg` | DOM 解析、嵌入文本、图形元数据 |
### Web 与数据
| 类别 | 格式 | 功能 |
| ------------------- | ------------------------------------------------------------------- | ----------------------------------------------------------------- |
| **标记语言** | `.html`、`.htm`、`.xhtml`、`.xml`、`.svg` | DOM 解析、元数据(Open Graph、Twitter Card)、链接提取 |
| **结构化数据** | `.json`、`.yaml`、`.yml`、`.toml`、`.csv`、`.tsv` | 模式检测、嵌套结构、验证 |
| **文本与 Markdown** | `.txt`、`.md`、`.markdown`、`.djot`、`.mdx`、`.rst`、`.org`、`.rtf` | CommonMark、GFM、Djot、MDX、reStructuredText、Org Mode、富文本 |
### 电子邮件与归档
| 类别 | 格式 | 功能 |
| ------------ | ------------------------------------ | ------------------------------------------------------- |
| **电子邮件** | `.eml`、`.msg` | 头部、正文(HTML/纯文本)、附件、UTF-16 支持 |
| **归档文件** | `.zip`、`.tar`、`.tgz`、`.gz`、`.7z` | 递归提取、嵌套归档、元数据 |
### 学术与科学
| 类别 | 格式 | 功能 |
| ----------------- | ----------------------------------------------------- | ----------------------------------------------------------- |
| **引用** | `.bib`、`.ris`、`.nbib`、`.enw`、`.csl` | BibTeX/BibLaTeX、RIS、PubMed/MEDLINE、EndNote XML、CSL JSON |
| **科学** | `.tex`、`.latex`、`.typ`、`.typst`、`.jats`、`.ipynb` | LaTeX、Typst、JATS 期刊文章、Jupyter notebooks |
| **出版** | `.fb2`、`.docbook`、`.dbk`、`.opml` | FictionBook、DocBook XML、OPML 大纲 |
| **文档** | `.pod`、`.mdoc`、`.troff` | Perl POD、man 页面、troff |
**[完整格式参考 →](https://docs.kreuzberg.dev/reference/formats/)**
### 代码智能(300+ 种语言)
| 功能 | 描述 |
| -------------------------- | ------------------------------------------------------------- |
| **结构提取** | 函数、类、方法、结构体、接口、枚举 |
| **导入/导出分析** | 模块依赖、重新导出、通配符导入 |
| **符号提取** | 变量、常量、类型别名、属性 |
| **文档字符串解析** | Google、NumPy、Sphinx、JSDoc、RustDoc 等 10 多种格式 |
| **诊断** | 带行/列位置的解析错误 |
| **语法感知分块** | 按语义边界分割代码,而非任意字节偏移 |
由 [tree-sitter-language-pack](https://github.com/kreuzberg-dev/tree-sitter-language-pack) 提供支持,支持动态语法下载。完整语言列表参见 [TSLP 文档](https://docs.tree-sitter-language-pack.kreuzberg.dev)。
## 核心特性
## AI 编码助手
Kreuzberg 附带一个 [Agent Skill](https://agentskills.io),可教授 AI 编码助手如何正确使用本库。它支持 Claude Code、Codex、Gemini CLI、Cursor、VS Code、Amp、Goose、Roo Code 以及任何支持 Agent Skills 标准的工具。
使用 [Vercel Skills CLI](https://github.com/vercel-labs/skills) 将技能安装到任何项目中:
```
npx skills add kreuzberg-dev/kreuzberg
```
技能位于 [`skills/kreuzberg/SKILL.md`](skills/kreuzberg/SKILL.md),安装后会被支持的 AI 编码工具自动发现。
## 文档
- **[安装指南](https://docs.kreuzberg.dev/getting-started/installation/)** – 设置和依赖
- **[用户指南](https://docs.kreuzberg.dev/guides/extraction/)** – 全面的使用指南
- **[API 参考](https://docs.kreuzberg.dev/reference/api-python/)** – 完整的 API 文档
- **[格式支持](https://docs.kreuzberg.dev/reference/formats/)** – 支持的文件格式
- **[OCR 后端](https://docs.kreuzberg.dev/guides/ocr/)** – OCR 引擎设置
- **[CLI 指南](https://docs.kreuzberg.dev/cli/usage/)** – 命令行使用
- **[迁移指南](https://docs.kreuzberg.dev/migration/from-unstructured/)** – 从其他库升级
## Kreuzberg.dev 生态
- [Kreuzberg Cloud](https://github.com/kreuzberg-dev/kreuzberg-cloud) — 托管的提取 API,提供 SDK、仪表盘和可观测性。
- [kreuzcrawl](https://github.com/kreuzberg-dev/kreuzcrawl) — 网络爬取和抓取,支持 HTML→Markdown 和无头 Chrome 回退。
- [html-to-markdown](https://github.com/kreuzberg-dev/html-to-markdown) – 快速、无损的 HTML→Markdown 引擎。
- [liter-llm](https://github.com/kreuzberg-dev/liter-llm) — 通用 LLM API 客户端,支持 14 种语言的原生绑定和 143 个提供商。
- [tree-sitter-language-pack](https://github.com/kreuzberg-dev/tree-sitter-language-pack) — tree-sitter 语法和代码智能原语。
- [alef](https://github.com/kreuzberg-dev/alef) — 多语言绑定生成器,生成所有各语言绑定。
- [Discord](https://discord.gg/xt9WY3GnKR) — 社区、路线图、公告。
## 许可证
Elastic License 2.0(ELv2)— 详见 [LICENSE](LICENSE)。完整许可证文本参见 [https://www.elastic.co/licensing/elastic-license](https://www.elastic.co/licensing/elastic-license)。
## 常见问题
### Kreuzberg 是什么?
Kreuzberg 是一个多语言文档智能框架,核心采用 Rust 编写。它以原生速度从 90 多种文件格式和 300 多种编程语言中提取文本、元数据和代码智能,无需 GPU。它为 Rust、Python、TypeScript/Node.js、Ruby、Go、Java、Kotlin、C#、PHP、Elixir、R、Dart、Swift、Zig 和 C 提供原生绑定。
### Kreuzberg 与其他文档提取工具有何不同?
- **Kreuzberg**:Rust 核心,90+ 种格式,300+ 种语言,多语言绑定,通过 tree-sitter 实现代码智能,VLM OCR,原生速度,无需 GPU
- **Apache Tika**:基于 Java,格式支持更广泛,但速度较慢,无代码智能,无 VLM OCR
- **pdfplumber**:仅限 Python,专注 PDF,速度较慢,无代码智能
- **unstructured**:基于 Python,格式覆盖良好,但速度较慢,依赖更多
Kreuzberg 的 Rust 核心结合 SIMD 优化和并行处理,提取速度比 Python 替代方案快 10-100 倍。
### Kreuzberg 的主要特性是什么?
- **代码智能** — 通过 tree-sitter 从 300 多种语言中提取函数、类、导入、符号、文档字符串
- **可扩展架构** — 插件系统,支持自定义 OCR 后端、验证器、后处理器、文档提取器、渲染器
- **多语言绑定** — 14+ 种语言的原生绑定(Rust、Python、Node.js、Ruby、Go、Java、Kotlin、C#、PHP、Elixir、R、Dart、Swift、Zig、C)
- **90 多种文件格式** — PDF、Office 文档、图片、HTML、XML、电子邮件、归档文件、学术格式,共 8 大类
- **LLM 智能** — VLM OCR(GPT-4o、Claude、Gemini、Ollama)、结构化 JSON 提取,通过 143 个 LLM 提供商实现嵌入
- **OCR 支持** — Tesseract(所有绑定,包括浏览器用的 WASM)、PaddleOCR、EasyOCR、VLM OCR,可通过插件 API 扩展
- **高性能** — Rust 核心,纯 Rust PDF 实现,SIMD 优化,完全并行
- **灵活部署** — 库、CLI 工具、REST API 服务器或 MCP 服务器
- **TOON 线格式** — 面向 LLM/RAG 管道的令牌高效序列化,比 JSON 节省约 30-50% 的令牌
- **GFM 质量输出** — 基于 Comrak 的 Markdown 渲染,支持正确的围栏代码块、表格节点
- **内存高效** — 支持多 GB 文件的流式解析器
### Kreuzberg 支持哪些文件格式?
8 大类共 90 多种格式:
- **文档** — PDF、DOCX、DOC、ODT、RTF、韩文
- **Office** — XLSX、XLS、PPTX、PPT、ODS、iWork
- **图片** — PNG、JPEG、TIFF、BMP、GIF、WebP
- **Web** — HTML、XML、XHTML、SVG
- **电子邮件** — MSG、EML、PST
- **归档文件** — ZIP、TAR、GZ、TGZ、7Z
- **学术** — LaTeX、BibTeX、RIS
- **代码** — 通过 tree-sitter 支持 300 多种编程语言
### 如何开始使用?
选择你的平台:
**Python:**
```
pip install kreuzberg
```
参见 [Python 文档](https://github.com/kreuzberg-dev/kreuzberg/tree/main/packages/python)
**Node.js:**
```
npm install @kreuzberg/node
```
参见 [Node.js 文档](https://github.com/kreuzberg-dev/kreuzberg/tree/main/crates/kreuzberg-node)
**Rust:**
```
cargo add kreuzberg
```
参见 [Rust 文档](https://github.com/kreuzberg-dev/kreuzberg/tree/main/crates/kreuzberg)
**Docker:**
```
docker pull ghcr.io/kreuzberg-dev/kreuzberg:latest
```
参见 [Docker 文档](https://docs.kreuzberg.dev/guides/docker/)
### 支持哪些 LLM/VLM 提供商?
143 个提供商,包括:
- **OpenAI** — GPT-4o(视觉)、文本模型
- **Anthropic** — Claude(视觉)、Claude 3.5 Sonnet
- **Google** — Gemini(视觉)、Gemini 2.0 Flash
- **本地引擎** — Ollama、LM Studio、vLLM、llama.cpp
- **云提供商** — Fireworks、Together、Groq、OpenRouter
- **所有 OpenAI 兼容端点**
### 有哪些 OCR 后端可用?
- **Tesseract** — 所有绑定,包括浏览器用的 Tesseract-WASM
- **PaddleOCR** — 所有原生绑定(Python、Node.js 等)
- **EasyOCR** — Python 绑定
- **VLM OCR** — 143 个视觉模型提供商(GPT-4o、Claude、Gemini、Ollama 本地)
- **自定义 OCR** — 可通过插件 API 扩展
### 什么是 TOON 线格式?
TOON 是 Kreuzberg 面向 LLM/RAG 管道的令牌高效序列化格式。它比 JSON 使用约 30-50% 更少的令牌,非常适合:
- 大型文档处理
- RAG 系统集成
- LLM 上下文窗口优化
- 降低 API 调用成本
### 什么是代码智能提取?
Kreuzberg 通过 tree-sitter 提取语义代码信息:
- **函数** — 名称、参数、返回类型、文档字符串
- **类** — 名称、方法、继承、属性
- **导入** — 模块名称、导入路径
- **符号** — 变量、常量、类型定义
- **文档字符串** — 文档注释
结果存储在 `ExtractionResult.code_intelligence` 中,支持语义分块。
### Kreuzberg 能在浏览器中运行吗!
可以!WASM 包(`@kreuzberg/wasm`)支持浏览器、Deno 和 Cloudflare Workers,具备:
- PDF、Excel、归档文件、所有 Office 格式
- 通过 WASI 构建的真实 Tesseract OCR
- 仅排除依赖 ORT 的功能(PaddleOCR、布局检测、嵌入、自动旋转)
### 有哪些部署选项?
- **库** — 作为应用程序中的依赖使用
- **CLI** — 用于批处理的跨平台二进制文件
- **REST API 服务器** — 文档提取的 HTTP 端点
- **MCP 服务器** — 面向 AI 助手的 Model Context Protocol 服务器
- **Docker** — 官方镜像,支持 API、CLI 和 MCP 模式
### 哪些语言有原生绑定?
| 语言 | 包管理器 | 状态 |
|----------|----------------|--------|
| Rust | Cargo | ✅ 核心库 |
| Python | PyPI | ✅ 完整支持 |
| Node.js | npm(NAPI-RS) | ✅ 最快性能 |
| WASM | npm | ✅ 浏览器/Deno/CF Workers |
| Ruby | RubyGems | ✅ 原生绑定 |
| Go | Go modules | ✅ FFI 绑定 |
| Java | Maven Central | ✅ Foreign Function API |
| Kotlin | Maven Central | ✅ 基于协程 |
| C# | NuGet | ✅ .NET 6.0+ |
| PHP | Composer | ✅ PHP 8.2+ |
| Elixir | Hex | ✅ OTP 集成 |
| R | r-universe | ✅ extendr 绑定 |
| Dart/Flutter | pub.dev | ✅ flutter_rust_bridge |
| Swift | SPM | ✅ macOS 13+/iOS 16+ |
| Zig | build.zig.zon | ✅ 符合习惯的 API |
| C (FFI) | pkg-config/CMake | ✅ 头文件 + 共享库 |
### 支持哪些平台?
所有绑定均支持:
- **Linux** — x86_64 和 aarch64
- **macOS** — ARM64
- **Windows** — x64(大多数绑定)
所有架构均包含预编译二进制文件。
### Kreuzberg 使用什么许可证?
Elastic-2.0 许可证 — 开源,但有商业使用限制。详见 [LICENSE](https://github.com/kreuzberg-dev/kreuzberg/blob/main/LICENSE)。
### 在哪里可以获得帮助?
- **文档**:[docs.kreuzberg.dev](https://docs.kreuzberg.dev)
- **在线演示**:[docs.kreuzberg.dev/demo.html](https://docs.kreuzberg.dev/demo.html)
- **Discord**:[discord.gg/xt9WY3GnKR](https://discord.gg/xt9WY3GnKR)
- **Hugging Face**:[huggingface.co/Kreuzberg](https://huggingface.co/Kreuzberg)
- **GitHub Issues**:[github.com/kreuzberg-dev/kreuzberg/issues](https://github.com/kreuzberg-dev/kreuzberg/issues)
带表格提取的 OCR
多个 OCR 后端(Tesseract、EasyOCR、PaddleOCR),支持智能表格检测和重建。从扫描文档和图片中提取结构化数据,可配置准确率阈值。 **[OCR 后端文档 →](https://docs.kreuzberg.dev/guides/ocr/)**批处理
以可配置的并行度并发处理多个文档。通过自动资源管理优化大规模文档处理工作负载的吞吐量。 **[批处理指南 →](https://docs.kreuzberg.dev/features/#batch-processing)**密码保护的 PDF
处理带单次或多次密码尝试的加密 PDF。支持 RC4 和 AES 加密,具备自动回退策略。 **[PDF 配置 →](https://docs.kreuzberg.dev/guides/configuration/)**语言检测
使用 fast-langdetect 对提取的文本进行自动语言检测。配置置信度阈值并访问各语言的统计信息。 **[语言检测指南 →](https://docs.kreuzberg.dev/features/#language-detection)**元数据提取
从所有支持的格式中提取全面的元数据:作者、标题、创建日期、页数、EXIF 数据和格式特定的属性。 **[元数据指南 →](https://docs.kreuzberg.dev/reference/types/#metadata)**标签:97+格式, AI工具, Bun, C, CLI, Deno, Elixir, GNU通用公共许可证, Go, JS文件枚举, kreuzberg, MCP服务器, MITM代理, Node.js, OCR, Office文档, OpenVAS, PDF解析, PHP, polyglot, Python, R, REST API, Ruby, Ruby工具, Rust库, Rust核心, TypeScript, WASM, WiFi技术, 企业文档处理, 信息检索, 元数据提取, 内容提取, 可视化界面, 图像提取, 多格式支持, 多语言SDK, 多语言绑定, 安全插件, 开源框架, 批量处理, 持续集成, 数据提取, 文件解析, 文本挖掘, 文本提取, 文档分析, 文档处理, 文档数字化, 文档智能, 文档管理, 文档自动化, 无后门, 日志审计, 格式转换, 知识库, 结构化信息提取, 请求拦截, 进程保护, 逆向工具, 通知系统, 高性能解析