opendatalab/MinerU
GitHub: opendatalab/MinerU
MinerU 是一款高精度文档解析引擎,可将 PDF、DOCX、图片等文档转换为结构化的 Markdown/JSON 格式,为 LLM、RAG 和 Agent 工作流提供高质量的文本数据。
Stars: 58536 | Forks: 4847
[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU/issues)
[](https://github.com/opendatalab/MinerU/issues)
[](https://pypi.org/project/mineru/)
[](https://pypi.org/project/mineru/)
[](https://pepy.tech/project/mineru)
[](https://pepy.tech/project/mineru)
[](https://mineru.net/OpenSourceTools/Extractor?source=github)
[](https://huggingface.co/spaces/opendatalab/MinerU)
[](https://www.modelscope.cn/studios/OpenDataLab/MinerU)
[](https://colab.research.google.com/gist/myhloli/a3cb16570ab3cfeadf9d8f0ac91b4fca/mineru_demo.ipynb)
[](https://arxiv.org/abs/2409.18839)
[](https://arxiv.org/abs/2509.22186)
[](https://deepwiki.com/opendatalab/MinerU)

[English](README.md) | [简体中文](README_zh-CN.md)
🚀立即访问 MinerU→✅ 无需安装的网页版本 ✅ 功能完善的桌面客户端 ✅ 快速获取 API 访问;无需繁琐部署——一键获取所有产品格式。开发者们,快来体验吧!
👋 加入我们的 Discord 和 微信 社区
MinerU — 面向 LLM · RAG · Agent 工作流的高精度文档解析引擎
将 PDF · Word · PPT · 图片 · 网页转换为结构化 Markdown / JSON · VLM+OCR 双引擎 · 109 种语言
MCP Server · LangChain / Dify / FastGPT 原生集成 · 10+ 款国产 AI 芯片支持
**🔍 核心解析能力**
- 公式 → LaTeX · 表格 → HTML,精准布局重建
- 支持扫描文档、手写体、多栏布局、跨页表格合并
- 输出遵循人类阅读顺序,自动去除页眉页脚
- VLM + OCR 双引擎,109 种语言 OCR 识别
**🔌 集成方案**
| 使用场景 | 解决方案 |
|----------|----------|
| AI 编程工具 | MCP Server — Cursor · Claude Desktop · Windsurf |
| RAG 框架 | LangChain · LlamaIndex · RAGFlow · RAG-Anything · Flowise · Dify · FastGPT |
| 开发使用 | Python / Go / TypeScript SDK · CLI · REST API · Docker |
| 无代码 | mineru.net 在线版 · Gradio WebUI · 桌面客户端 |
**🖥️ 部署方案(私有 · 完全离线)**
| 推理后端 | 适用场景 |
|------------------|---------|
| pipeline | 快速稳定,无幻觉,支持 CPU 或 GPU 运行 |
| vlm-engine | 高精度,支持 vLLM / LMDeploy / mlx 生态 |
| vlm-engine | 高精度,原生文本提取,低幻觉 |
国产 AI 芯片:Ascend · Cambricon · Enflame · MetaX · Moore Threads · Kunlunxin · Iluvatar · Hygon · Biren · T-Head
# 更新日志
- 2026/03/29 3.0.0 版本发布
本次更新带来了围绕**解析能力、系统架构和工程可用性**的系统性升级。主要更新包括:
- 原生 `DOCX` 解析
- 正式支持原生 `DOCX` 解析,提供高精度、无幻觉的解析结果。
- 与传统的先将 `DOCX` 转换为 PDF 再解析的工作流相比,端到端速度提升数十倍,更适合对精度和吞吐量都有较高要求的场景。
- `pipeline` 后端升级
- `pipeline` 后端在 OmniDocBench (v1.5) 上取得了 `86.2` 的分数,超越了上一代主流 VLM `MinerU2.0-2505-0.9B` 的精度。
- 新增表格内图片/公式解析、印章文字识别、竖排文字支持、行间公式编号识别等功能,持续提升复杂文档场景的解析质量。
- 在保持高精度的同时,资源消耗极低,继续支持纯 CPU 环境推理。
- `API / CLI / Router` 编排升级
- `mineru` 现在是基于 `mineru-api` 的编排客户端;当未提供 `--api-url` 时,它会自动启动本地临时服务。
- `mineru-api` 新增异步任务端点 `POST /tasks`,支持任务提交、状态查询和结果获取;同时保留同步解析端点 `POST /file_parse` 以兼容旧版插件。
- 新增 `mineru-router`,专为多服务、多 GPU 的统一入口部署和任务路由而设计;其接口与 `mineru-api` 完全兼容,支持自动任务负载均衡。
- 部署和可用性改进
- 解决了与 `torch >= 2.8` 的兼容性问题;基础镜像已升级至 `vllm0.11.2 + torch2.9.0`,统一了不同计算能力的安装路径。
- 优化了解析流水线,引入滑动窗口机制,显著降低了长文档场景下的峰值内存占用,使得数万页的文档不再需要手动拆分。
- `pipeline` 的批量推理现在支持流式写入磁盘,能够及时写出已完成的解析结果,进一步提升了长时间运行任务的体验。
- 完成线程安全优化,现在全面支持多线程并发推理;结合 `mineru-router`,可实现一键多 GPU 部署,轻松构建高并发、高吞吐解析系统。
- 完全移除了两个 AGPLv3 模型(`doclayoutyolo` 和 `mfd_yolov8`)和一个 CC-BY-NC-SA 4.0 模型(`layoutreader`)的使用。
本次更新不仅仅是一系列功能增强,更是 MinerU 整体系统能力的关键跃升。我们特别针对长文档解析的峰值内存占用问题进行了优化。通过滑动窗口和流式写入磁盘等优化,超长文档解析已从“需要手动拆分和谨慎处理”转变为“稳定、可扩展、可投入生产”。同时,我们完成了线程安全优化,全面开启了多线程并发推理,进一步提升了单机资源利用率和高并发工作负载下的运行时稳定性。在此基础上,配合 `mineru-router` 和新的 `API / CLI` 编排框架,MinerU 现在支持一键多 GPU 部署、多服务统一接入和自动任务负载均衡,大幅降低了大规模部署的难度。由此,MinerU 正从独立的数据生产工具演变为面向高并发、高吞吐场景的大规模文档解析基础设施,为企业提供更稳定、更高效、更易扩展的企业级文档数据处理能力。
# MinerU
## 项目介绍
MinerU 是一款文档解析工具,可将 `PDF`、图片和 `DOCX` 输入转换为 Markdown 和 JSON 等机器可读格式,用于下游的检索、提取和处理。
MinerU 诞生于 [InternLM](https://github.com/InternLM/InternLM) 的预训练过程中。我们专注于解决科技文献中的符号转换问题,希望为大型模型时代的技术发展做出贡献。
与知名商业产品相比,MinerU 仍处于起步阶段。如果您遇到任何问题或结果不符合预期,请在 [issue](https://github.com/opendatalab/MinerU/issues) 上问题,并**附上相关文档或样本文件**。
https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
## 核心功能
- 支持 `PDF`、图片和 `DOCX` 输入。
- 去除页眉、页脚、脚注、页码等,确保语义连贯。
- 按人类阅读顺序输出文本,适用于单栏、多栏和复杂布局。
- 保留原始文档的结构,包括标题、段落、列表等。
- 提取图片、图片描述、表格、表格标题和脚注。
- 自动识别并转换文档中的公式为 LaTeX 格式。
- 自动识别并转换文档中的表格为 HTML 格式。
- 自动检测扫描 PDF 和乱码 PDF 并启用 OCR 功能。
- OCR 支持 109 种语言的检测和识别。
- 支持多种输出格式,如多模态和 NLP Markdown、按阅读顺序排序的 JSON 以及丰富的中间格式。
- 支持多种可视化结果,包括布局可视化和跨度可视化,可高效确认输出质量。
- 内置 CLI、FastAPI、Gradio WebUI,支持本地编排和多服务部署。
- 支持纯 CPU 环境运行,也支持 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容 Windows、Linux 和 Mac 平台。
# 快速开始
如果遇到任何安装问题,请先查阅
常见问题。
如果解析结果不符合预期,请参考
已知问题。
## 在线体验
### 官方在线网页应用
官方在线版本功能与客户端相同,界面美观,功能丰富,需要登录使用
- [](https://mineru.net/OpenSourceTools/Extractor?source=github)
### 基于 Gradio 的在线演示
基于 Gradio 开发的 WebUI,界面简洁,仅包含核心解析功能,无需登录
- [](https://www.modelscope.cn/studios/OpenDataLab/MinerU)
- [](https://huggingface.co/spaces/opendatalab/MinerU)
## 本地部署
| 解析后端 |
pipeline |
*-auto-engine |
*-http-client |
| hybrid |
vlm |
hybrid |
vlm |
| 后端特性 |
兼容性好 |
硬件要求高 |
适用于 OpenAI 兼容服务器2 |
| 精度1 |
86+ |
90+ |
| 操作系统 |
Linux3 / Windows4 / macOS5 |
| 纯 CPU 支持 |
✅ |
❌ |
✅ |
| GPU 加速 |
Volta 及以后架构 GPU 或 Apple Silicon |
不需要 |
| 最小显存 |
4GB |
8GB |
8GB |
2GB |
| 内存 |
最小 16GB,推荐 32GB 或以上 |
最小 16GB |
| 磁盘空间 |
最小 20GB,推荐 SSD |
最小 2GB |
| Python 版本 |
3.10-3.13 |
1 精度指标为 OmniDocBench (v1.5) 的端到端评估综合分数,基于最新版本的 `MinerU`。
2 与 OpenAI API 兼容的服务器,如通过 `vLLM`/`SGLang`/`LMDeploy` 等推理框架部署的本地模型服务器或远程模型服务。
3 Linux 仅支持 2019 年及以后发布的发行版。
4 由于关键依赖 `ray` 在 Windows 上不支持 Python 3.13,因此仅支持 3.10~3.12 版本。
5 macOS 需要 14.0 或更高版本。
### 安装 MinerU
#### 使用 pip 或 uv 安装 MinerU
```
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
```
#### 从源码安装 MinerU
```
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]
```
#### 使用 Docker 部署 MinerU
MinerU 提供了便捷的 Docker 部署方式,可快速搭建环境并解决一些棘手的环境兼容问题。
您可以在文档中获取 [Docker 部署说明](https://opendatalab.github.io/MinerU/quick_start/docker_deployment/)。
### 使用 MinerU
如果您的设备满足上表中 GPU 加速的要求,可以使用简单的命令行进行文档解析:
```
mineru -p
-o
```
如果您的设备不满足 GPU 加速要求,可以指定后端为 `pipeline` 在纯 CPU 环境下运行:
```
mineru -p -o -b pipeline
```
`mineru` 目前支持本地 `PDF`、图片和 `DOCX` 文件或目录输入,可通过 CLI、API、WebUI 和 `mineru-router` 进行文档解析。详细说明请参阅[使用指南](https://opendatalab.github.io/MinerU/usage/)。
# 待办事项
- [x] 基于模型的阅读顺序
- [x] 识别正文中的 `index` 和 `list`
- [x] 表格识别
- [x] 标题分类
- [x] 手写体识别
- [x] 竖排文字识别
- [x] 拉丁重音符号识别
- [x] 正文中的代码块识别
- [x] [化学公式识别](docs/chemical_knowledge_introduction/introduction.pdf)(mineru.net)
- [ ] 几何形状识别
# 已知问题
- 阅读顺序由模型根据可读内容的空间分布确定,在某些极端复杂布局的区域可能出现顺序错乱。
- 对竖排文字的支持有限。
- 目录和列表通过规则识别,某些不常见的列表格式可能无法识别。
- 布局模型尚不支持代码块。
- 漫画、艺术画册、小学教材和习题无法很好地解析。
- 表格识别在复杂表格中可能出现行/列识别错误。
- OCR 识别在较小众语言的 PDF 中可能出现字符不准确的情况(如拉丁语系的变音符号、阿拉伯语系中易混淆的字符)。
- 部分公式在 Markdown 中可能无法正确渲染。
# 常见问题
- 如果在使用过程中遇到任何问题,您可以先查阅[常见问题](https://opendatalab.github.io/MinerU/faq/)寻找解决方案。
- 如果问题仍未解决,您也可以使用 [DeepWiki](https://deepwiki.com/opendatalab/MinerU) 与 AI 助手交互,它能解决大多数常见问题。
- 如果仍然无法解决问题,欢迎通过 [Discord](https://discord.gg/Tdedn9GTXq) 或[微信](https://mineru.net/community-portal/?aliasId=3c430f94) 加入我们的社区,与其他用户和开发者讨论。
# 许可证信息
[LICENSE.md](LICENSE.md)
本仓库的源代码采用 AGPLv3 许可证。
# 致谢
- [UniMERNet](https://github.com/opendatalab/UniMERNet)
- [TableStructureRec](https://github.com/RapidAI/TableStructureRec)
- [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR)
- [PaddleOCR2Pytorch](https://github.com/frotms/PaddleOCR2Pytorch)
- [fast-langdetect](https://github.com/LlmKira/fast-langdetect)
- [pypdfium2https://github.com/pypdfium2-team/pypdfium2)
- [pdftext](https://github.com/datalab-to/pdftext)
- [pdfminer.six](https://github.com/pdfminer/pdfminer.six)
- [pypdf](https://github.com/py-pdf/pypdf)
- [magika](https://github.com/google/magika)
- [vLLM](https://github.com/vllm-project/vllm)
- [LMDeploy](https://github.com/InternLM/lmdeploy)
# 引用
```
@article{dong2026minerudiffusion,
title={MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding},
author={Dong, Hejun and Niu, Junbo and Wang, Bin and Zeng, Weijun and Zhang, Wentao and He, Conghui},
journal={arXiv preprint arXiv:2603.22458},
year={2026}
}
@article{niu2025mineru2,
title={Mineru2. 5: A decoupled vision-language model for efficient high-resolution document parsing},
author={Niu, Junbo and Liu, Zheng and Gu, Zhuangcheng and Wang, Bin and Ouyang, Linke and Zhao, Zhiyuan and Chu, Tao and He, Tianyao and Wu, Fan and Zhang, Qintong and others},
journal={arXiv preprint arXiv:2509.22186},
year={2025}
}
@article{wang2024mineru,
title={Mineru: An open-source solution for precise document content extraction},
author={Wang, Bin and Xu, Chao and Zhao, Xiaomeng and Ouyang, Linke and Wu, Fan and Zhao, Zhiyuan and Xu, Rui and Liu, Kaiwen and Qu, Yuan and Shang, Fukai and others},
journal={arXiv preprint arXiv:2409.18839},
year={2024}
}
@article{he2024opendatalab,
title={Opendatalab: Empowering general artificial intelligence with open datasets},
author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua},
journal={arXiv preprint arXiv:2407.13773},
year={2024}
}
```
# Star 历史
# 相关链接
- [MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding](https://github.com/opendatalab/MinerU-Diffusion)
- [Easy Data Preparation with latest LLMs-based Operators and Pipelines](https://github.com/OpenDCAI/DataFlow)
- [Vis3 (基于 s3 的开源浏览器)](https://github.com/opendatalab/Vis3)
- [LabelU (轻量级多模态数据标注工具)](https://github.com/opendatalab/labelU)
- [LabelLLM (开源 LLM 对话标注平台)](https://github.com/opendatalab/LabelLLM)
- [PDF-Extract-Kit (高质量 PDF 内容提取综合工具包)](https://github.com/opendatalab/PDF-Extract-Kit)
- [OmniDocBench (文档解析与评估综合基准)](https://github.com/opendatalab/OmniDocBench)
- [Magic-HTML (混合网页提取工具)](https://github.com/opendatalab/magic-html)
- [Magic-Doc (快速 ppt/pptx/doc/docx/pdf 提取工具)](https://github.com/InternLM/magic-doc)
- [Dingo: 综合 AI 数据质量评估工具](https://github.com/MigoXLab/dingo)标签:Agent, AIGC, DLL 劫持, JSON, LLM, Markdown, OCR, PDF解析, PDF转换, Python, RAG, Ruby, Unmanaged PE, 人工智能, 凭据扫描, 大语言模型, 工作流, 数据提取, 文本识别, 文档处理, 文档提取, 无后门, 深度学习, 用户模式Hook绕过, 知识库, 结构化数据, 请求拦截, 逆向工具