opendatalab/MinerU

GitHub: opendatalab/MinerU

一款面向 LLM 与 RAG 工作流的高精度文档解析引擎，可将 PDF、Office 文档等复杂格式转换为结构化的 Markdown 和 JSON。

Stars: 75078 | Forks: 6306

[![stars](https://img.shields.io/github/stars/opendatalab/MinerU.svg)](https://github.com/opendatalab/MinerU) [![forks](https://img.shields.io/github/forks/opendatalab/MinerU.svg)](https://github.com/opendatalab/MinerU) [![open issues](https://img.shields.io/github/issues-raw/opendatalab/MinerU)](https://github.com/opendatalab/MinerU/issues) [![issue resolution](https://img.shields.io/github/issues-closed-raw/opendatalab/MinerU)](https://github.com/opendatalab/MinerU/issues) [![PyPI version](https://img.shields.io/pypi/v/mineru)](https://pypi.org/project/mineru/) [![PyPI - Python Version](https://img.shields.io/pypi/pyversions/mineru)](https://pypi.org/project/mineru/) [![Downloads](https://static.pepy.tech/badge/mineru)](https://pepy.tech/project/mineru) [![Downloads](https://static.pepy.tech/badge/mineru/month)](https://pepy.tech/project/mineru) [![OpenDataLab](https://img.shields.io/badge/webapp_on_mineru.net-blue?logo=data:image/svg+xml;base64,PHN2ZyB3aWR0aD0iMTM0IiBoZWlnaHQ9IjEzNCIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj48cGF0aCBkPSJtMTIyLDljMCw1LTQsOS05LDlzLTktNC05LTksNC05LDktOSw5LDQsOSw5eiIgZmlsbD0idXJsKCNhKSIvPjxwYXRoIGQ9Im0xMjIsOWMwLDUtNCw5LTksOXMtOS00LTktOSw0LTksOS05LDksNCw5LDl6IiBmaWxsPSIjMDEwMTAxIi8+PHBhdGggZD0ibTkxLDE4YzAsNS00LDktOSw5cy05LTQtOS05LDQtOSw5LTksOSw0LDksOXoiIGZpbGw9InVybCgjYikiLz48cGF0aCBkPSJtOTEsMThjMCw1LTQsOS05LDlzLTktNC05LTksNC05LDktOSw5LDQsOSw5eiIgZmlsbD0iIzAxMDEwMSIvPjxwYXRoIGZpbGwtcnVsZT0iZXZlbm9kZCIgY2xpcC1ydWxlPSJldmVub2RkIiBkPSJtMzksNjJjMCwxNiw4LDMwLDIwLDM4LDctNiwxMi0xNiwxMi0yNlY0OWMwLTQsMy03LDYtOGw0Ni0xMmM1LTEsMTEsMywxMSw4djMxYzAsMzctMzAsNjYtNjYsNjYtMzcsMC02Ni0zMC02Ni02NlY0NmMwLTQsMy03LDYtOGwyMC02YzUtMSwxMSwzLDExLDh2MjF6bS0yOSw2YzAsMTYsNiwzMCwxNyw0MCwzLDEsNSwxLDgsMSw1LDAsMTAtMSwxNS0zQzM3LDk1LDI5LDc5LDI5LDYyVjQybC0xOSw1djIweiIgZmlsbD0idXJsKCNjKSIvPjxwYXRoIGZpbGwtcnVsZT0iZXZlbm9kZCIgY2xpcC1ydWxlPSJldmVub2RkIiBkPSJtMzksNjJjMCwxNiw4LDMwLDIwLDM4LDctNiwxMi0xNiwxMi0yNlY0OWMwLTQsMy03LDYtOGw0Ni0xMmM1LTEsMTEsMywxMSw4djMxYzAsMzctMzAsNjYtNjYsNjYtMzcsMC02Ni0zMC02Ni02NlY0NmMwLTQsMy03LDYtOGwyMC02YzUtMSwxMSwzLDExLDh2MjF6bS0yOSw2YzAsMTYsNiwzMCwxNyw0MCwzLDEsNSwxLDgsMSw1LDAsMTAtMSwxNS0zQzM3LDk1LDI5LDc5LDI5LDYyVjQybC0xOSw1djIweiIgZmlsbD0iIzAxMDEwMSIvPjxkZWZzPjxsaW5lYXJHcmFkaWVudCBpZD0iYSIgeDE9Ijg0IiB5MT0iNDEiIHgyPSI3NSIgeTI9IjEyMCIgZ3JhZGllbnRVbml0cz0idXNlclNwYWNlT25Vc2UiPjxzdG9wIHN0b3AtY29sb3I9IiNmZmYiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMyZTJlMmUiLz48L2xpbmVhckdyYWRpZW50PjxsaW5lYXJHcmFkaWVudCBpZD0iYiIgeDE9Ijg0IiB5MT0iNDEiIHgyPSI3NSIgeTI9IjEyMCIgZ3JhZGllbnRVbml0cz0idXNlclNwYWNlT25Vc2UiPjxzdG9wIHN0b3AtY29sb3I9IiNmZmYiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMyZTJlMmUiLz48L2xpbmVhckdyYWRpZW50PjxsaW5lYXJHcmFkaWVudCBpZD0iYyIgeDE9Ijg0IiB5MT0iNDEiIHgyPSI3NSIgeTI9IjEyMCIgZ3JhZGllbnRVbml0cz0idXNlclNwYWNlT25Vc2UiPjxzdG9wIHN0b3AtY29sb3I9IiNmZmYiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMyZTJlMmUiLz48L2xpbmVhckdyYWRpZW50PjwvZGVmcz48L3N2Zz4=&labelColor=white)](https://mineru.net/OpenSourceTools/Extractor?source=github) [![HuggingFace](https://img.shields.io/badge/Demo_on_HuggingFace-yellow.svg?logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAF8AAABYCAMAAACkl9t/AAAAk1BMVEVHcEz/nQv/nQv/nQr/nQv/nQr/nQv/nQv/nQr/wRf/txT/pg7/yRr/rBD/zRz/ngv/oAz/zhz/nwv/txT/ngv/0B3+zBz/nQv/0h7/wxn/vRb/thXkuiT/rxH/pxD/ogzcqyf/nQvTlSz/czCxky7/SjifdjT/Mj3+Mj3wMj15aTnDNz+DSD9RTUBsP0FRO0Q6O0WyIxEIAAAAGHRSTlMADB8zSWF3krDDw8TJ1NbX5efv8ff9/fxKDJ9uAAAGKklEQVR42u2Z63qjOAyGC4RwCOfB2JAGqrSb2WnTw/1f3UaWcSGYNKTdf/P+mOkTrE+yJBulvfvLT2A5ruenaVHyIks33npl/6C4s/ZLAM45SOi/1FtZPyFur1OYofBX3w7d54Bxm+E8db+nDr12ttmESZ4zludJEG5S7TO72YPlKZFyE+YCYUJTBZsMiNS5Sd7NlDmKM2Eg2JQg8awbglfqgbhArjxkS7dgp2RH6hc9AMLdZYUtZN5DJr4molC8BfKrEkPKEnEVjLbgW1fLy77ZVOJagoIcLIl+IxaQZGjiX597HopF5CkaXVMDO9Pyix3AFV3kw4lQLCbHuMovz8FallbcQIJ5Ta0vks9RnolbCK84BtjKRS5uA43hYoZcOBGIG2Epbv6CvFVQ8m8loh66WNySsnN7htL58LNp+NXT8/PhXiBXPMjLSxtwp8W9f/1AngRierBkA+kk/IpUSOeKByzn8y3kAAAfh//0oXgV4roHm/kz4E2z//zRc3/lgwBzbM2mJxQEa5pqgX7d1L0htrhx7LKxOZlKbwcAWyEOWqYSI8YPtgDQVjpB5nvaHaSnBaQSD6hweDi8PosxD6/PT09YY3xQA7LTCTKfYX+QHpA0GCcqmEHvr/cyfKQTEuwgbs2kPxJEB0iNjfJcCTPyocx+A0griHSmADiC91oNGVwJ69RudYe65vJmoqfpul0lrqXadW0jFKH5BKwAeCq+Den7s+3zfRJzA61/Uj/9H/VzLKTx9jFPPdXeeP+L7WEvDLAKAIoF8bPTKT0+TM7W8ePj3Rz/Yn3kOAp2f1Kf0Weony7pn/cPydvhQYV+eFOfmOu7VB/ViPe34/EN3RFHY/yRuT8ddCtMPH/McBAT5s+vRde/gf2c/sPsjLK+m5IBQF5tO+h2tTlBGnP6693JdsvofjOPnnEHkh2TnV/X1fBl9S5zrwuwF8NFrAVJVwCAPTe8gaJlomqlp0pv4Pjn98tJ/t/fL++6unpR1YGC2n/KCoa0tTLoKiEeUPDl94nj+5/Tv3/eT5vBQ60X1S0oZr+IWRR8Ldhu7AlLjPISlJcO9vrFotky9SpzDequlwEir5beYAc0R7D9KS1DXva0jhYRDXoExPdc6yw5GShkZXe9QdO/uOvHofxjrV/TNS6iMJS+4TcSTgk9n5agJdBQbB//IfF/HpvPt3Tbi7b6I6K0R72p6ajryEJrENW2bbeVUGjfgoals4L443c7BEE4mJO2SpbRngxQrAKRudRzGQ8jVOL2qDVjjI8K1gc3TIJ5KiFZ1q+gdsARPB4NQS4AjwVSt72DSoXNyOWUrU5mQ9nRYyjp89Xo7oRI6Bga9QNT1mQ/ptaJq5T/7WcgAZywR/XlPGAUDdet3LE+qS0TI+g+aJU8MIqjo0Kx8Ly+maxLjJmjQ18rA0YCkxLQbUZP1WqdmyQGJLUm7VnQFqodmXSqmRrdVpqdzk5LvmvgtEcW8PMGdaS23EOWyDVbACZzUJPaqMbjDxpA3Qrgl0AikimGDbqmyT8P8NOYiqrldF8rX+YN7TopX4UoHuSCYY7cgX4gHwclQKl1zhx0THf+tCAUValzjI7Wg9EhptrkIcfIJjA94evOn8B2eHaVzvBrnl2ig0So6hvPaz0IGcOvTHvUIlE2+prqAxLSQxZlU2stql1NqCCLdIiIN/i1DBEHUoElM9dBravbiAnKqgpi4IBkw+utSPIoBijDXJipSVV7MpOEJUAc5Qmm3BnUN+w3hteEieYKfRZSIUcXKMVf0u5wD4EwsUNVvZOtUT7A2GkffHjByWpHqvRBYrTV72a6j8zZ6W0DTE86Hn04bmyWX3Ri9WH7ZU6Q7h+ZHo0nHUAcsQvVhXRDZHChwiyi/hnPuOsSEF6Exk3o6Y9DT1eZ+6cASXk2Y9k+6EOQMDGm6WBK10wOQJCBwren86cPPWUcRAnTVjGcU1LBgs9FURiX/e6479yZcLwCBmTxiawEwrOcleuu12t3tbLv/N4RLYIBhYexm7Fcn4OJcn0+zc+s8/VfPeddZHAGN6TT8eGczHdR/Gts1/MzDkThr23zqrVfAMFT33Nx1RJsx1k5zuWILLnG/vsH+Fv5D4NTVcp1Gzo8AAAAAElFTkSuQmCC&labelColor=white)](https://huggingface.co/spaces/opendatalab/MinerU) [![ModelScope](https://img.shields.io/badge/Demo_on_ModelScope-purple?logo=data:image/svg+xml;base64,PHN2ZyB3aWR0aD0iMjIzIiBoZWlnaHQ9IjIwMCIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj4KCiA8Zz4KICA8dGl0bGU+TGF5ZXIgMTwvdGl0bGU+CiAgPHBhdGggaWQ9InN2Z18xNCIgZmlsbD0iIzYyNGFmZiIgZD0ibTAsODkuODRsMjUuNjUsMGwwLDI1LjY0OTk5bC0yNS42NSwwbDAsLTI1LjY0OTk5eiIvPgogIDxwYXRoIGlkPSJzdmdfMTUiIGZpbGw9IiM2MjRhZmYiIGQ9Im05OS4xNCwxMTUuNDlsMjUuNjUsMGwwLDI1LjY1bC0yNS42NSwwbDAsLTI1LjY1eiIvPgogIDxwYXRoIGlkPSJzdmdfMTYiIGZpbGw9IiM2MjRhZmYiIGQ9Im0xNzYuMDksMTQxLjE0bC0yNS42NDk5OSwwbDAsMjIuMTlsNDcuODQsMGwwLC00Ny44NGwtMjIuMTksMGwwLDI1LjY1eiIvPgogIDxwYXRoIGlkPSJzdmdfMTciIGZpbGw9IiMzNmNmZDEiIGQ9Im0xMjQuNzksODkuODRsMjUuNjUsMGwwLDI1LjY0OTk5bC0yNS42NSwwbDAsLTI1LjY0OTk5eiIvPgogIDxwYXRoIGlkPSJzdmdfMTgiIGZpbGw9IiMzNmNmZDEiIGQ9Im0wLDY0LjE5bDI1LjY1LDBsMCwyNS42NWwtMjUuNjUsMGwwLC0yNS42NXoiLz4KICA8cGF0aCBpZD0ic3ZnXzE5IiBmaWxsPSIjNjI0YWZmIiBkPSJtMTk4LjI4LDg5Ljg0bDI1LjY0OTk5LDBsMCwyNS42NDk5OWwtMjUuNjQ5OTksMGwwLC0yNS42NDk5OXoiLz4KICA8cGF0aCBpZD0ic3ZnXzIwIiBmaWxsPSIjMzZjZmQxIiBkPSJtMTk4LjI4LDY0LjE5bDI1LjY0OTk5LDBsMCwyNS42NWwtMjUuNjQ5OTksMGwwLC0yNS42NXoiLz4KICA8cGF0aCBpZD0ic3ZnXzIxIiBmaWxsPSIjNjI0YWZmIiBkPSJtMTUwLjQ0LDQybDAsMjIuMTlsMjUuNjQ5OTksMGwwLDI1LjY1bDIyLjE5LDBsMCwtNDcuODRsLTQ3Ljg0LDB6Ii8+CiAgPHBhdGggaWQ9InN2Z18yMiIgZmlsbD0iIzM2Y2ZkMSIgZD0ibTczLjQ5LDg5Ljg0bDI1LjY1LDBsMCwyNS42NDk5OWwtMjUuNjUsMGwwLC0yNS42NDk5OXoiLz4KICA8cGF0aCBpZD0ic3ZnXzIzIiBmaWxsPSIjNjI0YWZmIiBkPSJtNDcuODQsNjQuMTlsMjUuNjUsMGwwLC0yMi4xOWwtNDcuODQsMGwwLDQ3Ljg0bDIyLjE5LDBsMCwtMjUuNjV6Ii8+CiAgPHBhdGggaWQ9InN2Z18yNCIgZmlsbD0iIzYyNGFmZiIgZD0ibTQ3Ljg0LDExNS40OWwtMjIuMTksMGwwLDQ3Ljg0bDQ3Ljg0LDBsMCwtMjIuMTlsLTI1LjY1LDBsMCwtMjUuNjV6Ii8+CiA8L2c+Cjwvc3ZnPg==&labelColor=white)](https://www.modelscope.cn/studios/OpenDataLab/MinerU) [![Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/gist/myhloli/a3cb16570ab3cfeadf9d8f0ac91b4fca/mineru_demo.ipynb) [![arXiv](https://img.shields.io/badge/MinerU-Technical%20Report-b31b1b.svg?logo=arXiv)](https://arxiv.org/abs/2409.18839) [![arXiv](https://img.shields.io/badge/MinerU2.5-Technical%20Report-b31b1b.svg?logo=arXiv)](https://arxiv.org/abs/2509.22186) [![arXiv](https://img.shields.io/badge/MinerU2.5%20Pro-Technical%20Report-b31b1b.svg?logo=arXiv)](https://arxiv.org/abs/2604.04771) [![Ask DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/opendatalab/MinerU)

[English](README.md) | [简体中文](README_zh-CN.md)

🚀立即访问 MinerU → ✅ 免安装网页版 ✅ 全功能桌面客户端 ✅ 即时 API 访问；跳过部署烦恼 —— 一键获取全产品格式。开发者，直接上手体验吧！

👋 加入我们的 Discord 和微信社区

MinerU — 面向 LLM · RAG · Agent 工作流的高精度文档解析引擎

将 PDF · DOCX · PPTX · XLSX · 图片 · 网页转换为结构化的 Markdown / JSON · VLM+OCR 双引擎 · 支持 109 种语言
MCP Server · 原生集成 LangChain / Dify / FastGPT · 支持 10+ 国产 AI 芯片 **🔍 核心解析能力** - 原生支持 `DOCX`、`PPTX` 和 `XLSX` 解析 - 公式转 LaTeX · 表格转 HTML，精准的版面还原 - 支持扫描文档、手写内容、多栏排版、跨页表格合并 - 输出符合人类阅读顺序，自动去除页眉页脚 - VLM + OCR 双引擎，支持 109 种语言的 OCR 识别 **🔌 集成** | 用例 | 解决方案 | |----------|----------| | AI 编程工具 | MCP Server — Cursor · Claude Desktop · Windsurf | | RAG 框架 | LangChain · LlamaIndex · RAGFlow · RAG-Anything · Flowise · Dify · FastGPT | | 开发 | Python / Go / TypeScript SDK · CLI · REST API · Docker | | 无代码 | mineru.net 在线版 · Gradio WebUI · 桌面客户端 | **🖥️ 部署（私有化 · 全离线）** | 推理后端 | 最适用场景 | |------------------|---------| | pipeline | 快速稳定，无幻觉，支持在 CPU 或 GPU 上运行 | | vlm-engine | 高精度，支持 vLLM / LMDeploy / mlx 生态 | | hybrid-engine | 高精度，原生文本提取，低幻觉 | 支持国产 AI 芯片：昇腾 · 寒武纪 · 燧原 · 摩尔线程 · 天数智芯 · 昆仑芯 · 爱芯元智 · 海光 · 壁仞 · 平头哥

# 更新日志 - 2026/06/18 3.4 版本发布本次发布重点关注 **pipeline 后端的 OCR 能力升级**、**OCR 处理流水线优化** 以及 **模型下载体验改进**。主要更新包括： - OCR 模型升级与处理加速 - `pipeline` 后端的 OCR 模型已升级至 `PP-OCRv6`，在 OmniDocBench v1.6 上的 OCR 准确率提升了约 `11%`。 - 从 OCR 语言选择中移除了日语、繁体中文、英语和拉丁语选项。这些场景现在会被路由至 `ch` OCR 模型，从而简化了模型配置和语言选择。 - 优化了 OCR 推理和处理流水线，使 OCR 处理速度提升了约 `100%`，显著提高了批量文档和 OCR 密集型文档的解析效率。 - 模型下载逻辑优化 - 新增自动模型源选择功能，允许首次安装时根据当前网络环境选择更优的模型源。 - 在下载模型之前，MinerU 现在会优先检查本地已下载的模型缓存文件。命中缓存的文件可以直接复用，减少了重复下载和不必要的远程请求。 - 有关模型源配置、自动源选择和本地模型使用的更多详细信息，请参阅 [模型源文档](https://opendatalab.github.io/MinerU/usage/model_source/)。在 3.4 版本中，MinerU 进一步提升了 `pipeline` 后端在 OCR 场景下的解析准确率和处理效率。同时还优化了模型下载、缓存复用以及本地配置回写，使得首次安装、模型更新和多环境部署更加稳定和自动化。 - 2026/06/11 3.3 版本发布本次发布重点关注 **Hybrid 解析性能优化** 和 **VLM 模型能力升级**。主要更新包括： - 为 Hybrid 后端新增 `effort` 解析强度参数 - 新增 `medium` 和 `high` 两种解析强度级别，允许用户在解析速度、解析准确率和功能需求之间取得平衡。 - 在 OmniDocBench v1.6 上，`medium` 的整体准确率仅比 `high` 低 `0.13` 个百分点，但在不同设备和场景下却能带来 `35%` ~ `220%` 的解析速度提升： - Linux：文本 PDF 场景提速约 `80%`，OCR 场景提速约 `35%` - Windows：文本 PDF 场景提速约 `90%`，OCR 场景提速约 `45%` - macOS：文本 PDF 场景提速约 `220%`，OCR 场景提速约 `50%` - 默认的 Hybrid 后端现在使用 `effort=medium`，在保持高解析准确率的同时，显著提升了整体解析效率。 - `medium` 级别不支持 `image analysis`（图像分析）；若需最大解析准确率或 `image analysis` 支持，请使用 `effort=high` 切换至高强度解析模式，但这可能会对解析速度产生影响。 - VLM 模型升级至 `MinerU2.5-Pro-2605-1.2B` - 修复了在 `2604` 版本中发现的多个模型问题，进一步提升了对复杂文档的解析稳定性。 - 增加了原生多语言 OCR 支持，减少了额外配置语言参数的需求，提升了多语言文档的即开即用体验。在 3.3 版本中，MinerU 在保持高精度解析的同时，进一步提升了各平台和场景下 Hybrid 后端的效率。默认的 `medium` 强度级别更适合大多数日常文档处理任务，而 `high` 则专为需要极限解析准确率或 `image analysis`（图像分析）能力的场景而设计。 - 2026/04/18 3.1.0 版本发布本次发布重点关注 **许可证开放性、解析准确度以及对全格式原生支持**。主要更新包括： - 许可证升级 - MinerU 已正式从 `AGPLv3` 迁移至 [MinerU 开源许可证](https://github.com/opendatalab/MinerU/blob/master/LICENSE.md)，这是一项基于 `Apache 2.0` 的自定义许可证。 - 此举显著减少了社区用户和商业部署的采用阻力，使 MinerU 更易于集成到实际的工作流中。 - VLM 主模型升级 - 主 VLM 模型已升级至 `MinerU2.5-Pro-2604-1.2B`，将整体解析准确率提升至行业最先进水平（SOTA）。 - 新模型现支持图像和图表解析、截断段落合并、跨页表格合并以及表格内图像识别，进一步增强了在复杂文档版面上的性能。 - 全格式原生解析支持 - 原生解析支持现已扩展至 `PPTX` 和 `XLSX`。 - MinerU 现已全面支持跨图片、`PDF`、`DOCX`、`PPTX` 和 `XLSX` 的解析，提供更完整的多格式文档理解工作流。在 3.1.0 版本中，MinerU 变得更加开放、准确，并更易于在生产环境中应用。新许可证降低了社区和商业使用的门槛，`MinerU2.5-Pro-2604-1.2B` 提高了复杂内容的解析质量，而原生的 `PPTX` / `XLSX` 支持则完成了对主流文档格式的端到端全面覆盖。 - 2026/03/29 3.0.0 版本发布本次发布带来了以 **解析能力、系统架构和工程易用性** 为核心的系统性升级。主要更新包括： - 原生 `DOCX` 解析 - 正式支持原生 `DOCX` 解析，提供高精度且无幻觉的结果。 - 与先转换为 `PDF` 再进行解析的传统工作流相比，端到端速度提升了数十倍，更适合对准确率和吞吐量都有极高要求的场景。 - `pipeline` 后端升级 - `pipeline` 后端在 OmniDocBench (v1.5) 上取得了 `86.2` 分，超越了上一代主流 VLM `MinerU2.0-2505-0.9B` 的准确率。 - 新增对表格内部图像/公式解析、印章文字识别、竖排文本支持和行间公式编号识别的支持，持续提升对复杂文档场景的解析质量。 - 在保持高准确度的同时，将资源消耗保持在极低水平，并继续支持在纯 CPU 环境下进行推理。 - `API / CLI / Router` 编排升级 - `mineru` 现在作为基于 `mineru-api` 的编排客户端运行；当未提供 `--api-url` 时，它将自动启动一个本地临时服务。 - `mineru-api` 新增了异步任务接口 `POST /tasks`，支持任务提交、状态查询和结果获取；同时保留了同步解析接口 `POST /file_parse`，以兼容旧版插件。 - 新增 `mineru-router`，专为跨多服务和多 GPU 的统一入口部署和任务路由而设计；其接口与 `mineru-api` 完全兼容，并支持任务的自动负载均衡。 - 部署和易用性改进 - 解决了与 `torch >= 2.8` 的兼容性问题；基础镜像已升级至 `vllm0.11.2 + torch2.9.0`，统一了不同计算能力级别的安装路径。 - 通过滑动窗口机制优化了解析流水线，显著降低了长文档场景下的峰值内存消耗，使得数万页的文档不再需要手动进行拆分。 - `pipeline` 中的批量推理现在支持流式写入磁盘，允许已完成的解析结果及时写出，进一步改善了长时间运行任务的体验。 - 完成了线程安全优化，现已全面支持多线程并发推理；结合 `mineru-router`，可实现一键多 GPU 部署，让构建高并发、高吞吐量的解析系统变得轻而易举。 - 彻底移除了两款 AGPLv3 模型（`doclayoutyolo` 和 `mfd_yol8`）以及一款 CC-BY-NC-SA 4.0 模型（`layoutreader`）的使用。此次更新不仅是一系列功能的增强，更是 MinerU 整体系统能力的一次关键飞跃。我们专门解决长文档解析中的峰值内存消耗问题，通过滑动窗口和流式写入磁盘等优化，超长文档解析已从“需要手动拆分并谨慎处理”转变为“稳定、可扩展且为生产工作负载就绪”。同时，我们完成了线程安全优化并全面启用了多线程并发推理，进一步提高了单机在高并发工作负载下的资源利用率和运行稳定性。在此基础上，凭借 `mineru-router` 和全新的 `API / CLI` 编排框架，MinerU 现支持一键多 GPU 部署、跨多服务统一访问和自动任务负载均衡，大幅降低了大规模部署的难度。因此，MinerU 正从一个独立的数据生产工具，演变为面向高并发和高吞吐量场景的大规模文档解析基础设施，为处理企业级文档数据提供更稳定、更高效且更易于扩展的基础设施支撑。 # MinerU ## 项目简介 MinerU 是一款文档解析工具，可将 `PDF`、图片、`DOCX`、`PPTX` 和 `XLSX` 输入转换为 Markdown 和 JSON 等机器可读格式，以便进行后续的检索、提取和处理。 MinerU 诞生于 [InternLM](https://github.com/InternLM/InternLM) 的预训练过程中。我们专注于解决科学文献中的符号转换问题，并期望为大型模型时代的技术发展贡献力量。与知名的商业产品相比，MinerU 还很年轻。如果您遇到任何问题或结果不如预期，请在 [issue](https://github.com/opendatalab/MinerU/issues) 提交问题，并**附上相关文档或样本文件**。 https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c ## 主要特性 - 支持 `PDF`、图片、`DOCX`、`PPTX` 和 `XLSX` 输入。 - 去除页眉、页脚、脚注、页码等，确保语义连贯。 - 输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版。 - 保留原始文档的结构，包括标题、段落、列表等。 - 提取图片、图片描述、表格、表格标题和脚注。 - 自动识别文档中的公式，并将其转换为 LaTeX 格式。 - 自动识别文档中的表格，并将其转换为 HTML 格式。 - 自动检测扫描版 PDF 和乱码 PDF，并启用 OCR 功能。 - OCR 支持对 109 种语言的检测与识别。 - 支持多种输出格式，如多模态和 NLP Markdown、按阅读顺序排序的 JSON，以及丰富的中间格式。 - 支持多种可视化结果，包括版面可视化和 span 可视化，以便高效确认输出质量。 - 内置 CLI、FastAPI 和 Gradio WebUI，便于本地编排和多服务部署。 - 支持在纯 CPU 环境下运行，同时也支持 GPU/MPS 加速 - 兼容 Windows、Linux 和 Mac 平台。 # 快速开始文档解析是一项困难且复杂的任务。在复杂排版、扫描页面和手写内容等场景中，解析结果可能不尽如人意。我们建议您先试用在线 Demo，以评估 MinerU 的解析质量和适用性，然后根据您的实际需求选择合适的部署方式。如果您有解析结果不理想的**文档**样本，欢迎在 [issue](https://github.com/opendatalab/MinerU/issues) 中分享。我们将持续改进解析能力。如果您在安装时遇到任何问题，请先查阅 FAQ。 ## 在线体验 ### 官方在线 Web 应用官方在线版具有与客户端相同的功能，界面美观，功能丰富，需登录使用 - [![OpenDataLab](https://img.shields.io/badge/webapp_on_mineru.net-blue?logo=data:image/svg+xml;base64,PHN2ZyB3aWR0aD0iMTM0IiBoZWlnaHQ9IjEzNCIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj48cGF0aCBkPSJtMTIyLDljMCw1LTQsOS05LDlzLTktNC05LTksNC05LDktOSw5LDQsOSw5eiIgZmlsbD0idXJsKCNhKSIvPjxwYXRoIGQ9Im0xMjIsOWMwLDUtNCw5LTksOXMtOS00LTktOSw0LTksOS05LDksNCw5LDl6IiBmaWxsPSIjMDEwMTAxIi8+PHBhdGggZD0ibTkxLDE4YzAsNS00LDktOSw5cy05LTQtOS05LDQtOSw5LTksOSw0LDksOXoiIGZpbGw9InVybCgjYikiLz48cGF0aCBkPSJtOTEsMThjMCw1LTQsOS05LDlzLTktNC05LTksNC05LDktOSw5LDQsOSw5eiIgZmlsbD0iIzAxMDEwMSIvPjxwYXRoIGZpbGwtcnVsZT0iZXZlbm9kZCIgY2xpcC1ydWxlPSJldmVub2RkIiBkPSJtMzksNjJjMCwxNiw4LDMwLDIwLDM4LDctNiwxMi0xNiwxMi0yNlY0OWMwLTQsMy03LDYtOGw0Ni0xMmM1LTEsMTEsMywxMSw4djMxYzAsMzctMzAsNjYtNjYsNjYtMzcsMC02Ni0zMC02Ni02NlY0NmMwLTQsMy03LDYtOGwyMC02YzUtMSwxMSwzLDExLDh2MjF6bS0yOSw2YzAsMTYsNiwzMCwxNyw0MCwzLDEsNSwxLDgsMSw1LDAsMTAtMSwxNS0zQzM3LDk1LDI5LDc5LDI5LDYyVjQybC0xOSw1djIweiIgZmlsbD0idXJsKCNjKSIvPjxwYXRoIGZpbGwtcnVsZT0iZXZlbm9kZCIgY2xpcC1ydWxlPSJldmVub2RkIiBkPSJtMzksNjJjMCwxNiw4LDMwLDIwLDM4LDctNiwxMi0xNiwxMi0yNlY0OWMwLTQsMy03LDYtOGw0Ni0xMmM1LTEsMTEsMywxMSw4djMxYzAsMzctMzAsNjYtNjYsNjYtMzcsMC02Ni0zMC02Ni02NlY0NmMwLTQsMy03LDYtOGwyMC02YzUtMSwxMSwzLDExLDh2MjF6bS0yOSw2YzAsMTYsNiwzMCwxNyw0MCwzLDEsNSwxLDgsMSw1LDAsMTAtMSwxNS0zQzM3LDk1LDI5LDc5LDI5LDYyVjQybC0xOSw1djIweiIgZmlsbD0iIzAxMDEwMSIvPjxkZWZzPjxsaW5lYXJHcmFkaWVudCBpZD0iYSIgeDE9Ijg0IiB5MT0iNDEiIHgyPSI3NSIgeTI9IjEyMCIgZ3JhZGllbnRVbml0cz0idXNlclNwYWNlT25Vc2UiPjxzdG9wIHN0b3AtY29sb3I9IiNmZmYiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMyZTJlMmUiLz48L2xpbmVhckdyYWRpZW50PjxsaW5lYXJHcmFkaWVudCBpZD0iYiIgeDE9Ijg0IiB5MT0iNDEiIHgyPSI3NSIgeTI9IjEyMCIgZ3JhZGllbnRVbml0cz0idXNlclNwYWNlT25Vc2UiPjxzdG9wIHN0b3AtY29sb3I9IiNmZmYiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMyZTJlMmUiLz48L2xpbmVhckdyYWRpZW50PjxsaW5lYXJHcmFkaWVudCBpZD0iYyIgeDE9Ijg0IiB5MT0iNDEiIHgyPSI3NSIgeTI9IjEyMCIgZ3JhZGllbnRVbml0cz0idXNlclNwYWNlT25Vc2UiPjxzdG9wIHN0b3AtY29sb3I9IiNmZmYiLz48c3RvcCBvZmZzZXQ9IjEiIHN0b3AtY29sb3I9IiMyZTJlMmUiLz48L2xpbmVhckdyYWRpZW50PjwvZGVmcz48L3N2Zz4=&labelColor=white)](https://mineru.net/OpenSourceTools/Extractor?source=github) ### 基于 Gradio 的在线 Demo 基于 Gradio 开发的 WebUI，界面简洁，仅包含核心解析功能，无需登录 - [![ModelScope](https://img.shields.io/badge/Demo_on_ModelScope-purple?logo=data:image/svg+xml;base64,PHN2ZyB3aWR0aD0iMjIzIiBoZWlnaHQ9IjIwMCIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj4KCiA8Zz4KICA8dGl0bGU+TGF5ZXIgMTwvdGl0bGU+CiAgPHBhdGggaWQ9InN2Z18xNCIgZmlsbD0iIzYyNGFmZiIgZD0ibTAsODkuODRsMjUuNjUsMGwwLDI1LjY0OTk5bC0yNS42NSwwbDAsLTI1LjY0OTk5eiIvPgogIDxwYXRoIGlkPSJzdmdfMTUiIGZpbGw9IiM2MjRhZmYiIGQ9Im05OS4xNCwxMTUuNDlsMjUuNjUsMGwwLDI1LjY1bC0yNS42NSwwbDAsLTI1LjY1eiIvPgogIDxwYXRoIGlkPSJzdmdfMTYiIGZpbGw9IiM2MjRhZmYiIGQ9Im0xNzYuMDksMTQxLjE0bC0yNS42NDk5OSwwbDAsMjIuMTlsNDcuODQsMGwwLC00Ny44NGwtMjIuMTksMGwwLDI1LjY1eiIvPgogIDxwYXRoIGlkPSJzdmdfMTciIGZpbGw9IiMzNmNmZDEiIGQ9Im0xMjQuNzksODkuODRsMjUuNjUsMGwwLDI1LjY0OTk5bC0yNS42NSwwbDAsLTI1LjY0OTk5eiIvPgogIDxwYXRoIGlkPSJzdmdfMTgiIGZpbGw9IiMzNmNmZDEiIGQ9Im0wLDY0LjE5bDI1LjY1LDBsMCwyNS42NWwtMjUuNjUsMGwwLC0yNS42NXoiLz4KICA8cGF0aCBpZD0ic3ZnXzE5IiBmaWxsPSIjNjI0YWZmIiBkPSJtMTk4LjI4LDg5Ljg0bDI1LjY0OTk5LDBsMCwyNS42NDk5OWwtMjUuNjQ5OTksMGwwLC0yNS42NDk5OXoiLz4KICA8cGF0aCBpZD0ic3ZnXzIwIiBmaWxsPSIjMzZjZmQxIiBkPSJtMTk4LjI4LDY0LjE5bDI1LjY0OTk5LDBsMCwyNS42NWwtMjUuNjQ5OTksMGwwLC0yNS42NXoiLz4KICA8cGF0aCBpZD0ic3ZnXzIxIiBmaWxsPSIjNjI0YWZmIiBkPSJtMTUwLjQ0LDQybDAsMjIuMTlsMjUuNjQ5OTksMGwwLDI1LjY1bDIyLjE5LDBsMCwtNDcuODRsLTQ3Ljg0LDB6Ii8+CiAgPHBhdGggaWQ9InN2Z18yMiIgZmlsbD0iIzM2Y2ZkMSIgZD0ibTczLjQ5LDg5Ljg0bDI1LjY1LDBsMCwyNS42NDk5OWwtMjUuNjUsMGwwLC0yNS42NDk5OXoiLz4KICA8cGF0aCBpZD0ic3ZnXzIzIiBmaWxsPSIjNjI0YWZmIiBkPSJtNDcuODQsNjQuMTlsMjUuNjUsMGwwLC0yMi4xOWwtNDcuODQsMGwwLDQ3Ljg0bDIyLjE5LDBsMCwtMjUuNjV6Ii8+CiAgPHBhdGggaWQ9InN2Z18yNCIgZmlsbD0iIzYyNGFmZiIgZD0ibTQ3Ljg0LDExNS40OWwtMjIuMTksMGwwLDQ3Ljg0bDQ3Ljg0LDBsMCwtMjIuMTlsLTI1LjY1LDBsMCwtMjUuNjV6Ii8+CiA8L2c+Cjwvc3ZnPg==&labelColor=white)](https://www.modelscope.cn/studios/OpenDataLab/MinerU) - [![HuggingFace](https://img.shields.io/badge/Demo_on_HuggingFace-yellow.svg?logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAF8AAABYCAMAAACkl9t/AAAAk1BMVEVHcEz/nQv/nQv/nQr/nQv/nQr/nQv/nQv/nQr/wRf/txT/pg7/yRr/rBD/zRz/ngv/oAz/zhz/nwv/txT/ngv/0B3+zBz/nQv/0h7/wxn/vRb/thXkuiT/rxH/pxD/ogzcqyf/nQvTlSz/czCxky7/SjifdjT/Mj3+Mj3wMj15aTnDNz+DSD9RTUBsP0FRO0Q6O0WyIxEIAAAAGHRSTlMADB8zSWF3krDDw8TJ1NbX5efv8ff9/fxKDJ9uAAAGKklEQVR42u2Z63qjOAyGC4RwCOfB2JAGqrSb2WnTw/1f3UaWcSGYNKTdf/P+mOkTrE+yJBulvfvLT2A5ruenaVHyIks33npl/6C4s/ZLAM45SOi/1FtZPyFur1OYofBX3w7d54Bxm+E8db+nDr12ttmESZ4zludJEG5S7TO72YPlKZFyE+YCYUJTBZsMiNS5Sd7NlDmKM2Eg2JQg8awbglfqgbhArjxkS7dgp2RH6hc9AMLdZYUtZN5DJr4molC8BfKrEkPKEnEVjLbgW1fLy77ZVOJagoIcLIl+IxaQZGjiX597HopF5CkaXVMDO9Pyix3AFV3kw4lQLCbHuMovz8FallbcQIJ5Ta0vks9RnolbCK84BtjKRS5uA43hYoZcOBGIG2Epbv6CvFVQ8m8loh66WNySsnN7htL58LNp+NXT8/PhXiBXPMjLSxtwp8W9f/1AngRierBkA+kk/IpUSOeKByzn8y3kAAAfh//0oXgV4roHm/kz4E2z//zRc3/lgwBzbM2mJxQEa5pqgX7d1L0htrhx7LKxOZlKbwcAWyEOWqYSI8YPtgDQVjpB5nvaHaSnBaQSD6hweDi8PosxD6/PT09YY3xQA7LTCTKfYX+QHpA0GCcqmEHvr/cyfKQTEuwgbs2kPxJEB0iNjfJcCTPyocx+A0griHSmADiC91oNGVwJ69RudYe65vJmoqfpul0lrqXadW0jFKH5BKwAeCq+Den7s+3zfRJzA61/Uj/9H/VzLKTx9jFPPdXeeP+L7WEvDLAKAIoF8bPTKT0+TM7W8ePj3Rz/Yn3kOAp2f1Kf0Weony7pn/cPydvhQYV+eFOfmOu7VB/ViPe34/EN3RFHY/yRuT8ddCtMPH/McBAT5s+vRde/gf2c/sPsjLK+m5IBQF5tO+h2tTlBGnP6693JdsvofjOPnnEHkh2TnV/X1fBl9S5zrwuwF8NFrAVJVwCAPTe8gaJlomqlp0pv4Pjn98tJ/t/fL++6unpR1YGC2n/KCoa0tTLoKiEeUPDl94nj+5/Tv3/eT5vBQ60X1S0oZr+IWRR8Ldhu7AlLjPISlJcO9vrFotky9SpzDequlwEir5beYAc0R7D9KS1DXva0jhYRDXoExPdc6yw5GShkZXe9QdO/uOvHofxjrV/TNS6iMJS+4TcSTgk9n5agJdBQbB//IfF/HpvPt3Tbi7b6I6K0R72p6ajryEJrENW2bbeVUGjfgoals4L443c7BEE4mJO2SpbRngxQrAKRudRzGQ8jVOL2qDVjjI8K1gc3TIJ5KiFZ1q+gdsARPB4NQS4AjwVSt72DSoXNyOWUrU5mQ9nRYyjp89Xo7oRI6Bga9QNT1mQ/ptaJq5T/7WcgAZywR/XlPGAUDdet3LE+qS0TI+g+aJU8MIqjo0Kx8Ly+maxLjJmjQ18rA0YCkxLQbUZP1WqdmyQGJLUm7VnQFqodmXSqmRrdVpqdzk5LvmvgtEcW8PMGdaS23EOWyDVbACZzUJPaqMbjDxpA3Qrgl0AikimGDbqmyT8P8NOYiqrldF8rX+YN7TopX4UoHuSCYY7cgX4gHwclQKl1zhx0THf+tCAUValzjI7Wg9EhptrkIcfIJjA94evOn8B2eHaVzvBrnl2ig0So6hvPaz0IGcOvTHvUIlE2+prqAxLSQxZlU2stql1NqCCLdIiIN/i1DBEHUoElM9dBravbiAnKqgpi4IBkw+utSPIoBijDXJipSVV7MpOEJUAc5Qmm3BnUN+w3hteEieYKfRZSIUcXKMVf0u5wD4EwsUNVvZOtUT7A2GkffHjByWpHqvRBYrTV72a6j8zZ6W0DTE86Hn04bmyWX3Ri9WH7ZU6Q7h+ZHo0nHUAcsQvVhXRDZHChwiyi/hnPuOsSEF6Exk3o6Y9DT1eZ+6cASXk2Y9k+6EOQMDGm6WBK10wOQJCBwren86cPPWUcRAnTVjGcU1LBgs9FURiX/e6479yZcLwCBmTxiawEwrOcleuu12t3tbLv/N4RLYIBhYexm7Fcn4OJcn0+zc+s8/VfPeddZHAGN6TT8eGczHdR/Gts1/MzDkThr23zqrVfAMFT33Nx1RJsx1k5zuWILLnG/vsH+Fv5D4NTVcp1Gzo8AAAAAElFTkSuQmCC&labelColor=white)](https://huggingface.co/spaces/opendatalab/MinerU) ## 本地部署

解析后端	pipeline	*-engine		*-http-client
解析后端	pipeline	hybrid	vlm	hybrid	vlm
后端特性	兼容性好	硬件要求高		适用于 OpenAI 兼容服务器²
准确率¹	86.47	95.39 (high) 95.26 (medium)	95.30	95.39 (high) 95.26 (medium)	95.30
操作系统	Linux³ / Windows⁴ / macOS⁵
纯 CPU 支持	✅	❌		✅
GPU 加速	Volta 及更新架构的 GPU 或 Apple Silicon				不作要求
最低显存	4GB	8GB		2GB	不作要求
内存	最低 16GB，推荐 32GB 及以上			最低 16GB
磁盘空间	最低 20GB，推荐 SSD			最低 2GB
Python 版本	3.10-3.13

¹ 准确率指标为 OmniDocBench (v1.6) 的 End-to-End Evaluation Overall 得分，基于最新版本的 `MinerU`。 ² 兼容 OpenAI API 的服务器，例如通过 `vLLM`/`SGLang`/`LMDeploy` 等推理框架部署的本地模型服务器或远程模型服务。 ³ Linux 仅支持 2019 年及以后的发行版。 ⁴ 由于关键依赖 `ray` 在 Windows 上不支持 Python 3.13，因此仅支持 3.10~3.12 版本。 ⁵ macOS 需为 14.0 或更高版本。 ### 安装 MinerU #### 使用 pip 或 uv 安装 MinerU ``` pip install --upgrade pip pip install uv uv pip install -U "mineru[all]" ``` #### 从源码安装 MinerU ``` git clone https://github.com/opendatalab/MinerU.git cd MinerU uv pip install -e .[all] ``` #### 使用 Docker 部署 MinerU MinerU 提供了便捷的 Docker 部署方式，有助于快速搭建环境并解决一些棘手的环境兼容性问题。您可以在文档中获取 [Docker 部署说明](https://opendatalab.github.io/MinerU/quick_start/docker_deployment/)。 ### 使用 MinerU 如果您的设备满足上表中的 GPU 加速要求，您可以使用简单的命令行进行文档解析： ``` mineru -p -o ``` 如果您的设备不满足 GPU 加速要求，您可以指定后端为 `pipeline` 以在纯 CPU 环境下运行： ``` mineru -p -o -b pipeline ``` `mineru` 目前支持本地的 `PDF`、图片、`DOCX`、`PPTX` 和 `XLSX` 文件或目录输入，并可通过 CLI、API、WebUI 和 `mineru-router` 进行文档解析。详细说明请参阅 [使用指南](https://opendatalab.github.io/MinerU/usage/)。 # 常见问题 - 如果在使用过程中遇到任何问题，您可以先查阅 [常见问题解答](https://opendatalab.github.io/MinerU/faq/) 寻找解决方案。 - 如果您的问题仍未解决，您还可以使用 [DeepWiki](https://deepwiki.com/opendatalab/MinerU) 与 AI 助手互动，它能解决大多数常见问题。 - 如果您仍然无法解决问题，欢迎通过 [Discord](https://discord.gg/Tdedn9GTXq) 或 [微信](https://mineru.net/community-portal/?aliasId=3c430f94) 加入我们的社区，与其他用户和开发者进行交流。 # 许可证信息本仓库基于 [MinerU 开源许可证](https://github.com/opendatalab/MinerU/blob/master/LICENSE.md) 授权，该许可证基于 Apache 2.0 并附有附加条件。 # 鸣谢 - [UniMERNet](https://github.com/opendatalab/UniMERNet) - [TableStructureRec](https://github.com/RapidAI/TableStructureRec) - [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) - [PaddleOCR2Pytorch](https://github.com/frotms/PaddleOCR2Pytorch) - [fast-langdetect](https://github.com/LlmKira/fast-langdetect) - [pypdfium2](https://github.com/pypdfium2-team/pypdfium2) - [pdftext](https://github.com/datalab-to/pdftext) - [pypdf](https://github.com/py-pdf/pypdf) - [magika](https://github.com/google/magika) - [vLLM](https://github.com/vllm-project/vllm) - [LMDeploy](https://github.com/InternLM/lmdeploy) # 引用 ``` @article{wang2026mineru2, title={MinerU2. 5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale}, author={Wang, Bin and He, Tianyao and Ouyang, Linke and Wu, Fan and Zhao, Zhiyuan and Chu, Tao and Qu, Yuan and Jin, Zhenjiang and Zeng, Weijun and Miao, Ziyang and others}, journal={arXiv preprint arXiv:2604.04771}, year={2026} } @article{dong2026minerudiffusion, title={MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding}, author={Dong, Hejun and Niu, Junbo and Wang, Bin and Zeng, Weijun and Zhang, Wentao and He, Conghui}, journal={arXiv preprint arXiv:2603.22458}, year={2026} } @article{niu2025mineru2, title={Mineru2. 5: A decoupled vision-language model for efficient high-resolution document parsing}, author={Niu, Junbo and Liu, Zheng and Gu, Zhuangcheng and Wang, Bin and Ouyang, Linke and Zhao, Zhiyuan and Chu, Tao and He, Tianyao and Wu, Fan and Zhang, Qintong and others}, journal={arXiv preprint arXiv:2509.22186}, year={2025} } @article{wang2024mineru, title={Mineru: An open-source solution for precise document content extraction}, author={Wang, Bin and Xu, Chao and Zhao, Xiaomeng and Ouyang, Linke and Wu, Fan and Zhao, Zhiyuan and Xu, Rui and Liu, Kaiwen and Qu, Yuan and Shang, Fukai and others}, journal={arXiv preprint arXiv:2409.18839}, year={2024} } @article{he2024opendatalab, title={Opendatalab: Empowering general artificial intelligence with open datasets}, author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua}, journal={arXiv preprint arXiv:2407.13773}, year={2024} } ``` # Star 历史

# 链接 - [MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding](https://github.com/opendatalab/MinerU-Diffusion) - [Easy Data Preparation with latest LLMs-based Operators and Pipelines](https://github.com/OpenDCAI/DataFlow) - [Vis3 (OSS browser based on s3)](https://github.com/opendatalab/Vis3) - [LabelU (A Lightweight Multi-modal Data Annotation Tool)](https://github.com/opendatalab/labelU) - [LabelLLM (An Open-source LLM Dialogue Annotation Platform)](https://github.com/opendatalab/LabelLLM) - [PDF-Extract-Kit (A Comprehensive Toolkit for High-Quality PDF Content Extraction)](https://github.com/opendatalab/PDF-Extract-Kit) - [OmniDocBench (A Comprehensive Benchmark for Document Parsing and Evaluation)](https://github.com/opendatalab/OmniDocBench) - [Magic-HTML (Mixed web page extraction tool)](https://github.com/opendatalab/magic-html) - [Magic-Doc (Fast speed ppt/pptx/doc/docx/pdf extraction tool)](https://github.com/InternLM/magic-doc) - [Dingo: A Comprehensive AI Data Quality Evaluation Tool](https://github.com/MigoXLab/dingo)

标签：DLL 劫持, PDF转换, 多模态安全, 大语言模型, 数据预处理, 文档解析, 格式转换, 请求拦截, 逆向工具