PaddlePaddle/PaddleOCR

GitHub: PaddlePaddle/PaddleOCR

PaddleOCR 是基于深度学习的开源 OCR 工具包与文档 AI 引擎，能将 PDF 和图像文档高精度地转换为结构化数据，为大模型和 RAG 应用提供高质量的文档理解能力。

Stars: 85786 | Forks: 11037

全球领先的 OCR 工具包与文档 AI 引擎

全球领先的 OCR 工具包与文档 AI 引擎

English | [简体中文](https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/main/readme/README_cn.md) | [繁體中文](./readme/README_tcn.md) | [日本語](./readme/README_ja.md) | [한국어](./readme/README_ko.md) | [Français](./readme/README_fr.md) | [Русский](./readme/README_ru.md) | [Español](./readme/README_es.md) | [العربية](./readme/README_ar.md) [![PyPI Downloads](https://static.pepy.tech/badge/paddleocr)](https://pepy.tech/projects/paddleocr) [![Used by](https://img.shields.io/badge/Used%20by-6k%2B%20repositories-blue)](https://github.com/PaddlePaddle/PaddleOCR/network/dependents) ![python](https://img.shields.io/badge/python-3.8~3.12-aff.svg) ![os](https://img.shields.io/badge/os-linux%2C%20win%2C%20mac-pink.svg) ![hardware](https://img.shields.io/badge/hardware-cpu%2C%20gpu%2C%20xpu%2C%20npu-yellow.svg) [![AI Studio](https://img.shields.io/badge/PaddleOCR-_Offiical_Website-1927BA?logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAgAAAAIACAMAAADDpiTIAAAABlBMVEU2P+X///+1KuUwAAAHKklEQVR42u3dS5bjOAwEwALvf2fMavZum6IAImI7b2yYSqU+1Zb//gAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAADKCR/+fzly7rD92yVg69xh8zeLwOa5w+ZvFYHtc4ft3ykB++cOm79PAp6YO2z/Ngl4ZO5l+9+yT4QAvLqS748VF33Ylzdvzpl72f6z53YIGJ6SZdPeNHcIwOycaADdLgCSIgAIgCOAACAAykIAEAAEAAFAABCAT+WQuQVgeBqXhXQIQAAYegowLQBpbg3gZGFyAC6vgBQAMREA2/YfDPxyaDQNyTNz+3Zwn5J4ZG7PB2h0kHhi7plPCImmJwkPzO0RMa3OET0i5uGlzHFze0xcu0vE2Dq3J4U2vEPgSaHbFzPNDQAAAAAAAMBNovdw+cP/ny+uaf7w/+eYADy8kE+F4Offdjn6zZXhAXgiA78G4MNNsmnu1Xr7b3mbOL8T5Ja5bw/A35EC2LiWpzt1y9jRugBy30fLg3NvHPvnuZcC2NsCUXA/aRmA89V07Fwgt37uH8deCmBr6N44pP4UgaUATpdA7v/cMbIB8okliY65/SW5HhJ1ehPmM+8edwXgpbu4R88FayR32Y/P7oZZbOx13/Zr//ZHx27bAPnkFoyewYlbAhD3TvBobr95gaUAtr1EdNx1lgI4OcTTuR3z6+FZMEDRcu9ZCuDgGCdyGxMa4EgBRMvcjrkM7NgBZw5c0TwAUWUhZwRXA2xaya65Xa3jO2qYZ8bu2AD5w38tG5V8aZpoGN6Tz0bOfa9bceyWAciTO0jWyO1Tc5cLwJmF/JfPnXVyu3/slgHIg1n79O2O5fZv+1cHV7sC2HYqmUdHysNzX3sVkMcjUK5Gc+dMs28E5bGtm0V3gloBOP9vgZv+4sYn3RUaYFMCol5uN77g6lUApc8pWs69Zn7snS9Z9Q8G0S0AUTVUUTG3A54R1KSvo/diLAv5fKzynZeN6xogC75u93+AtBTA47OlAFSv6qY/vp3DAjD8iv2ZdFYJwKynMhTK1rInPfzaxW81LnvSgFP9KxrATaCLA3DxHpbFX31ZyNm5XRZyXG5bNkAWfP0rcrsUwOgC6NIAzgBcBiqAWwPgLrAGuGBP6jr2sifdfiJ6QQM4Bbw4AK4B3129ZSFn53ZZyA/GyFty27IBFMDFAXAG8PbyLQv5xULGPRl0K3h2AbwcgCZPhs+LD1zLnjS6AN4NwMU/DVFh7LyhASreTbvqrxdr/J4XT4Swz4FrTS+AGJ7bNbwAYkxuWzZAVljHrJfbjb9wviYXwFO/FJ8Vli4vaICsEMFyBbA3tmtsAUS0zG1c/bj4YwsZH2/+Whd0+1Nb+S7IE2sfPw4RL0XmsR8Nqvz7qFngmPHF34EqjP15AAofAkosZKPC/K6FVoeP02Ehi540NG6AK/4pYP3cLgVwXwHkDQ1QcSGb/uF4WwCmfX8u/+4vgLINcMUlQIfcLgXwXAF0+BGkpQDuuJx7/hwgpu//cWVuO3wxJOz/z8297vgYBwaIO3O7Kn+c194578ltywbIgu8fl+Z2lS+APvnLjnOv8hsgSqxjgwL4Ln9LAezaj98tgPzy7ZcC+GQzxrWxXQpgx370dm6/H7v6jaBoso5dY1swAFlwHWvfBf5pxVa93fCtdx64+1dsgCy4joWvAfPX9VoKYMs6Zse9/8Mlvv7LILlhAfKFFdsSutJXAdFkL3qlADJPrXFcXAC5KYaH586jO9mtAch9S3T0GQJ726ZWAE49kjP3rlDJuetdaL/1zeqZY9c7CRz7s0wCUPxienQBnAuAAtAAlxaAAAxfyBQABSAACkAAFIAAKAABUAACMEkKwL170oh7V8ueNLoAjgTAXWAN4BRwcABcA2oABTA4AApAAyiAwQFQABpAAQwOgALQADMWUgCuEmNyu15fSIY3gFPAiwPgFFADKIDBAVAAGkABCIACmBqAUAAaQAHMDUCMWkgBuMWw3K43F5LhDeAU8OIAuAmkARTA4AAoAA2gAARAAUwNgLvAGkABDA6Au8AaoKOJuV0vLSTDG8Ap4MUBcBNIAyiAwQFQABpAAQwOgALQAApAABTA1AC4C6wBOhqb23V+IRneAE4BLw6Aa0ANoAAGB0ABaAAFMDgACkADKAABUABTA+AusAboKATAQs4trjV+IYcfuJYCcA6gAATAQk69dFkKQANYyLkFcLIBFIDLQAVwawDsSRrAEWBwAJwCagAFMDgACkADKIDBAVAAGkABCIACmBoAzwXWAApgcADsSRrg0iNACoACEADXgAIwdCFTACykALgGFIAfl0kBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPBv/gN+IH8U6YveYgAAAABJRU5ErkJggg==&labelColor=white)](https://www.paddleocr.com) [![Ask DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/PaddlePaddle/PaddleOCR) [![License](https://img.shields.io/badge/license-Apache_2.0-green)](../LICENSE)

**PaddleOCR 可将 PDF 文档和图像转换为结构化、适配 LLM 的数据（JSON/Markdown），并具备业界领先的准确率。凭借超过 7 万的 Stars 以及被 Dify、RAGFlow 和 Cherry Studio 等顶级项目所信赖，PaddleOCR 是构建智能 RAG 和 Agentic 应用程序的基石。** ## 🚀 核心特性 ### 📄 智能文档解析（适配 LLM） * **SOTA 文档 VLM**：首发 **PaddleOCR-VL-1.5 (0.9B)**，这是业界领先的轻量级文档解析视觉语言模型。它擅长解析涵盖 5 大“真实世界”挑战的复杂文档：**弯曲、扫描、屏幕拍摄、光照和倾斜文档**，并支持 **Markdown** 和 **JSON** 格式的结构化输出。 * **结构感知转换**：由 **PP-StructureV3** 驱动，无缝地将复杂的 PDF 和图像转换为 **Markdown** 或 **JSON**。与 PaddleOCR-VL 系列模型不同，它提供了更细粒度的坐标信息，包括表格单元格坐标、文本坐标等。 * **生产级效率**：以超小的资源占用实现商业级准确率。在公开基准测试中优于众多闭源方案，同时保持对边缘/云部署的资源高效利用。 ### 🔍 通用文本识别（场景 OCR） * **支持 100+ 种语言**：原生支持庞大的全球语言库。我们的 **PP-OCRv5** 单模型解决方案优雅地处理多语言混合文档（中文、英文、日文、拼音等）。 * **复杂元素精通**：超越标准文本识别，我们支持跨多种环境的**自然场景文本检测**，包括身份证、街景、书籍和工业组件。 * **性能飞跃**：PP-OCRv5 比以前版本提供了 **13% 的准确率提升**，同时保持了 PaddleOCR 著名的“极致效率”。

PaddleOCR Architecture

### 🛠️ 以开发者为中心的生态系统 * **无缝集成**：AI Agent 生态系统的首选——与 **Dify、RAGFlow、Pathway 和 Cherry Studio** 深度集成。 * **LLM 数据飞轮**：用于构建高质量数据集的完整 pipeline，为微调大型语言模型提供可持续的“数据引擎”。 * **一键部署**：支持各种硬件后端（NVIDIA GPU、Intel CPU、昆仑芯 XPU 和各种 AI 加速器）。 ## 📣 最新更新 ### 🔥 [2026.01.29] PaddleOCR v3.4.0 发布：不规则文档解析时代 * **PaddleOCR-VL-1.5 (SOTA 0.9B VLM)**：我们最新的文档解析旗舰模型现已上线！ * **OmniDocBench 准确率达 94.5%**：超越顶级通用大模型和专门的文档解析器。 * **真实世界的鲁棒性**：首发用于不规则形状定位的 **PP-DocLayoutV3** 算法，精通 5 大棘手场景：*倾斜、弯曲、扫描、光照和屏幕拍摄*。 * **能力扩展**：现支持**印章识别**、**文本检测**，并扩展至 **111 种语言**（包括中国藏文和孟加拉文）。 * **长文档精通**：支持自动跨页表格合并和层级标题识别。 * **立即体验**：可在 [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5) 或我们的[官方网站](https://www.paddleocr.com)上使用。

2025.10.16：发布 PaddleOCR 3.3.0

- 发布了 PaddleOCR-VL： - **模型介绍**： - **PaddleOCR-VL** 是一个专为文档解析量身定制的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B，这是一个紧凑而强大的视觉语言模型 (VLM)，它集成了 NaViT 风格的动态分辨率视觉编码器和 ERNIE-4.5-0.3B 语言模型，以实现准确的元素识别。**这个创新的模型高效支持 109 种语言，擅长识别复杂元素（例如文本、表格、公式和图表），同时保持最少的资源消耗**。通过在广泛使用的公共基准和内部基准上进行全面评估，PaddleOCR-VL 在页级文档解析和元素级识别方面都取得了 SOTA 性能。它显著超越了现有解决方案，对顶级 VLM 展现出强大的竞争力，并提供了快速的推理速度。这些优势使其非常适合在实际场景中进行实用部署。该模型已在 [HuggingFace](https://huggingface.co/PaddlePaddle/PaddleOCR-VL) 上发布。欢迎大家下载使用！更多介绍信息可在 [PaddleOCR-VL](https://www.paddleocr.ai/latest/version3.x/algorithm/PaddleOCR-VL/PaddleOCR-VL.html) 中找到。 - **核心特性**： - **紧凑而强大的 VLM 架构**：我们提出了一种新颖的视觉语言模型，专为资源高效的推理而设计，在元素识别方面取得了出色的性能。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型集成，我们显著增强了模型的识别能力和解码效率。这种集成在保持高准确率的同时降低了计算需求，使其非常适合高效、实用的文档处理应用。 - **文档解析的 SOTA 性能**：PaddleOCR-VL 在页级文档解析和元素级识别方面均实现了最先进的性能。它显著超越了现有的基于流水线的解决方案，并在文档解析方面对领先的视觉语言模型 (VLM) 展现出强大的竞争力。此外，它还擅长识别复杂的文档元素，例如文本、表格、公式和图表，使其适用于广泛的有挑战性的内容类型，包括手写文本和历史文档。这使得它具有极高的通用性，并适用于广泛的文档类型和场景。 - **多语言支持**：PaddleOCR-VL 支持 109 种语言，涵盖全球主要语言，包括但不限于中文、英文、日文、拉丁文和韩文，以及具有不同文字和结构的语言，如俄文（西里尔字母）、阿拉伯文、印地文（天城文）和泰文。这种广泛的语言覆盖极大地增强了我们的系统在多语言和全球化文档处理场景中的适用性。 - 发布了 PP-OCRv5 多语言识别模型： - 提高了拉丁语系识别的准确性和覆盖率；增加了对西里尔字母、阿拉伯语、天城文、泰卢固语、泰米尔语和其他语言系统的支持，涵盖 109 种语言的识别。该模型仅有 2M 参数，部分模型的准确率比上一代提高了 40% 以上。

2025.08.21：发布 PaddleOCR 3.2.0

- **重要模型新增：** - 推出了针对英文、泰文和希腊文的 PP-OCRv5 识别模型的训练、推理和部署。**与主版本 PP-OCRv5 模型相比，PP-OCRv5 英文模型在英文场景下提升了 11%，泰文和希腊文识别模型的准确率分别达到了 82.68% 和 89.28%。** - **部署能力升级：** - **全面支持 PaddlePaddle 框架 3.1.0 和 3.1.1 版本。** - **全面升级 PP-OCRv5 C++ 本地部署方案，现同时支持 Linux 和 Windows，在功能和对齐 Python 实现的准确度上保持一致。** - **高性能推理现已支持 CUDA 12，并且可以使用 Paddle Inference 或 ONNX Runtime 后端进行推理。** - **高稳定性服务化部署方案现已全面开源，允许用户根据需要自定义 Docker 镜像和 SDK。** - 高稳定性服务化部署方案还支持通过手动构建的 HTTP 请求进行调用，支持使用任何编程语言进行客户端代码开发。 - **Benchmark 支持：** - **所有产线现已支持细粒度基准测试，能够测量端到端推理时间以及每层和每个模块的延迟数据，以辅助性能分析。[此处](docs/version3.x/pipeline_usage/instructions/benchmark.en.md)介绍了如何设置和使用基准测试功能。** - **文档已更新，包含主流硬件上常用配置的关键指标，例如推理延迟和内存使用情况，为用户提供部署参考。** - **Bug 修复：** - 解决了模型训练期间日志保存失败的问题。 - 升级了公式模型的数据增强组件，以兼容新版本的 albumentations 依赖，并修复了在多进程场景下使用 tokenizers 包时的死锁警告。 - 修复了 PP-StructureV3 配置文件中开关行为（例如 `use_chart_parsing`）与其他 Pipeline 不一致的问题。 - **其他增强：** - **分离了核心依赖和可选依赖。基础文本识别仅需最少的核心依赖；可根据需要安装用于文档解析和信息提取的额外依赖。** - **在 Windows 上启用对 NVIDIA RTX 50 系列显卡的支持；用户可参考[安装指南](docs/version3.x/installation.en.md)获取相应的 PaddlePaddle 框架版本。** - **PP-OCR 系列模型现已支持返回单字符坐标。** - 新增 AIStudio、ModelScope 等模型下载源，允许用户指定模型下载的来源。 - 增加了通过 PP-Chart2Table 模块支持图表转表格的功能。 - 优化了文档描述以提高易用性。

[历史日志](https://paddlepaddle.github.io/PaddleOCR/latest/en/update/update.html) ## 🚀 快速开始 ### 第 1 步：在线体验 PaddleOCR 官方网站提供交互式的**体验中心**和 **API**——无需任何设置，只需单击即可体验。 👉 [访问官方网站](https://www.paddleocr.com) ### 第 2 步：本地部署若需在本地使用，请根据您的需求参考以下文档： - **PP-OCR 系列**：参见 [PP-OCR 文档](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/OCR.html) - **PaddleOCR-VL 系列**：参见 [PaddleOCR-VL 文档](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/PaddleOCR-VL.html) - **PP-StructureV3**：参见 [PP-StructureV3 文档](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/PP-StructureV3.html) - **更多功能**：参见[更多功能文档](https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/pipeline_overview.html) ## 🧩 更多特性 - 将模型转换为 ONNX 格式：[获取 ONNX 模型](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/deployment/obtaining_onnx_models.html)。 - 使用 OpenVINO、ONNX Runtime、TensorRT 等引擎加速推理，或使用 ONNX 格式模型进行推理：[高性能推理](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/deployment/high_performance_inference.html)。 - 使用多 GPU 和多进程加速推理：[Pipeline 并行推理](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/pipeline_usage/instructions/parallel_inference.html)。 - 将 PaddleOCR 集成到使用 C++、C#、Java 等编写的应用程序中：[服务化部署](https://paddlepaddle.github.io/PaddleOCR/latest/en/version3.x/deployment/serving.html)。 ## 🔄 执行结果快速预览 ### PP-OCRv5

PP-OCRv5 Demo

### PP-StructureV3

PP-StructureV3 Demo

### PaddleOCR-VL

PP-StructureV3 Demo

## 😃 使用 PaddleOCR 的优秀项目如果没有其不可思议的社区，PaddleOCR 就不会有今天的成就！💗 衷心感谢我们所有的长期合作伙伴、新的协作者，以及所有为 PaddleOCR 倾注心血的人——无论我们是否提及了您的名字。您的支持是我们前进的动力！

| 项目名称 | 描述 | | ------------ | | | [Dify](https://github.com/langgenius/dify)

|用于 Agentic 工作流开发的生产就绪平台。| | [RAGFlow](https://github.com/infiniflow/ragflow)

|基于深度文档理解的 RAG 引擎。| | [pathway](https://github.com/pathwaycom/pathway)

|用于流处理、实时分析、LLM 管道和 RAG 的 Python ETL 框架。| | [MinerU](https://github.com/opendatalab/MinerU)

|多类型文档转 Markdown 转换工具| | [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|免费、开源、批量离线 OCR 软件。| | [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|支持多个 LLM 提供商的桌面客户端。| | [haystack](https://github.com/deepset-ai/haystack)

|用于构建可定制、生产就绪的 LLM 应用程序的 AI 编排框架。| | [OmniParser](https://github.com/microsoft/OmniParser)

|OmniParser：用于纯视觉 GUI Agent 的屏幕解析工具。| | [QAnything](https://github.com/netease-youdao/QAnything)

## 📄 许可证本项目基于 [Apache 2.0 许可证](LICENSE) 发布。 ## 🎓 引用 ``` @misc{cui2025paddleocr30technicalreport, title={PaddleOCR 3.0 Technical Report}, author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma}, year={2025}, eprint={2507.05595}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.05595}, } @misc{cui2025paddleocrvlboostingmultilingualdocument, title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma}, year={2025}, eprint={2510.14528}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.14528}, } @misc{cui2026paddleocrvl15multitask09bvlm, title={PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing}, author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Yi Liu and Dianhai Yu and Yanjun Ma}, year={2026}, eprint={2601.21957}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.21957}, } ```

标签：Apex, CNCF毕业项目, DLL 劫持, Document AI, LLM工具, NLP, OCR, PaddleOCR, PaddlePaddle, PDF解析, Python, RAG, Vectored Exception Handling, 二进制发布, 光学字符识别, 图像识别, 多语言识别, 大语言模型, 开源工具, 扫描件识别, 数据清洗, 文字提取, 文档AI, 文档理解, 无后门, 智能办公, 机器学习, 深度学习, 版面分析, 知识库构建, 结构化数据, 请求拦截, 逆向工具