MuntahaShams/Document_AI_for_Custom_Data_Extraction

GitHub: MuntahaShams/Document_AI_for_Custom_Data_Extraction

基于 OCR 和规则后处理的文档智能 Pipeline，将扫描的半结构化文档自动转换为机器可读的结构化 JSON 数据。

Stars: 0 | Forks: 0

# Document AI – 文档结构化数据提取利用 OCR、布局检测和基于规则的后处理技术，从半结构化文档中自动提取结构化信息。本项目将扫描文档转换为**机器可读的结构化数据**，实现文档处理工作流的自动化。 # 项目概述许多业务流程依赖于各类文档，例如： * 车辆登记文件 * 发票 * 保险单 * 证书 * 身份记录这些文档包含有价值的信息，但仅以**图像或 PDF** 形式存在。本项目构建了一个 **Document AI pipeline**，用于从此类文档中提取关键字段并将其转换为结构化输出。提取字段的示例包括： * 车牌号 * 车主姓名 * 地址 * 车辆类型 * 车辆型号 * VIN 码 * 出生日期 * 保险公司 * 颜色 * 登记编号 # 示例结果以下是系统从车辆登记文件中提取结构化字段的示例。 ![Document AI Example](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/dbfd823860144750.png) 该 pipeline 识别相关区域，提取文本，并将信息映射到结构化字段中。 # Pipeline 架构系统遵循多阶段的文档智能工作流： 1️⃣ **输入文档** * 扫描文档或图像 2️⃣ **预处理** * 图像清理 * 降噪 * 调整大小 / 归一化 * 为 OCR 准备文档 3️⃣ **OCR 提取** * 文本检测 * 文本识别 4️⃣ **字段检测** * 识别键值区域 * 将提取的文本映射到结构化字段 5️⃣ **后处理** * 文本归一化 * 基于规则的验证 * 格式修正 6️⃣ **结构化输出** 示例输出： ``` { "license_plate": "ZH 569 737", "owner_name": "Pena Fraga Andres", "address": "Felsenkellerstrasse 23, 8636 Wald ZH", "vehicle_type": "Leichter Motorwagen", "vehicle_model": "FIAT LMC Liberty A 561 G", "vin": "ZFA 250 000 0103 0868", "birth_date": "1986-12-12", "insurance": "Zurich", "vehicle_color": "weiss / grau" } ``` # 技术栈 Python OpenCV – 图像预处理 OCR – 文本识别 (Tesseract / EasyOCR / PaddleOCR) NumPy / Pandas – 数据处理自定义提取逻辑 – 字段检测与验证 # 项目结构 ``` document-ai-extraction/ │ ├── data/ │ ├── sample_documents │ ├── notebooks/ │ └── docAI.ipynb │ ├── src/ │ ├── preprocessing.py │ ├── ocr_pipeline.py │ ├── extraction_logic.py │ ├── assets/ │ └── doc_ai_example.png │ ├── requirements.txt └── README.md ``` # 安装说明克隆仓库 ``` git clone https://github.com/MuntahaShams/document-ai-extraction.git cd document-ai-extraction ``` 安装依赖 ``` pip install -r requirements.txt ``` # 运行项目运行 notebook： ``` docAI.ipynb ``` 或对文档运行提取： ``` python extract.py --input sample_document.png ``` # Document AI 面临的挑战本项目解决的部分挑战： * 噪声扫描 * 不一致的文档布局 * OCR 识别错误 * 多语言字段 * 文档格式差异 # 可能的改进未来的增强功能包括： * 布局感知模型 (LayoutLM / Donut) * 键值检测模型 * 表格提取 * 置信度评分 * 人机交互验证 UI * API 部署 # 作者 Muntaha Shams AI Engineer – LLMs | NLP | Computer Vision | Document AI GitHub [https://github.com/MuntahaShams](https://github.com/MuntahaShams) Portfolio [https://muntahashams.github.io/portfolio/projects](https://muntahashams.github.io/portfolio/projects)

标签：Apex, OCR文字识别, PDF解析, RPA组件, 云计算, 信息提取, 信息数字化, 光学字符识别, 半结构化数据, 发票处理, 后处理校正, 图像处理, 布局检测, 数据录入, 数据清洗, 文本分析, 文档AI, 文档数字化, 文档预处理, 智能审单, 机器学习, 档案管理, 流水线架构, 深度学习, 版面分析, 票据识别, 结构化数据, 自动化办公, 表单识别, 表格提取, 规则引擎, 计算机视觉, 证件识别, 车架号识别, 车牌识别, 逆向工具