MuntahaShams/Document_AI_for_Custom_Data_Extraction

GitHub: MuntahaShams/Document_AI_for_Custom_Data_Extraction

基于 OCR 和规则后处理的文档智能 Pipeline,将扫描的半结构化文档自动转换为机器可读的结构化 JSON 数据。

Stars: 0 | Forks: 0

# Document AI – 文档结构化数据提取 利用 OCR、布局检测和基于规则的后处理技术,从半结构化文档中自动提取结构化信息。 本项目将扫描文档转换为**机器可读的结构化数据**,实现文档处理工作流的自动化。 # 项目概述 许多业务流程依赖于各类文档,例如: * 车辆登记文件 * 发票 * 保险单 * 证书 * 身份记录 这些文档包含有价值的信息,但仅以**图像或 PDF** 形式存在。 本项目构建了一个 **Document AI pipeline**,用于从此类文档中提取关键字段并将其转换为结构化输出。 提取字段的示例包括: * 车牌号 * 车主姓名 * 地址 * 车辆类型 * 车辆型号 * VIN 码 * 出生日期 * 保险公司 * 颜色 * 登记编号 # 示例结果 以下是系统从车辆登记文件中提取结构化字段的示例。 ![Document AI Example](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/dbfd823860144750.png) 该 pipeline 识别相关区域,提取文本,并将信息映射到结构化字段中。 # Pipeline 架构 系统遵循多阶段的文档智能工作流: 1️⃣ **输入文档** * 扫描文档或图像 2️⃣ **预处理** * 图像清理 * 降噪 * 调整大小 / 归一化 * 为 OCR 准备文档 3️⃣ **OCR 提取** * 文本检测 * 文本识别 4️⃣ **字段检测** * 识别键值区域 * 将提取的文本映射到结构化字段 5️⃣ **后处理** * 文本归一化 * 基于规则的验证 * 格式修正 6️⃣ **结构化输出** 示例输出: ``` { "license_plate": "ZH 569 737", "owner_name": "Pena Fraga Andres", "address": "Felsenkellerstrasse 23, 8636 Wald ZH", "vehicle_type": "Leichter Motorwagen", "vehicle_model": "FIAT LMC Liberty A 561 G", "vin": "ZFA 250 000 0103 0868", "birth_date": "1986-12-12", "insurance": "Zurich", "vehicle_color": "weiss / grau" } ``` # 技术栈 Python OpenCV – 图像预处理 OCR – 文本识别 (Tesseract / EasyOCR / PaddleOCR) NumPy / Pandas – 数据处理 自定义提取逻辑 – 字段检测与验证 # 项目结构 ``` document-ai-extraction/ │ ├── data/ │ ├── sample_documents │ ├── notebooks/ │ └── docAI.ipynb │ ├── src/ │ ├── preprocessing.py │ ├── ocr_pipeline.py │ ├── extraction_logic.py │ ├── assets/ │ └── doc_ai_example.png │ ├── requirements.txt └── README.md ``` # 安装说明 克隆仓库 ``` git clone https://github.com/MuntahaShams/document-ai-extraction.git cd document-ai-extraction ``` 安装依赖 ``` pip install -r requirements.txt ``` # 运行项目 运行 notebook: ``` docAI.ipynb ``` 或对文档运行提取: ``` python extract.py --input sample_document.png ``` # Document AI 面临的挑战 本项目解决的部分挑战: * 噪声扫描 * 不一致的文档布局 * OCR 识别错误 * 多语言字段 * 文档格式差异 # 可能的改进 未来的增强功能包括: * 布局感知模型 (LayoutLM / Donut) * 键值检测模型 * 表格提取 * 置信度评分 * 人机交互验证 UI * API 部署 # 作者 Muntaha Shams AI Engineer – LLMs | NLP | Computer Vision | Document AI GitHub [https://github.com/MuntahaShams](https://github.com/MuntahaShams) Portfolio [https://muntahashams.github.io/portfolio/projects](https://muntahashams.github.io/portfolio/projects)
标签:Apex, OCR文字识别, PDF解析, RPA组件, 云计算, 信息提取, 信息数字化, 光学字符识别, 半结构化数据, 发票处理, 后处理校正, 图像处理, 布局检测, 数据录入, 数据清洗, 文本分析, 文档AI, 文档数字化, 文档预处理, 智能审单, 机器学习, 档案管理, 流水线架构, 深度学习, 版面分析, 票据识别, 结构化数据, 自动化办公, 表单识别, 表格提取, 规则引擎, 计算机视觉, 证件识别, 车架号识别, 车牌识别, 逆向工具