MuntahaShams/Document_AI_for_Custom_Data_Extraction
GitHub: MuntahaShams/Document_AI_for_Custom_Data_Extraction
基于 OCR 和规则后处理的文档智能 Pipeline,将扫描的半结构化文档自动转换为机器可读的结构化 JSON 数据。
Stars: 0 | Forks: 0
# Document AI – 文档结构化数据提取
利用 OCR、布局检测和基于规则的后处理技术,从半结构化文档中自动提取结构化信息。
本项目将扫描文档转换为**机器可读的结构化数据**,实现文档处理工作流的自动化。
# 项目概述
许多业务流程依赖于各类文档,例如:
* 车辆登记文件
* 发票
* 保险单
* 证书
* 身份记录
这些文档包含有价值的信息,但仅以**图像或 PDF** 形式存在。
本项目构建了一个 **Document AI pipeline**,用于从此类文档中提取关键字段并将其转换为结构化输出。
提取字段的示例包括:
* 车牌号
* 车主姓名
* 地址
* 车辆类型
* 车辆型号
* VIN 码
* 出生日期
* 保险公司
* 颜色
* 登记编号
# 示例结果
以下是系统从车辆登记文件中提取结构化字段的示例。

该 pipeline 识别相关区域,提取文本,并将信息映射到结构化字段中。
# Pipeline 架构
系统遵循多阶段的文档智能工作流:
1️⃣ **输入文档**
* 扫描文档或图像
2️⃣ **预处理**
* 图像清理
* 降噪
* 调整大小 / 归一化
* 为 OCR 准备文档
3️⃣ **OCR 提取**
* 文本检测
* 文本识别
4️⃣ **字段检测**
* 识别键值区域
* 将提取的文本映射到结构化字段
5️⃣ **后处理**
* 文本归一化
* 基于规则的验证
* 格式修正
6️⃣ **结构化输出**
示例输出:
```
{
"license_plate": "ZH 569 737",
"owner_name": "Pena Fraga Andres",
"address": "Felsenkellerstrasse 23, 8636 Wald ZH",
"vehicle_type": "Leichter Motorwagen",
"vehicle_model": "FIAT LMC Liberty A 561 G",
"vin": "ZFA 250 000 0103 0868",
"birth_date": "1986-12-12",
"insurance": "Zurich",
"vehicle_color": "weiss / grau"
}
```
# 技术栈
Python
OpenCV – 图像预处理
OCR – 文本识别 (Tesseract / EasyOCR / PaddleOCR)
NumPy / Pandas – 数据处理
自定义提取逻辑 – 字段检测与验证
# 项目结构
```
document-ai-extraction/
│
├── data/
│ ├── sample_documents
│
├── notebooks/
│ └── docAI.ipynb
│
├── src/
│ ├── preprocessing.py
│ ├── ocr_pipeline.py
│ ├── extraction_logic.py
│
├── assets/
│ └── doc_ai_example.png
│
├── requirements.txt
└── README.md
```
# 安装说明
克隆仓库
```
git clone https://github.com/MuntahaShams/document-ai-extraction.git
cd document-ai-extraction
```
安装依赖
```
pip install -r requirements.txt
```
# 运行项目
运行 notebook:
```
docAI.ipynb
```
或对文档运行提取:
```
python extract.py --input sample_document.png
```
# Document AI 面临的挑战
本项目解决的部分挑战:
* 噪声扫描
* 不一致的文档布局
* OCR 识别错误
* 多语言字段
* 文档格式差异
# 可能的改进
未来的增强功能包括:
* 布局感知模型 (LayoutLM / Donut)
* 键值检测模型
* 表格提取
* 置信度评分
* 人机交互验证 UI
* API 部署
# 作者
Muntaha Shams
AI Engineer – LLMs | NLP | Computer Vision | Document AI
GitHub
[https://github.com/MuntahaShams](https://github.com/MuntahaShams)
Portfolio
[https://muntahashams.github.io/portfolio/projects](https://muntahashams.github.io/portfolio/projects)
标签:Apex, OCR文字识别, PDF解析, RPA组件, 云计算, 信息提取, 信息数字化, 光学字符识别, 半结构化数据, 发票处理, 后处理校正, 图像处理, 布局检测, 数据录入, 数据清洗, 文本分析, 文档AI, 文档数字化, 文档预处理, 智能审单, 机器学习, 档案管理, 流水线架构, 深度学习, 版面分析, 票据识别, 结构化数据, 自动化办公, 表单识别, 表格提取, 规则引擎, 计算机视觉, 证件识别, 车架号识别, 车牌识别, 逆向工具