SeidouSandaIssoufou/Synthetic-Table-Generator-for-Statistical-Retrieval-Benchmarking
GitHub: SeidouSandaIssoufou/Synthetic-Table-Generator-for-Statistical-Retrieval-Benchmarking
一个用于生成合成统计文档以支持检索基准测试的框架。
Stars: 0 | Forks: 0
# 统计检索基准测试用合成表格生成器
### 用于统计检索基准测试的合成表格生成器
生成包含叙述文本、统计表格、元数据、版式和文档变体的合成文档,用于训练和评估统计数据提取与检索系统。
# 概述
`SynTabGen` 是一个合成数据生成框架,旨在支持以下方面的研究、基准测试和模型训练:
该框架生成现实的合成文档,结合了:
* 叙述性文本
* 统计表格
* 脚注
* 元数据
* 多页版式
* 标题和引用
* 结构化与半结构化内容
生成的输出可用于训练和评估必须识别、检索、解析和组织嵌入在复杂文档中的统计信息的算法。
# 主要功能
## 合成统计表格生成
生成可配置的表格,包括:
* 维度
* 层级结构
* 多级表头
* 时间序列
* 地理区域分解
* 部门分类
* 缺失值
* 合计与小计
* 统计指标
## 叙述文本 + 表格的文档合成
创建包含以下内容的真实文档:
* 经济叙述
* 分析性评论
* 政策文本
* 统计参考
* 嵌入式表格
* 交叉引用
* 段落内的表格引用
示例:
## 多种输出格式
支持的输出包括:
* PDF
* HTML
* DOCX
* Markdown
* JSON
* CSV
* PNG 表格图像
## 真实值生成
自动生成对齐的标注,用于:
* 表格边界
* 单元格结构
* 表头映射
* 实体标签
* 数值
* 来源引用
* 检索目标
非常适合监督学习和基准测试。
## 版式多样性
模拟真实的文档变体:
* 多栏版式
* 不同字体
* OCR 噪声
* 旋转的表格
* 扫描件风格瑕疵
* 分页
* 分割表格
* 嵌套表格
## 基准数据集创建
生成大规模数据集,用于:
* 表格检测
* 表格提取
* 统计检索
* 语义表格搜索
* 文档问答
* 经济文档智能分析
# 示例用例
* 训练表格提取模型
* 评估文档检索系统
* 对 LLMs 的统计推理能力进行基准测试
* 测试 OCR 的鲁棒性
* 生成合成经济报告
* 创建文档理解数据集
* 版式感知 Transformer 研究
* 为国家统计文档构建检索管道
# 示例生成文档
```
----------------------------------------------------
Economic Performance Report — Q4 2025
----------------------------------------------------
Industrial production increased by 5.2% compared to
the previous quarter. Export-oriented manufacturing
showed the highest growth rates.
Table 3. Industrial Output by Sector
+----------------------+---------+---------+
| Sector | 2024 | 2025 |
+----------------------+---------+---------+
| Manufacturing | 102.4 | 113.1 |
| Construction | 88.7 | 91.4 |
| Mining | 76.2 | 80.3 |
+----------------------+---------+---------+
Source: Synthetic Statistical Office
```
# 安装
```
git clone https://github.com/your-org/syntabgen.git
cd syntabgen
pip install -r requirements.txt
```
# 快速入门
```
from syntabgen import SyntheticDocumentGenerator
generator = SyntheticDocumentGenerator()
doc = generator.generate(
topic="macroeconomic statistics",
tables=5,
narrative_complexity="high",
output_format="pdf"
)
doc.save("sample_report.pdf")
```
# 计划功能
* 多语言文档生成
* 国民账户表格模板
* 旅游统计模板
* CPI 和通货膨胀报告生成器
* OCR 降质引擎
* LLM 评估基准套件
* 检索评分框架
* 合成元数据溯源系统
* 版式感知标注导出
* 从表格生成知识图谱
# 项目目标
`SynTabGen` 的长期目标是提供一个开放的基准测试生态系统,用于:
* 统计文档智能
* 以表格为中心的 AI 系统
* 经济文档检索
* 从报告中提取结构化数据
* AI 辅助的官方统计工作流程
# 目标领域
* 国家统计局
* 中央银行
* 国际组织
* 经济研究机构
* 数据提取研究
* AI 文档智能
* 官方统计现代化
# 贡献
欢迎贡献。
潜在的贡献领域包括:
* 新的表格生成器
* 文档模板
* OCR 仿真模块
* 版式引擎
* 基准数据集
* 标注模式
* 评估指标
# 许可证
MIT 许可证
# 引用
```
@software{syntabgen,
title={SynTabGen: Synthetic Table Generator for Statistical Retrieval Benchmarking},
year={2026},
author={Your Name}
}
```
# 状态
早期研究与开发项目。API 和格式可能会快速演变。
标签:HTML生成, Linux安全, OCR噪声模拟, PDF生成, 叙述文本生成, 合成数据生成, 地理分布表格, 基准数据集, 多列布局, 多格式输出, 数据提取系统, 数据标注, 数据检索, 文档合成, 文档处理, 文档布局生成, 时间序列表格, 机器学习训练, 模拟文档, 混合内容文档, 算法评估, 结构化数据提取, 统计分析, 统计指标, 统计表格, 自动标注, 表格识别, 逆向工具