SeidouSandaIssoufou/Synthetic-Table-Generator-for-Statistical-Retrieval-Benchmarking

GitHub: SeidouSandaIssoufou/Synthetic-Table-Generator-for-Statistical-Retrieval-Benchmarking

一个用于生成合成统计文档以支持检索基准测试的框架。

Stars: 0 | Forks: 0

# 统计检索基准测试用合成表格生成器 ### 用于统计检索基准测试的合成表格生成器 生成包含叙述文本、统计表格、元数据、版式和文档变体的合成文档,用于训练和评估统计数据提取与检索系统。 # 概述 `SynTabGen` 是一个合成数据生成框架,旨在支持以下方面的研究、基准测试和模型训练: 该框架生成现实的合成文档,结合了: * 叙述性文本 * 统计表格 * 脚注 * 元数据 * 多页版式 * 标题和引用 * 结构化与半结构化内容 生成的输出可用于训练和评估必须识别、检索、解析和组织嵌入在复杂文档中的统计信息的算法。 # 主要功能 ## 合成统计表格生成 生成可配置的表格,包括: * 维度 * 层级结构 * 多级表头 * 时间序列 * 地理区域分解 * 部门分类 * 缺失值 * 合计与小计 * 统计指标 ## 叙述文本 + 表格的文档合成 创建包含以下内容的真实文档: * 经济叙述 * 分析性评论 * 政策文本 * 统计参考 * 嵌入式表格 * 交叉引用 * 段落内的表格引用 示例: ## 多种输出格式 支持的输出包括: * PDF * HTML * DOCX * Markdown * JSON * CSV * PNG 表格图像 ## 真实值生成 自动生成对齐的标注,用于: * 表格边界 * 单元格结构 * 表头映射 * 实体标签 * 数值 * 来源引用 * 检索目标 非常适合监督学习和基准测试。 ## 版式多样性 模拟真实的文档变体: * 多栏版式 * 不同字体 * OCR 噪声 * 旋转的表格 * 扫描件风格瑕疵 * 分页 * 分割表格 * 嵌套表格 ## 基准数据集创建 生成大规模数据集,用于: * 表格检测 * 表格提取 * 统计检索 * 语义表格搜索 * 文档问答 * 经济文档智能分析 # 示例用例 * 训练表格提取模型 * 评估文档检索系统 * 对 LLMs 的统计推理能力进行基准测试 * 测试 OCR 的鲁棒性 * 生成合成经济报告 * 创建文档理解数据集 * 版式感知 Transformer 研究 * 为国家统计文档构建检索管道 # 示例生成文档 ``` ---------------------------------------------------- Economic Performance Report — Q4 2025 ---------------------------------------------------- Industrial production increased by 5.2% compared to the previous quarter. Export-oriented manufacturing showed the highest growth rates. Table 3. Industrial Output by Sector +----------------------+---------+---------+ | Sector | 2024 | 2025 | +----------------------+---------+---------+ | Manufacturing | 102.4 | 113.1 | | Construction | 88.7 | 91.4 | | Mining | 76.2 | 80.3 | +----------------------+---------+---------+ Source: Synthetic Statistical Office ``` # 安装 ``` git clone https://github.com/your-org/syntabgen.git cd syntabgen pip install -r requirements.txt ``` # 快速入门 ``` from syntabgen import SyntheticDocumentGenerator generator = SyntheticDocumentGenerator() doc = generator.generate( topic="macroeconomic statistics", tables=5, narrative_complexity="high", output_format="pdf" ) doc.save("sample_report.pdf") ``` # 计划功能 * 多语言文档生成 * 国民账户表格模板 * 旅游统计模板 * CPI 和通货膨胀报告生成器 * OCR 降质引擎 * LLM 评估基准套件 * 检索评分框架 * 合成元数据溯源系统 * 版式感知标注导出 * 从表格生成知识图谱 # 项目目标 `SynTabGen` 的长期目标是提供一个开放的基准测试生态系统,用于: * 统计文档智能 * 以表格为中心的 AI 系统 * 经济文档检索 * 从报告中提取结构化数据 * AI 辅助的官方统计工作流程 # 目标领域 * 国家统计局 * 中央银行 * 国际组织 * 经济研究机构 * 数据提取研究 * AI 文档智能 * 官方统计现代化 # 贡献 欢迎贡献。 潜在的贡献领域包括: * 新的表格生成器 * 文档模板 * OCR 仿真模块 * 版式引擎 * 基准数据集 * 标注模式 * 评估指标 # 许可证 MIT 许可证 # 引用 ``` @software{syntabgen, title={SynTabGen: Synthetic Table Generator for Statistical Retrieval Benchmarking}, year={2026}, author={Your Name} } ``` # 状态 早期研究与开发项目。API 和格式可能会快速演变。
标签:HTML生成, Linux安全, OCR噪声模拟, PDF生成, 叙述文本生成, 合成数据生成, 地理分布表格, 基准数据集, 多列布局, 多格式输出, 数据提取系统, 数据标注, 数据检索, 文档合成, 文档处理, 文档布局生成, 时间序列表格, 机器学习训练, 模拟文档, 混合内容文档, 算法评估, 结构化数据提取, 统计分析, 统计指标, 统计表格, 自动标注, 表格识别, 逆向工具