PitziLabs/reference-checker

GitHub: lentago/reference-checker

针对学术参考文献的取证完整性审计工具，利用Claude与实时搜索识别并分级引用伪造风险。

Stars: 0 | Forks: 0

# 取证参考完整性审计员一个针对学术参考文献列表的提示工程深度扫描验证系统。为护理与健康科学出版领域的责任编辑设计，用于在论文发表前捕捉伪造、操纵和可疑的引用。 ## 问题学术参考文献列表是信任的载体。论文工厂、AI生成的引用以及日益复杂的元数据操纵意味着，一个引用可能在格式上看起来完全正确，但实际上完全是虚构的——或者更糟糕的是，由真实元素拼接而成以规避常规验证。现有工具只解决了问题的部分方面： | 工具 | 功能 | 遗漏 | |---|---|---| | **Edifix** | 格式校正、DOI查询 | 无对抗性验证 | | **Scite.ai** | 引用上下文分析 | 无法检测虚构的元数据 | | **iThenticate** | 文本相似性/抄袭检测 | 忽略参考文献列表完整性 | | **Papermill Alarm** | 论文工厂模式检测 | 启发式范围狭窄 | | **RefChecker** | 基础DOI/元数据验证 | 无取证深度 | 没有一种工具能同时在多个启发式维度上进行对抗性取证验证。这就是本工具的作用。 ## 工作原理审计员作为一条结构化的提示在Anthropic的Claude（Opus）上运行，启用实时网络搜索以验证每条引用： - **Crossref** — DOI解析、元数据匹配、撤稿状态 - **PubMed / PMC** — 生物医学引用验证 - **Retraction Watch** — 已知撤稿和关注表达数据库 - **出版商网站** — 直接验证期刊档案 ### 取证启发式（v3）每条引用根据七个取证启发式进行评估，以捕捉逐步复杂的伪造行为： | # | 启发式 | 捕捉内容 | |---|---|---| | 1 | **DOI解析** | 无效DOI、指向错误论文的DOI、虚构的DOI模式 | | 2 | **同形异义检测** | 标题、作者名或期刊名中的Unicode替换（如西里尔字符），用于规避字符串匹配 | | 3 | **数字换位分析** | 卷、期、页码的错位排列，使真实引用无法查找到 | | 4 | **作者变动** | 与实际出版物记录相比，微妙地重新排列、增加或移除作者 | | 5 | **双重真实陷阱** | 真实DOI + 来自不同论文的真实元数据，构成可通过表面检查的合成引用 | | 6 | **期刊变异** | 期刊标题的轻微改动（词语替换、缩写操纵），指向不存在或不同的期刊 | | 7 | **影子论文签名** | 元数据看似合理但与任何已知出版物都不匹配的引用——完全虚构但构造得看似合法 | ### 风险分级每条引用被赋予四个风险等级之一： | 等级 | 标签 | 含义 | |---|---|---| | **H** | 高 | 存在伪造或操纵的强证据。建议拒绝或询问作者。 | | **E** | 升高 | 检测到多个异常。需人工验证后方可接受。 | | **M** | 中等 | 轻微异常或验证不完整。标记以供编辑注意。 | | **D** | 可辩护 | 已验证或与已知出版记录一致。无须操作。 | ### 评分公式 ``` Reference List Score = 100 − (H × 12) − (E × 5) − (M × 2) − (D × 3) ``` 该权重机制对伪造行为施加重罚，同时避免对灰色文献（政府报告、组织白皮书、URL等）过度惩罚——这些文献合法地缺乏DOI。 ## 输出审计员生成一个自包含的HTML报告，包含六个部分，专为编辑决策设计： 1. **执行仪表盘** — 置信度量表（0–100）、风险等级热图、摘要统计卡片。编辑一眼即可判断是否需要担忧。 2. **取证审计表** — 每条引用的发现结果，包含启发式标记、验证来源及风险等级分配。 3. **可疑性排序指数** — 按风险严重性排序的引用。最高风险引用优先显示。 4. **清理后的APA参考文献列表** — 所有已验证引用的格式修正（APA第7版）。 5. **PRISMA风格流程图** — 引用通过验证流程的可视化表示（已验证、已标记、无法解析、灰色文献）。 6. **取证附录** — 方法论文档、启发式定义及评分说明。支持编辑审计跟踪并符合COPE规范。 ## 使用方法 ### 要求 - Anthropic Claude（推荐使用Opus以获得高质量的法医解释） - 启用网络搜索（审计员执行实时外部来源验证） ### 执行审计 1. 将提示（参见 `prompts/v3-auditor.md`）提供给Claude并启用网络搜索。 2. 粘贴或上传待审计的参考文献列表。 3. 审计员将系统化地验证每条引用并生成HTML报告。 ### 输入格式审计员接受以下格式的参考文献列表： - 原始文本（粘贴的APA格式引用） - 从手稿PDF或Word文档中提取的内容 - 混合格式（审计员将在处理过程中进行标准化） ## 测试系统已针对以下内容进行验证： ### 对抗性测试集精心构建的30条引用列表，包含多层陷阱： - 同形异义替换（期刊标题中的西里尔字符） - 作者变动的引用（真实论文但作者列表被操纵） - 影子论文（完全虚构但听起来合理的引用） - 双重真实合成（真实DOI + 来自不同论文的元数据） - 流行文化垃圾引用（包括虚构的欧比旺·克诺比出版物） - 贯穿始终的清洁引用，用于测试误报率 ### 真实已发表论文来自JOGNN、MCN及相关护理期刊的多篇真实文章，验证审计员能正确将合法引用分类为“可辩护”，而不过度标记。 ## 路线图 ### v4 启发式（规划中） - **批量模式检测** — 对多个提交进行统计分析，以识别协同伪造活动 - **Crossref撤稿API集成** — 直接进行程序化撤稿检查 - **掠夺性期刊标记** — 采用Cabells风格方法识别掠夺性或可疑期刊 - **时间不可能性检查** — 发表于期刊存在之前或提交之后的引用 - **隐藏引用检测** — 出现在列表中但在手稿正文中从未引用的引用 - **COPE流程图对齐** — 与出版伦理委员会调查程序一致的结构化建议输出 ### 架构（规划中）为在编辑规模上实现成本优化，将流程分解到不同模型层级： | 阶段 | 模型 | 角色 | |---|---|---| | 法医解释 | Opus | 决策判断、模糊案例、对抗性推理 | | 程序验证 | Sonnet | DOI解析、元数据匹配、系统化检查 | | 格式化与输出 | Haiku | APA校正、HTML报告生成、结构化输出 | ## 项目背景本项目源于真实的编辑工作流程需求。我曾与几家领先护理期刊的编辑交谈。他们明确表示：这些期刊面临与所有学术出版相同的引用完整性威胁，并因AI生成内容的快速增长和论文工厂的复杂化而加剧。该工具旨在融入责任编辑的实际工作流程：接收手稿，运行参考文献列表审计，生成支持编辑决策的报告。它不是研究工具，而是编辑操作工具。 ## 开发方法论本项目采用**从指令到声明式促进**作为核心开发方法： 1. **探索性运行** — 执行提示，观察Claude的输出，优化原始输出。 2. **识别有效部分** — 命名成功的特定行为、启发式和输出模式。 3. **规范化为规范** — 将成功行为写入提示，作为任何Claude实例都能重现的声明式指令。这类似于从手工调优的已知良好状态编写配置管理（Puppet、Ansible）：先让系统手工运行，然后捕获该状态作为代码。在经过测试之前，不会向规范添加任何内容。提示本身就是工件。 ## 仓库结构 ``` ├── README.md ├── prompts/ │ └── v3-auditor.md # Current production prompt ├── test-sets/ │ ├── adversarial-30.md # Adversarial reference list with layered traps │ └── real-articles/ # Real article reference lists used for validation ├── reports/ # Sample output reports ├── docs/ │ ├── heuristics.md # Detailed heuristic documentation │ ├── competitive-landscape.md │ └── architecture.md # Pipeline decomposition design └── roadmap/ └── v4-features.md # Planned enhancements ``` ## 许可证 MIT许可证 — 参见 [LICENSE](LICENSE)。 ## 致谢由Chris Pitzi构建——从基础设施专业人士转型为提示工程师。将30年生产运营经验应用于让AI执行有用、可验证、对抗性的工作。与[Claude](https://claude.ai)（Anthropic）共同开发。

标签：Anthropic, CIS基准, Claude, Crossref, CVE检测, DOI解析, PMC, PubMed, Retraction Watch, 伪造检测, 元数据验证, 出版管理, 参考文献核查, 学术出版, 引用完整性, 查重审计, 深度验证, 生物医学出版, 编辑工具, 网络搜索验证, 论文真实性, 跨库检索