Imbad0202/academic-research-skills

GitHub: Imbad0202/academic-research-skills

一套面向 Claude Code 的学术研究全流程技能套件，通过多 Agent 协作和人在回路机制，辅助研究者完成从调研到论文发表的完整学术写作流程。

Stars: 38854 | Forks: 3136

# Claude Code 学术研究技能 [![Version](https://img.shields.io/badge/version-v3.7.0-blue)](https://github.com/Imbad0202/academic-research-skills/releases/tag/v3.7.0) [![License: CC BY-NC 4.0](https://img.shields.io/badge/license-CC%20BY--NC%204.0-lightgrey)](https://creativecommons.org/licenses/by-nc/4.0/) [![Sponsor](https://img.shields.io/badge/sponsor-Buy%20Me%20a%20Coffee-orange?logo=buy-me-a-coffee)](https://buymeacoffee.com/crucify020v) [繁體中文版](README.zh-TW.md) 一套专为 Claude Code 打造的综合学术研究技能套件，涵盖从研究到发表的完整流程。 **30 秒安装** (Claude Code CLI / VS Code / JetBrains, v3.7.0+)： ``` /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills ``` 然后尝试使用 `/ars-plan`，通过苏格拉底式对话梳理你的论文结构，或者跳转至[快速安装](#quick-install)查看前置条件和传统的 symlink 流程。 ### 为什么选择人在回路，而不是完全自动化？ Lu 等人 (2026, *Nature* 651:914-919) 构建了 **The AI Scientist** —— 第一个通过顶级 ML 会议 (ICLR 2025 workshop，得分 6.33/10，而 workshop 平均分为 4.87) 盲审并发表论文的全自主 AI 研究系统。他们的局限性章节列举了任何全自主 AI 研究流程都会存在的失效模式：实现错误、幻觉结果、依赖捷径、将错误重构为洞察、方法捏造、框架锁定、引用幻觉。 ARS 建立在一个前提下：**由 AI 增强的人类研究人员能比任何单独一方更好地避免这些失效模式**。阶段 2.5 和阶段 4.5 的完整性门控运行包含 7 种模式的阻塞检查清单（参见 [`academic-pipeline/references/ai_research_failure_modes.md`](academic-pipeline/references/ai_research_failure_modes.md)）；审查器提供了一个可选的校准模式，可根据用户提供的黄金集测量其自身的 FNR/FPR。 v3.3 的灵感来自于 [**PaperOrchestra**](https://arxiv.org/abs/2604.05018) (Song, Song, Pfister & Yoon, 2026, Google)：Semantic Scholar API 验证、防泄露协议、VLM 图表验证以及得分轨迹追踪。 ## 架构与流程 **👉 [docs/ARCHITECTURE.md](docs/ARCHITECTURE.md)** —— 完整的流程视图：流程图、逐阶段矩阵、数据访问流、技能依赖图、质量门控和模式列表。架构文档取代了以前存放在这里的冗长流程描述。关于*在哪个阶段运行什么*的所有内容现在都集中在一个地方。 ## 快速安装 **前置条件** - [Claude Code](https://claude.ai/install.sh) (最新版；插件打包需要最新版本) - 已导出 `ANTHROPIC_API_KEY`，或在首次运行 `claude` 时设置 - *可选：* 用于 DOCX 的 Pandoc，用于 APA 7.0 PDF 的 tectonic + Source Han Serif TC（两者均非 Markdown 输出所必需） **插件安装 (v3.7.0+，推荐)：** ``` /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills ``` **验证是否生效：** 运行 `/ars-plan` 并描述你正在撰写的论文 —— ARS 将开启苏格拉底式对话以规划章节结构。如果要进行单次测试，请尝试 `/ars-lit-review "你的主题"`。 **👉 [docs/SETUP.md](docs/SETUP.md)** —— 完整指南：安装 Claude Code、设置 API 密钥、用于 DOCX/PDF 的可选 Pandoc/tectonic、跨模型验证 (`ARS_CROSS_MODEL`) 以及五种安装方法（插件、项目技能、全局技能、claude.ai Project、仓库克隆）。 **使用 Codex CLI？** 请改为安装兄弟发行版：[`Imbad0202/academic-research-skills-codex`](https://github.com/Imbad0202/academic-research-skills-codex) —— 相同的工作流内容，作为具有 `ars-*` 别名的单个 `$academic-research-suite` 技能进行 Codex 原生打包。 ## 性能与成本 **👉 [docs/PERFORMANCE.md](docs/PERFORMANCE.md)** —— 每种模式的 token 预算、完整流程估算（一篇 1.5 万词的论文约 $4–6）以及推荐的 Claude Code 设置（跳过权限；可选 Agent Team）。 ## 指南与文章 - [学术写作不应是独角戏](https://open.substack.com/pub/edwardwu223235/p/academic-writing-shouldnt-be-a-solo?r=4dczl&utm_medium=ios) —— 完整的流程演练 (英文) - [學術寫作不該是一個人的事：一套開源 AI 協作工具如何改變研究者的工作流](https://open.substack.com/pub/edwardwu223235/p/ai?r=4dczl&utm_medium=ios) —— 完整使用指南（繁体中文） ## 功能概览 - **深度研究 (Deep Research)** —— 13 个 Agent 的研究团队，具备苏格拉底式引导模式、PRISMA 系统性综述、意图检测、对话健康监测、可选的跨模型 DA、Semantic Scholar API 验证。 - **学术论文** —— 12 个 Agent 的论文写作，具备风格校准、写作质量检查、LaTeX 强化、可视化、修改辅导、引用转换、防泄露协议和 VLM 图表验证。 - **学术论文审查器** —— 7 个 Agent 的多视角同行评审，具备 0-100 的质量评分标准 (EIC + 3 名动态审查员 + 魔鬼代言人)、让步阈值协议、攻击强度保持、可选的跨模型 DA 批评/校准、R&R 可追溯性矩阵、只读约束。 - **学术流程** —— 10 阶段流程协调器，具备自适应检查点、主张验证、Material Passport、可选的 `repro_lock`、可选的跨模型完整性验证、会话中强化以及得分轨迹追踪。 - **数据访问级别元数据** (v3.3.2+) —— 每个技能都声明了 `data_access_level` (`raw` / `redacted` / `verified_only`)；由 `scripts/check_data_access_level.py` 强制执行。该模式改编自 Anthropic 的 automated-w2s-researcher (2026)。参见 [`shared/ground_truth_isolation_pattern.md`](shared/ground_truth_isolation_pattern.md)。 - **任务类型注解** (v3.3.2+) —— 每个技能都声明了 `task_type` (`open-ended` 或 `outcome-gradable`)。所有当前的 ARS 技能均为 `open-ended`。 - **基准测试报告 Schema** (v3.3.5+) —— JSON Schema + lint，用于诚实的基准测试比较。参见 [`shared/benchmark_report_pattern.md`](shared/benchmark_report_pattern.md)。 - **制品可复现性锁定文件** (v3.3.5+) —— Material Passport 上可选的 `repro_lock` 子块。**这是配置文档，而非重放保证** —— LLM 输出在字节级别不可复现。参见 [`shared/artifact_reproducibility_pattern.md`](shared/artifact_reproducibility_pattern.md)。 ## 展示：真实的流程输出请查看来自真实 10 阶段流程运行的完整制品 —— 同行评审报告、完整性验证报告以及最终论文： **[浏览所有流程制品 →](examples/showcase/)** | 制品 | 描述 | |---|---| | [最终论文 (英文)](examples/showcase/full_paper_apa7.pdf) | APA 7.0 格式，LaTeX 编译 | | [最终论文 (中文)](examples/showcase/full_paper_zh_apa7.pdf) | 中文版，APA 7.0 | | [完整性报告 — 审查前](examples/showcase/integrity_report_stage2.5.pdf) | 阶段 2.5：发现 15 个捏造的参考文献 + 3 个统计错误 | | [完整性报告 — 最终](examples/showcase/integrity_report_stage4.5.pdf) | 阶段 4.5：确认零回归 | | [同行评审第一轮](examples/showcase/stage3_review_report.pdf) | EIC + 3 名审查员 + 魔鬼代言人 | | [重新审查](examples/showcase/stage3prime_rereview_report.pdf) | 修改后的验证 | | [同行评审第二轮](examples/showcase/stage3_review_report_r2.pdf) | 跟进审查 | | [对审查员的回复](examples/showcase/response_to_reviewers_r2.pdf) | 逐点作者回复 | | [发表后审计报告](examples/showcase/post_publication_audit_2026-03-09.pdf) | 独立的全参考文献审计：发现 3 轮完整性检查遗漏的 21/68 个问题 | ## 配套工具：实验 Agent 如果你的研究在写作前涉及运行实验（代码或人类受试者研究），[实验 Agent](https://github.com/Imbad0202/experiment-agent) 技能可以填补 ARS 阶段 1 (研究) 和阶段 2 (写作) 之间的空白。 ``` ARS Stage 1 RESEARCH → RQ Brief + Methodology Blueprint ↓ experiment-agent → run/manage experiments → validate results ↓ ARS Stage 2 WRITE → write paper with verified experiment results ``` **它的作用**：执行代码实验 (Python、R 等) 并提供实时监控，通过 IRB 伦理清单管理人类受试者研究协议，通过 11 种类型的谬误检测解释统计数据，并验证可复现性。 **如何配合使用**：在阶段 1 之后暂停 ARS 流程，在单独的 experiment-agent 会话中运行实验，然后将结果（带有 Material Passport）带回 ARS 阶段 2。ARS 无需任何修改。有关设置说明，请参阅 [experiment-agent README](https://github.com/Imbad0202/experiment-agent)。 ## 用法 ### 快速入门 ``` # 启动完整研究 pipeline You: "I want to write a research paper on AI's impact on higher education QA" # 启动 Socratic 引导 You: "Guide my research on AI in educational evaluation" # 通过引导规划撰写论文 You: "Guide me through writing a paper on demographic decline" # 审查现有论文 You: "Review this paper" (then provide the paper) # 检查 pipeline 状态 You: "status" ``` ### 单独技能 #### 深度研究 (7 种模式) ``` "Research the impact of AI on higher education" → full mode "Give me a quick brief on X" → quick mode "Do a systematic review on X with PRISMA" → systematic-review mode "Guide my research on X" → socratic mode (guided) "Fact-check these claims" → fact-check mode "Do a literature review on X" → lit-review mode "Review this paper's research quality" → review mode ``` #### 学术论文 (10 种模式) ``` "Write a paper on X" → full mode "Guide me through writing a paper" → plan mode (guided) "Build a paper outline" → outline-only mode "I have a draft, here are reviewer comments" → revision mode "Parse these reviewer comments into a roadmap" → revision-coach mode "Write an abstract for this paper" → abstract-only mode "Turn this into a literature review paper" → lit-review mode "Convert to LaTeX" / "Convert citations to IEEE" → format-convert mode "Check citations" → citation-check mode "Generate an AI disclosure statement for NeurIPS" → disclosure mode ``` #### 学术论文审查器 (6 种模式) ``` "Review this paper" → full mode (EIC + R1/R2/R3 + Devil's Advocate) "Quick assessment of this paper" → quick mode "Guide me to improve this paper" → guided mode "Check the methodology" → methodology-focus mode "Verify the revisions" → re-review mode "Calibrate this reviewer against my gold set" → calibration mode ``` #### 学术流程 (协调器) ``` "I want to write a complete research paper" → full pipeline from Stage 1 "I already have a paper, review it" → mid-entry at Stage 2.5 (integrity first) "I received reviewer comments" → mid-entry at Stage 4 ``` ### 支持的语言 - **繁体中文** (繁體中文) —— 当用户使用中文书写时默认启用 - **英文** —— 当用户使用英文书写时默认启用 - 学术论文的双语摘要（中文 + 英文） ### 支持的引用格式 - APA 7.0 (默认，包括中文引用规则) - Chicago (Notes & Author-Date) - MLA - IEEE - Vancouver ### 支持的论文结构 - IMRaD (实证研究) - 主题文献综述 - 理论分析 - 案例研究 - 政策简报 - 会议论文 ## 技能详情每个 Agent 的职责和每个阶段的制品现在位于 [`docs/ARCHITECTURE.md`](docs/ARCHITECTURE.md)。版本号在此锚定，以便发布元数据集中在一处。 ### 深度研究 (v2.8) 13 个 Agent 的研究团队。模式：full、quick、review、lit-review、fact-check、socratic、systematic-review。完整的 Agent 名单和制品：参见 ARCHITECTURE.md §3。 ### 学术论文 (v3.0) 12 个 Agent 的论文写作流程。模式：full、plan、outline-only、revision、revision-coach、abstract-only、lit-review、format-convert、citation-check、disclosure。输出：MD + DOCX (通过 Pandoc，如果可用) + LaTeX (APA 7.0 `apa7` 文档类 / IEEE / Chicago) → 通过 tectonic 生成 PDF。完整的 Agent 名单和各阶段职责：参见 ARCHITECTURE.md §3。 ### 学术论文审查器 (v1.8) 7 个 Agent 的多视角评审，具备 **0-100 质量评分标准**。模式：full、re-review、quick、methodology-focus、guided、calibration。**决定映射：** ≥80 接受，65-79 小修，50-64 大修，<50 拒稿。首轮评审团队与狭窄的重审团队边界：参见 ARCHITECTURE.md §3 阶段 3 / 阶段 3'。 ### 学术流程 (v3.7) 10 阶段协调器，具备完整性验证、两阶段评审、苏格拉底式辅导和协作评估。流程保证：每个阶段都需要用户确认检查点；完整性验证（阶段 2.5 + 4.5）不可跳过；R&R 可追溯性矩阵 (Schema 11) 独立验证作者的修改主张。v3.4 在阶段 2.5 / 4.5 添加了合规 Agent (PRISMA-trAIce + RAISE)。v3.5 在每个 FULL/SLIM 检查点和流程完成时添加了 **协作深度观察器** (`collaboration_depth_agent`，仅提供建议 —— 从不阻塞)。强制性完整性门控 (2.5 / 4.5) 明确跳过该观察器，以免稀释合规检查。基于 Wang & Zhang (2026)，IJETHE 23:11。包含 Agent、制品和门控的逐阶段矩阵：参见 ARCHITECTURE.md §3。 ## v3.0 优化：我们对 AI 结构性局限的发现 ### 发生了什么在使用 ARS 撰写一篇关于高等教育中 AI 的反思文章时，我遇到了三个结构性问题，任何提示工程都无法修复： 1. **框架锁定**：我要求 AI 针对其自身的论点进行一场魔鬼代言人的辩论。它确实这么做了 —— 四轮辩论，每一轮都比上一轮更精细。但每一轮都停留在了我设定的框架内。DA 攻击的是论点，而不是前提。它从未问过“我们讨论的真的是正确的问题吗？”正是这种模式导致了 v2.7 压测试中 31% 的引用错误率：验证 AI 和生成 AI 共享着相同的认知框架。 2. **遇到阻力时的阿谀奉承**：每次我质疑 DA 的攻击时，它都让步得太快。它撤回结论的速度比提出结论的速度还要快。模型的训练奖励对话和谐 —— 因此“用户反驳”被视为攻击错误的证据，而通常这只意味着用户很固执。 3. **意图误判**：苏格拉底式导师一直试图收敛并产生可交付成果（“需要我把它写出来吗？”），而我还在探索中。它无法区分“用户想要深入的哲学讨论”和“用户想要一个研究问题简报”。两者看起来都是参与，但它们需要相反的 AI 行为。 ### 我们改变了什么 (v3.0) **魔鬼代言人 —— 让步阈值协议** (`deep-research` + `academic-paper-reviewer`) - DA 现在必须在回复之前对每一个反驳进行 1-5 分的评分 - 仅当评分 ≥4 时才允许让步（反驳用证据直接回应核心攻击） - 评分 ≤3：坚持立场并重述原始攻击 - 反阿谀奉承规则：不允许连续让步、让步率追踪、每个检查点后的框架锁定检测 **苏格拉底式导师 —— 意图检测层** (`deep-research`) - 在对话开始时和每 3 个回合将用户意图分类为探索性或目标导向性 - 探索模式：禁用自动收敛，将最大回合数提高到 60，禁止“需要我总结吗？”的提示 - 目标导向模式：标准的收敛行为 - 反过早结束规则：在探索模式下，由用户决定何时停止 **苏格拉底式导师 —— 对话健康指示器** (`deep-research`) - 每 5 个回合进行一次静默自我评估，涵盖三个维度：持续同意、回避冲突、过早收敛 - 当检测到同意模式时自动注入挑战性问题 - 对用户不可见（以防止博弈），但日志可用于会后审查 ### 为什么这很重要这些优化并没有解决 AI 的结构性局限 —— 它们让这些局限变得可见且可管理。如果施加足够的压力，DA 最终仍然会做出让步。苏格拉底式导师仍然会有一些收敛偏见。但现在有了明确的检查点，可以减缓阿谀奉承，强制 DA 证明其让步的合理性，并防止导师在用户准备好之前就收尾。更深层的教训：AI 素养不在于学习如何将 AI 作为工具使用、遵循伦理规则或害怕 AI 风险。而在于深入参与 AI，从而自己发现其结构性局限 —— 并在此过程中发现你自身的思维局限。 ## 许可证本作品根据 [CC-BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/) 授权。 **你可以自由地：** - 分享 —— 复制和重新分发材料 - 改编 —— 混合、转换和基于材料进行构建 **在以下条款的约束下：** - **署名** —— 你必须提供适当的归属 - **非商业性使用** —— 你不得将材料用于商业目的 **署名格式：** ``` Based on Academic Research Skills by Cheng-I Wu https://github.com/Imbad0202/academic-research-skills ``` ## 更新日志 ### v3.7.0 (2026-05-05) — Claude Code 插件打包 - **插件清单与市场元数据** (阶段 1，PR #68)。`.claude-plugin/plugin.json` 声明了该套件（通过相对 symlink 从 `skills/` 目录自动发现 4 个技能）。`.claude-plugin/marketplace.json` 注册了插件，以便单个 GitHub 托管的端点同时提供市场列表和插件源。README + `README.zh-TW.md` + `docs/SETUP.md` 包含双轨安装说明。 - **10 个斜杠命令** 位于 `commands/ars-*.md` (阶段 2.1，PR #69)，将 `MODE_REGISTRY.md` 条目映射到 `/ars-` 触发器。模型路由固定在每个命令的 frontmatter 中 —— `opus` 用于 `full` 和 `revision-coach`（架构/审查解释深度），`sonnet` 用于其他 8 个。根据项目策略不使用 Haiku。 - **3 个随插件发布的 Agent** 位于 `agents/*_agent.md` (阶段 2.1，PR #69)，作为指向 `deep-research/agents/` 中 v3.6.7 强化的下游 Agent 的相对 symlink：`synthesis_agent`、`research_architect_agent`、`report_compiler_agent`。保留下划线文件名，以使 `scripts/check_v3_6_7_pattern_protection.py` 的硬固定路径和 INV-3 清单受限的 Clause 1 不变式保持完整。Symlink（而非副本）保持了唯一的真实来源，并防止了 v3.6.7 §6 反转扫描 + INV-1/2/3 lint 所关闭的 Pattern C3 攻击面。 - 为这三个源 Agent 的 frontmatter 添加了 **`model: inherit`**。选择 `inherit` 而不是固定 `sonnet`，是为了让运行 ARS 完整流程的 opus 会话保留 opus Agent（而不是被限制）。用户的 `~/.claude/hooks/warn-agent-no-model.sh` PreToolUse hook 在调度边界处限制了 Haiku，因此 `inherit` 在已经排除 Haiku 的模型中解析。 - **SessionStart 公告 hook** 位于 `hooks/hooks.json` + `scripts/announce-ars-loaded.sh` (阶段 2.2，PR #70)。当插件加载时，该 hook 将列出 10 个斜杠命令、3 个插件 Agent 和 token 预算指针的 `additionalContext` 注入到 LLM 的第一轮中。`startup` 和 `clear` 源值获取完整的公告；`resume` 和 `compact` 获取一行确认以避免消耗上下文。兼容 Bash 3.2 —— 在 macOS 自带的 `/bin/bash` 上运行，无需 `brew install bash`。 - **阶段 2.2 范围缩减**：一个 `SubagentStop → run_codex_audit.sh` 的 codex 审计 hook 被排除在 v3.7.0 之外，原因是存在契约缺口（SubagentStop payload 不携带阶段/交付物信息，因此包装器必须半推断所需的参数）和调用者类边界（`run_codex_audit.sh` 的第 4–7 行禁止同会话的 LLM 内部调用；PostToolUse 在生成会话内部触发）。真正的审计 hook 集成推迟到未来的版本，届时 ARS 将获得阶段/交付物传播契约。参见 `docs/design/2026-04-30-ars-v3.7.0-plugin-packaging-roadmap.md` 的更新说明 2026-05-05 (阶段 2.2 范围缩减)。 - **`docs/PERFORMANCE.md` + `.zh-TW.md`** 新增了“v3.7.0 插件 Agent 和模型路由”小节，解释了继承语义和当前的 3 个 Agent 范围边界。 - **跨三个 PR 的 Codex 审查链**：8 轮内联迭代 + 3 轮全新 PR 级审查，在合并前均收敛至 0 个 P0/P1/P2 发现。阶段 2.2 的全新 PR 审查发现了一个 P2（未加引号的 `${CLAUDE_PLUGIN_ROOT}` 破坏了包含空格的安装路径），这是内联轮次遗漏的 —— 这证实了将实现审查（内联）与契约审查（全新）分离的价值。 - **未改变的内容**：四个技能目录、所有 25 种模式、Agent 提示、Schema 文件和 lint 契约。插件打包仅添加了新的顶级表面（`commands/`、`agents/`、`hooks/`、`.claude-plugin/`、`skills/` symlink 目录、三个插件 Agent 的 `model: inherit` frontmatter 添加）。现有的 4.3k 克隆安装用户不会看到破坏性更改。 ### v3.6.8 (2026-05-03) — 生成器-评估器契约门控 (v3.6.6 规范交付) - **Schema 13.1** (`shared/sprint_contract.schema.json`) 扩展了 Schema 13，新增了两个 `mode` 枚举值 (`writer_full` + `evaluator_full`)、两个可选的顶级字段（仅限 writer 的 `pre_commitment_artifacts`，仅限 evaluator 的 `disagreement_handling`），以及 12 个强制执行审查器/writer/评估器条件门控的 `allOf` 分支。现有的审查器契约在 Schema 13.1 下逐字节等效验证（§3.6 零接触承诺）。 - **两个新的随附契约模板**，位于 `shared/contracts/writer/full.json` (D1–D7, F1/F4/F2/F3/F0) 和 `shared/contracts/evaluator/full.json` (D1–D5, F1/F2/F3/F6/F4/F5/F0)。在 Schema 13.1 升级的同时，从规范分支上的设计时制品提升为实时随附状态。 - **`academic-paper full` 内部的两阶段协调**：阶段 4 分为阶段 4a（writer 论文盲预承诺）+ 阶段 4b（writer 论文可见起草 + 自我评分）；阶段 6 分为阶段 6a（evaluator 论文盲预承诺）+ 阶段 6b（evaluator 论文可见评分 + 决策）。带阶段编号的 `` / `` 数据分隔符反映了 v3.6.2 的审查器模式。Lint 计数摘要：writer 3+4 / evaluator 5+5 / reviewer 5+6（审查器保持零接触）。 - **`academic-paper` 的 SKILL + Agent 文件** 增加了一个逐字逐句的 `## v3.6.6 Generator-Evaluator Contract Protocol` 块（SKILL.md 中 101 行，加上 `draft_writer_agent.md` 中的 47 行 + `peer_reviewer_agent.md` 中的 57 行）。SKILL.md 还添加了一个新的 `## Known limitations` 部分，包含优雅降级和跨会话恢复的前向说明（v3.6.7+）。 - **验证器扩展**：`scripts/check_sprint_contract.py` SC-* 模式门控审计 (SC-5 + SC-11 仅限审查器；SC-9 扩展至所有三个模式家族)。17 个新测试使验证器单元测试数量从 54 个增加到 71 个（正面测试 + 5 个 schema 分支负面测试 + 2 个 §3.6 审查器回归测试 + 6 个模式门控测试）。 - **清单 CI lint**：`scripts/check_v3_6_6_ab_manifest.py` 强制执行 `tests/fixtures/v3.6.6-ab/manifest.yaml` 上的 §6.2 清单 schema + §6.5 git 跟踪不变式。`.github/workflows/spec-consistency.yml` 扩展了 sprint 契约验证循环，以遍历 writer + evaluator 模板目录及现有的审查器循环，并运行新的清单 CI lint。 - **A/B 证据装置存根** 位于 `tests/fixtures/v3.6.6-ab/`（30 个文件）：清单 + README + 6 个论文-A 输入/基线 + 1 个论文-C 输入/基线 + 阶段 3 审查器摘录 + 6 个 codex-judge 基线占位符。真实的装置数据将在后续提交中填充，在实现工作完全完成之前。 ### v3.6.7 (2026-04-30) — 下游 Agent 模式保护 (步骤 1+2) - **针对 18 种已记录的幻觉/漂移模式中的 13 种强化了三个下游 Agent**：`synthesis_agent` (A1–A5 叙事侧)，`research_architect_agent` 的 survey-designer 模式 (B1–B5 仪器侧)，以及 `report_compiler_agent` 的 abstract-only 模式 (C1–C3 出版侧)。每个 Agent 提示现在都带有一个 `PATTERN PROTECTION (v3.6.7)` 块。 - **`shared/references/` 中的四个参考文件**：`irb_terminology_glossary.md`、`psychometric_terminology_glossary.md`、`protected_hedging_phrases.md`、`word_count_conventions.md`。这些参考文件带有 Agent 提示通过路径引用的操作契约。 - **跨模型审计提示模板** 位于 `shared/templates/codex_audit_multifile_template.md`，包含七个审计维度和针对 `report_compiler_agent` 包的强制性三部分 Section 4(f) 检查。任何子检查失败均为 P1 发现。 - **静态 lint + 29 项测试的变异套件**：`scripts/check_v3_6_7_pattern_protection.py` 强制执行保护条款的存在和义务短语的形态；`scripts/test_check_v3_6_7_pattern_protection.py` 保留了 cod 审查证据，以便未来的检查器回归在 CI 中暴露。两者均已接入 `.github/workflows/spec-consistency.yml`。 - **Codex 审查历史**：七轮 `gpt-5.5` + `xhigh` 的跨模型审查达到了 SHIP-OK，零个 P1+P2 发现。步骤 6（协调器运行时 hook）和步骤 8（合成评估用例）将在后续 PR 中交付。 ### v3.6.5 (2026-04-27) — Material Passport `literature_corpus[]` 消费者集成 - **连接了两个阶段 1 文献消费者**：`deep-research/agents/bibliography_agent.md` 和 `academic-paper/agents/literature_strategist_agent.md`。当 passport 包含非空的 `literature_corpus[]` 时，两者都遵循相同的五步 **语料库优先，搜索填补空白** 流程以及相同的四条铁律（相同标准/无静默跳过/无语料库突变/解析失败时优雅降级）。 - **搜索策略报告中的预筛选可复现性块**：列举了包含/排除/跳过的语料库条目，带有 F3 零命中说明和 F4a–F4f 来源报告，这些报告围绕 `obtained_via` / `obtained_at` 的部分声明进行组合。`final_included = pre_screened_included[] ∪ external_included[]` 保持中立 —— 参考文献条目或文献矩阵行上没有来源标签。 - **消费者协议参考** 位于 `academic-pipeline/references/literature_corpus_consumers.md`，包含规范的预筛选模板、反模式/正例、四条铁律和每个消费者的阅读说明。 - **CI lint** `scripts/check_corpus_consumer_protocol.py` 强制执行九项协议不变式，带有清单驱动的消费者列表 (`scripts/corpus_consumer_manifest.json`)。 - **Schema 9 注意事项退役**：`shared/handoff_schemas.md` 退役了 v3.6.4 的“消费者侧集成推迟至 v3.6.5+”注意事项；替换为指向消费者协议的反向指针。 - 基于存在性，无 schema 更改，无新环境标志。解析失败通过 `[CORPUS PARSE FAILURE]` 表面回退到仅外部数据库流程。`citation_compliance_agent` 语料库集成推迟至 v3.6.6+。 - 无破坏性更改。现有的用户适配器无需修改即可工作。 ### v3.6.4 (2026-04-25) — Material Passport `literature_corpus[]` 输入端口 - **`literature_corpus[]` 字段** 作为用户自有文献的可选输入端口添加到 Schema 9 中。每个条目符合 `shared/contracts/passport/literature_corpus_entry.schema.json` 规范（CSL-JSON 作者、年份、标题、source_pointer + 私有的可选 `abstract` / `user_notes`）。 - **语言中立的适配器契约** 位于 `academic-pipeline/references/adapters/overview.md`：任何读取用户语料库源的程序（任何语言）都可以生成符合规范的 `passport.yaml` + `rejection_log.yaml`。条目级错误软失败，适配器级错误硬失败，确定性排序。 - **三个参考 Python 适配器** 位于 `scripts/adapters/` 下：`folder_scan.py`（PDF 文件系统）、`zotero.py`（Better BibTeX JSON 导出）、`obsidian.py`（vault frontmatter）。仅作为起点；用户需为非参考源编写自己的适配器。 - **拒绝日志契约** 位于 `shared/contracts/passport/rejection_log.schema.json`，具有封闭的分类原因值枚举；始终发出（无拒绝时为空）。 - **CI 门控**：`scripts/check_literature_corpus_schema.py` 验证 schema + 适配器示例；`scripts/sync_adapter_docs.py --check` 防止 schema→docs 漂移；新的 `pytest.yml` 工作流在路径过滤的触发器上运行 `scripts/adapters/tests/`。 - **v3.6.4 中仅限输入端口**：v3.6.4 发布了 schema 和适配器契约，但没有消费者集成。`bibliography_agent` 和 `literature_strategist_agent` 在 v3.6.5 中连接。 - 无破坏性更改。 ### v3.6.3 (2026-04-23) — 可选的 Passport 重置边界 - **可选的 passport 重置边界** (`ARS_PASSPORT_RESET=1`)。将每个 FULL 检查点提升为上下文重置边界。新的 `resume_from_passport=` 模式允许用户仅从 Material Passport 账本在新的 Claude Code 会话中恢复。启用该标志的 `systematic-review` 模式在每个 FULL 检查点强制重置；其他模式将重置视为受标志限制的默认行为。标志关闭时逐字节保留 v3.6.3 之前的行为。 - Schema 9 增加了一个只允许追加的 `reset_boundary[]` 账本，包含两种条目类型 (`kind: boundary` + `kind: resume`)。哈希使用 JSON Canonical Form + SHA-256，并带有用于自引用安全的标准占位符。可选的 `pending_decision` 处理 MANDATORY 分支选择。 - 新的 `scripts/check_passport_reset_contract.py` CI lint：对该标志的每次提及都必须并置指向权威协议文档的指针。 - 协议文档：`academic-pipeline/references/passport_as_reset_boundary.md`。 - `docs/PERFORMANCE.md` 更新了长时间运行会话的指导。 - 无破坏性更改。标志默认为关闭。 ### v3.6.2 (2026-04-23) — 审查器冲刺契约硬门控 v3.6.2 引入了 Schema 13 冲刺契约和硬门控协调，强制审查器在阅读论文之前预承诺其评分计划。仅限审查器的首个测试用例；writer/evaluator 推迟至 v3.6.4。参见 CHANGELOG。 - **Schema 13 冲刺契约** 包含 `panel_size`、`acceptance_dimensions`、`failure_conditions`（带有 `severity` 优先级 + 面板相关的 `cross_reviewer_quantifier`）、`measurement_procedure`、可选的 `override_ladder`、有界的 `agent_amendments`。验证器：`scripts/check_sprint_contract.py`。 - **两次调用硬门控。** 审查器运行论文内容盲阶段 1 + 论文可见阶段 2；阶段 1 的输出包装在 `...` 数据分隔符中，以缩小自我注入的攻击面。 - **合成器三步机械协议。** 构建跨审查器矩阵 → 使用面板相关的量词和已识别的表达词汇评估每个 `failure_condition` → 按 `severity` 解析优先级。`editorial_synthesizer_agent` 中明确列出了禁止操作列表。 - **随附两个审查器模板** (`shared/contracts/reviewer/full.json` 面板 5；`shared/contracts/reviewer/methodology_focus.json` 面板 2)。`reviewer_re_review`、`reviewer_calibration`、`reviewer_guided` 在 schema 枚举中保留，但在 v3.6.2 中未随附契约模板；它们保留了 v3.6.2 之前的行为。`reviewer_quick` 完全被排除在枚举之外。 - `academic-paper-reviewer` SKILL 版本：`1.8.1 → 1.9.0`。`academic-pipeline` SKILL 版本：`3.5.1 → 3.6.2` (套件版本不变式)。套件版本升级至 `3.6.2`。 - 参见规范 [`docs/design/2026-04-23-ars-v3.6.2-sprint-contract-design.md`](docs/design/2026-04-23-ars-v3.6.2-sprint-contract-design.md) 和协议 [`academic-paper-reviewer/references/sprint_contract_protocol.md`](academic-paper-reviewer/references/sprint_contract_protocol.md)。 ### v3.5.1 (2026-04-22) — 可选的苏格拉底式阅读检查探针 v3.5.1 为苏格拉底式导师添加了可选的诚实探针 (`ARS_SOCRATIC_READING_PROBE=1`)。默认关闭。参见 CHANGELOG。 - **可选的阅读检查探针**：当设置了 `ARS_SOCRATIC_READING_PROBE=1` 时，苏格拉底式导师在用户引用了特定论文的目标导向会话中触发一次性诚实探针。拒绝将被无惩罚地记录。结果流入研究计划总结和阶段 6 AI 自我反思报告。无新 Agent，无 schema 更改。 - `deep-research` SKILL 版本：`2.9.0 → 2.9.1`。`academic-pipeline` SKILL 版本：`3.5.0 → 3.5.1`。套件版本升级至 `3.5.1`。 ### v3.5.0 (2026-04-21) — 协作深度观察器 - **新 Agent**：`collaboration_depth_agent`，位于 `academic-pipeline` (Agent Team 从 3 增至 4)。在每个 FULL/SLIM 检查点和流程完成时调用；根据 4 维度评分标准对用户-AI 协作进行评分。**仅提供建议 —— 从不阻塞进程。** 强制性检查点（阶段 2.5 / 4.5 完整性门控）不调用观察器。 - **新评分标准**：[`shared/collaboration_depth_rubric.md`](shared/collaboration_depth_rubric.md) v1.0。维度：委托强度、认知警惕、认知重新分配、区域分类 (Zone 1 / Zone 2 / Zone 3)。基于 Wang, S., & Zhang, H. (2026). "Pedagogical partnerships with generative AI in higher education: how dual cognitive pathways paradoxically enable transformative learning." *International Journal of Educational Technology in Higher Education*, 23:11. DOI [10.1186/s41239-026-00585-x](https://doi.org/10.1186/s41239-026-00585-x)。 - **标记跨模型分歧，而非平均**：当设置了 `ARS_CROSS_MODEL` 时，观察器在两个模型上运行；维度分歧 > 2 分将被报告，而不是被平滑处理。提供 `ARS_CROSS_MODEL_SAMPLE_INTERVAL` 作为成本权衡的逃生舱。 - **短阶段保护**：用户交互少于 5 个回合的阶段注入静态 `insufficient_evidence` 块，而不是分派全模型观察器。 - **反阿谀奉承纪律**：评分 ≥ 7 需要具体的对话回合引用；Zone 3 触发重新审计；无激励性框架。 - `academic-pipeline` SKILL 版本：`3.3.0 → 3.4.0`。套件版本升级至 `3.5.0`。新增 lint `scripts/check_collaboration_depth_rubric.py` + 10 项测试。 ### v3.4.0 (2026-04-20) — 合规 Agent + Schema 12 - **合规 Agent** (共享)：单模式感知 Agent，运行 PRISMA-trAIce 17 项（仅 SR 模式）+ RAISE 4 原则 + 8 角色矩阵。挂钩现有的阶段 2.5 / 4.5 完整性门控；基于层级的阻塞 (Mandatory → 阻塞, HR → 警告, R/O → 信息)。非 SR 条目仅运行原则，仅警告。 - **Schema 12 compliance_report** 通过 `compliance_history[]` 追加到 Material Passport（仅允许追加）。 - **3 轮用户覆盖阶梯** 自动将 `disclosure_addendum` 注入手稿。无法规避检测。 - **具有透明报告的校准**，无硬性 FNR/FPR 门控 —— 与 `task_type: open-ended` 自洽。 - **上游新鲜度 CI** 在 PRISMA-trAIce 漂移时发出警告（非阻塞）。 - **长时间运行的会话文档**：Material Passport 作为跨会话恢复机制。 ### v3.3.6 (2026-04-15) — README 精简 + ARCHITECTURE 文档 - 添加了 `docs/ARCHITECTURE.md` 作为流程结构（流程、矩阵、数据访问、依赖图、质量门控、模式）的唯一真实来源。通过 PR #18 合并到 main 分支。 - 添加了 `docs/SETUP.md`（前置条件、API 密钥、Pandoc/tectonic、跨模型验证、安装方法）和 `docs/PERFORMANCE.md`（token 预算、推荐的 Claude Code 设置）。README 链接到两者，而不是将它们内联。 - 精简了 README：移除了 ASCII 流程图和 16 点关键特性列表（已被 ARCHITECTURE.md 取代）；技能详情部分现在锚定版本号，并将读者引向 ARCHITECTURE.md §3 以获取每个 Agent 的名单- 注意：未对任何技能进行功能更改。纯文档重组。套件版本升级至 `3.3.6`。 ### v3.3.5 (2026-04-15) - 添加了 `benchmark_report.schema.json` + Material Passport 上的 `repro_lock` 可选块。两者均随模式文档、lint 和示例一同发布。首个正式的 Python 开发依赖清单 (`requirements-dev.txt`)。 ### v3.3.4 (2026-04-15) — README 更新日志同步补丁 - 同步了 `README.md` 和 `README.zh-TW.md` 中嵌入的更新日志部分，使其包含遗漏的 `v3.3.3` 和 `v3.3.2` 发布摘要。 - 扩展了 `scripts/check_spec_consistency.py`，以便未来的 README 更新日志漂移导致 CI 失败。 ### v3.3.3 (2026-04-15) — 发布准备 + lint 强化 - 强化了 SKILL frontmatter 的 linting：缺少闭合 `---` 栅栏现在会干净地失败，而不是被解析为有效的 YAML。 - 解析为有效 YAML 但不是映射的 frontmatter 现在会报告可读错误，而不是崩溃。 - 修复了两个 README 中发表后审计报告损坏的展示链接。 - 将 README 相对链接验证添加到规范一致性检查中，以便死链导致 CI 失败。 - 统一了文档中的 DOCX 输出契约：直接生成 `.docx` 依赖于 Pandoc，以 Markdown + 转换说明作为回退。 - 准备了 `v3.3.3` 版本：套件版本升级，`academic-paper` -> v3.0.2，`academic-pipeline` -> v3.2.2。 ### v3.3.2 (2026-04-15) — 数据访问级别 + 任务类型元数据 - 在所有顶级 `SKILL.md` 文件中添加了 `metadata.data_access_level`，具有强制词汇：`raw`、`redacted`、`verified_only`。 - 在所有顶级 `SKILL.md` 文件中添加了 `metadata.task_type`，具有强制词汇：`open-ended`、`outcome-gradable`。 - 为这两个元数据字段添加了 lint 脚本和单元测试，并接入了 GitHub Actions 规范一致性工作流。 - 添加了 `shared/ground_truth_isolation_pattern.md` 并从 `shared/handoff_schemas.md` 链接了新词汇。 ### v3.3.1 (2026-04-14) — 规范一致性补丁 - 将 README、`.claude/CLAUDE.md`、`MODE_REGISTRY.md` 和 `SKILL.md` 文件同步到当前的模式数量和已发布的技能版本。 - 修正了跨模型措辞：完整性样本检查和独立的 DA 批评今天已实现；第六审查员同行评审仍处于计划中。 - 阐明了自适应检查点语义，以便 SLIM 检查点仍需等待用户的明确确认。 - 重申了阶段 2.5 和阶段 4.5 的完整性门控不可跳过。 - 添加了轻量级的规范一致性检查和 GitHub Actions 工作流以捕获未来的漂移。 ### v3.3 (2026-04-09) — PaperOrchestra 启发的增强整合了来自 [PaperOrchestra](https://arxiv.org/abs/2604.05018) 的技术 (Song, Song, Pfister & Yoon, 2026, Google)。 - **Semantic Scholar API 验证** —— 通过 S2 API 进行的 Tier 0 程序化参考存在性检查。Levenshtein >= 0.70 标题匹配，DOI 不匹配检测，通过 S2 ID 去重参考文献。API 不可用时优雅降级。 - **防泄露协议** —— 知识隔离指令优先使用会话材料而非 LLM 参数化记忆。为缺失内容标记 `[MATERIAL GAP]` 而不是从记忆中填补。降低模式 5/6 失败风险。 - **VLM 图表验证** (可选) —— 使用具备视觉能力的 LLM 对渲染后的图表进行闭环验证。10 项检查清单，最多 2 次细化迭代。 - **得分轨迹协议** —— 跨修改轮次的维度评分标准增量追踪（7 个维度）。检测回归 (delta < -3) 并触发强制检查点。 - **阶段 2 并行化** —— 大纲完成后，可视化和论点构建可并行运行。 - 新版本：deep-research v2.8，academic-paper v3.0，academic-pipeline v3.2 ### v3.2 (2026-04-09) — Lu 2026 Nature 集成整合了 Lu 等人 (2026, *Nature* 651:914-919) 的见解 —— 第一个通过盲审的端到端自主 AI 研究系统。 - **7 模式 AI 研究失效模式检查清单** —— 在阶段 2.5/4.5 根据可疑的实现错误、幻觉结果、依赖捷径、将错误重构为洞察、方法捏造、框架锁定来阻塞流程。扩展现有的 5 种类型的引用幻觉分类法。 - **审查器校准模式** (academic-paper-reviewer v1.8) —— 针对用户提供的黄金集，可选的 FNR/FPR/平衡准确率测量。5× 集成，跨模型默认开启，会话范围的置信度披露。 - **披露模式** (academic-paper v2.9) —— 特定于会议/期刊的 AI 使用声明生成器。v1 涵盖 ICLR、NeurIPS、Nature、Science、ACL、EMNLP。 - **早期停止标准** (academic-pipeline v3.1) —— 流程开始时的收敛检查 + 预算透明度。 - **保真度-原创性模式谱系** —— 根据 Lu 2026 图 1c 跨 3 项技能对所有模式进行分类。 - 新版本：academic-paper v2.9，academic-paper-reviewer v1.8，academic-pipeline v3.1 ### v3.1.1 (2026-04-09) — 信息系统 (IS) 高级学者 11 大期刊外部贡献：[@mchesbro1](https://github.com/mchesbro1) 最初提出并起草了 IS 8 大期刊篮子 ([Issue #5](https://github.com/Imbad0202/academic-research-skills/issues/5))；[@cloudenochcsis](https://github.com/cloudenochcsis) 将其扩展至完整的高级学者 11 大期刊篮子 ([Issue #7](https://github.com/Imbad0202/academic-research-skills/issues/7), [PR #8](https://github.com/Imbad0202/academic-research-skills/pull/8))。更新了 `academic-paper-reviewer/references/top_journals_by_field.md` 第 7 节，增加了 *Decision Support Systems*、*Information & Management* 和 *Information and Organization*。来源：[AIS Senior Scholars' List of Premier Journals](https://aisnet.org/page/SeniorScholarListofPremierJournals)。 ### v3.1 (2026-04-06) — 反上下文腐烂 + 认知框架 + 精简大小灵感来自于 [aspi6246/Claude-Code-Skills-for-Academics](https://github.com/aspi6246/Claude-Code-Skills-for-Academics) 的模式。 **第一波：反上下文腐烂锚点** - 所有 4 项技能中的 29 个明确的反模式（每项技能 7-8 个，表格格式包含“为什么失败” + “正确行为”） - 关键规则上的 22 个 IRON RULE 标记，即使在长对话中也绝不能违反 - academic-paper-reviewer 的只读约束（审查员不能修改手稿） **第二波：可追溯性 + 认知框架 + 强化** - R&R 可追溯性矩阵 (Schema 11)：在重审输出中增加“Author's Claim”和“Verified?”列，以独立验证修改主张 - 3 个认知框架参考文件，教导 Agent “如何思考”而不仅仅是“做什么”： - `argumentation_reasoning_framework.md` —— Toulmin 模型、Bradford Hill 因果推理、最佳解释推理、认识状态分类 - `review_quality_thinking.md` —— 三个视角（内部效度、外部效度、贡献）、常见的审查员陷阱、校准问题 - `writing_judgment_framework.md` —— 清晰度测试、读者旅程、特定学科的声音、修改决定矩阵 - 对话中强化协议：在每个流程过渡时提供特定阶段的 IRON RULE + 反模式提醒 - 在每个 FULL 检查点进行自检问题（引用完整性、阿谀奉承的让步、质量轨迹、范围纪律、完整性） **第三波：精简技能大小** - 通过将详细协议提取到 `references/` 文件，SKILL.md 总大小从 142KB 减少到 85KB (−40%) - 创建了约 15 个新的参考文件（重审协议、引导模式、系统综述、过程摘要、外部审查等） - 所有 IRON RULE 标记保留在 SKILL.md 中；详细内容按需加载 - 新版本：deep-research v2.7，academic-paper v2.8，academic-paper-reviewer v1.7，academic-pipeline v3.0 ### v3.0 (2026-04-03) — 反阿谀奉承 + 意图检测 + 对话健康 - **魔鬼代言人让步阈值** (deep-research + academic-paper-reviewer)：DA 必须在回复前对反驳进行 1-5 分的评分。仅当 ≥4 时才让步。不允许连续让步。让步率追踪。每个检查点后的框架锁定检测。 - **攻击强度保持** (academic-paper-reviewer)：DA 在遇到阻力时不会软化。带有明确偏转检测的反驳评估协议。反阿谀奉承规则防止将持续的阻力视为有效证据。 - **意图检测层** (deep-research socratic)：将用户意图分类为探索性或目标导向。探索模式禁用自动收敛，提高最大回合数，禁止过早结束。每 3 个回合重新评估。 - **对话健康指示器** (deep-research socratic)：每 5 个回合进行一次静默自检，以发现持续同意、回避冲突、过早收敛。当检测到同意模式时自动注入挑战。 - **跨模型验证协议** (共享，可选)：使用 GPT-5.4 Pro 或 Gemini 3.1 Pro 进行完整性样本交叉检查和独立的 DA 批评。第六审查员同行评审仍处于计划中，尚未实施。通过设置 `ARS_CROSS_MODEL` 环境变量激活 —— 如果不设置，一切照常运行。有关完整的设置指南、API 模式和成本估算，请参见 `shared/cross_model_verification.md`。 - **AI 自我反思报告** (academic-pipeline 阶段 6)：流程后的 AI 行为模式自我评估 —— DA 让步率、检查点跳过率、健康警报、阿谀奉承风险评级 (LOW/MEDIUM/HIGH)、框架锁定事件、收敛模式分析。包含具有讽刺意味的警告：“这份自我反思是由可能一直在阿谀奉承的同一个 AI 产生的。” - 起源：通过一场 4 轮辩证实验发现，在其中 DA 让步过快，苏格拉底式导师试图过早收敛，而整个辩论都锁定在人类设定的框架内。 - 版本：deep-research v2.5，academic-paper-reviewer v1.5，academic-pipeline v2.8 ### v2.9 (2026-03-27) — 风格校准 + 写作质量检查 - **风格校准** (academic-paper 接收步骤 10，可选)：提供 3 篇以上的过往论文，流程将学习你的写作声音 —— 句子节奏、词汇偏好、引用整合风格。在起草期间作为软性指导应用；学科惯例始终优先。优先级系统：学科规范（硬性）> 期刊惯例（强）> 个人风格（软性）。参见 `shared/style_calibration_protocol.md` - **写作质量检查** (`academic-paper/references/writing_quality_check.md`)：在草稿自审期间应用的写作质量检查清单。5 个类别：AI 高频术语警告（25 个术语）、标点符号模式控制（破折号 ≤3）、套话开头检测、结构模式警告（三段论法则、统一段落、同义词循环）和突发性检查（句子长度变化）。这些都是良好的写作规则 —— 而不是为了规避检测 - **风格特征** 通过 academic-pipeline Material Passport 传递 (Schema 10，位于 `shared/handoff_schemas.md`) - **deep-research** 报告编译器也可选择使用这两个功能 - 版本：academic-paper v2.5，deep-research v2.4，academic-pipeline v2.7 ### v2.8 (2026-03-22) — SCR 循环阶段 1：State-Challenge-Reflect - **苏格拉底式导师 Agent** (deep-research + academic-paper)：SCR (State-Challenge-Reflect) 协议集成 - **承诺门控**：在每个层级/章节过渡时收集用户预测，然后呈现证据 - **由确定性触发的反驳**：检测高置信度语言（“obviously”、“clearly”）引入反面观点 - **自适应强度**：追踪承诺准确度，动态调整挑战频率 - **自校准信号 (S5)**：新的收敛信号，追踪用户在对话中的自我校准增长 - **SCR 开关**：用户可以说“skip the predictions”来禁用，或者说“turn predictions back on”在对话中重新启用；苏格拉底式提问正常继续 - `deep-research/references/socratic_questioning_framework.md`：SCR Overlay Protocol，将 SCR 阶段映射到苏格拉底式功能 - 添加了 `CHANGELOG.md` ### v2.7 (2026-03-09) — 完整性验证 v2.0：反幻觉大修 - **integrity_verification_agent v2.0**：反幻觉指令（禁止 AI 记忆验证），消除灰色地带分类（仅限 VERIFIED/NOT_FOUND/MISMATCH），强制要求每个参考文献都有 WebSearch 审计跟踪，阶段 4.5 全新独立验证，灰色地带预防规则 - **已知的幻觉模式**：5 种类型的分类法 (TF/PAC/IH/PH/SH)，来自 GPTZero × NeurIPS 2025 的研究，5 种复合欺骗模式，真实世界的案例研究，文献统计 - **发表后审计**：对所有 68 篇参考文献的全量 WebSearch 验证发现了 21 个问题（31% 的错误率），这些问题通过了 3 轮完整性检查 —— 证明了外部验证的必要性 - **论文更正**：移除了 4 篇捏造的参考文献，修复了 6 处作者错误，更正了 7 处元数据错误，修复了 2 处格式问题 ### v2.6.2 (2026-03-09) — 基于意图的模式激活 - **deep-research**：苏格拉底式模式现在使用 **基于意图的激活** 而不是关键字匹配。适用于任何语言 —— 检测含义（例如，“用户想要引导式思考”）而不是匹配特定的字符串。 - **academic-paper**：计划模式现在使用 **基于意图的激活**。检测任何语言中的意图信号，如“用户不确定如何开始”或“用户想要逐步指导”。 - 两种模式现在都有一个 **默认规则**：当意图模棱两可时，优先选择 `socratic`/`plan` 而不是 `full` —— 先引导更安全。 - 双层架构：第 1 层（技能激活）使用双语关键字以确保匹配置信度；第 2 层（模式路由）使用与语言无关的意图信号。 ### v2.6.1 (2026-03-09) — 双语触发关键词 - **deep-research**：为常规激活和苏格拉底式模式添加了繁体中文触发关键词。 - **academic-paper**：添加了繁体中文触发关键词和计划模式触发部分。 - 两个模式选择指南现在都包含双语示例和中文特有的误选场景。 ### v2.6 / v2.4 / v1.4 (2026-03-08) — 15+ 项改进 - **deep-research v2.3**：新的 systematic-review / PRISMA 模式（第 7 种）；3 个新 Agent (risk_of_bias, meta_analysis, monitoring)；PRISMA 协议/报告模板；苏格拉底式收敛标准（4 个信号 + 自动结束）；快速模式选择指南 - **academic-paper v2.4**：2 个新 Agent (visualization, revision_coach)；带有 4 种状态类型的修订跟踪模板；引用格式转换 (APA↔Chicago↔MLA↔IEEE↔Vancouver)；统计可视化标准；苏格拉底式收敛标准；修订恢复示例；**LaTeX 输出强化** —— 强制使用 `apa7` 文档类，文本对齐修复 (`ragged2e` + `etoolbox`)，表格列宽公式，双语摘要居中，标准化字体栈 (Times New Roman + Source Han Serif TC VF + Courier New)，仅通过 tectonic 生成 PDF - **academic-paper-reviewer v1.4**：带有 0-100 评分和行为指标的质量评分标准；决定映射 (≥80 接受，65-79 小修，50-64 大修，<50 拒稿)；快速模式选择指南 - **academic-pipeline v2.6**：自适应检查点系统 (FULL/SLIM/MANDATORY)；完整性检查中的阶段 E 主张验证；用于中途引入来源证明的 Material Passport；跨技能模式顾问（14 种场景）；团队协作协议；增强的交接 schema（9 种 schema）；完整性故障恢复示例 ### v2.4 / v1.3 (2026-03-08) - **academic-pipeline v2.4**：新增阶段 6 PROCESS SUMMARY —— 自动生成结构化的论文创作过程记录 (MD → LaTeX → PDF，双语)；强制性最终章节：**协作质量评估**，包含 6 个维度的 1–100 评分（方向设定、智力贡献、质量把关、迭代纪律、委派效率、元学习）、诚实的反馈和改进建议；流程从 9 个阶段扩展到 10 个阶段 ### v2.3 / v1.3 (2026-03-08) - **academic-pipeline v2.3**：阶段 5 FINALIZE 现在提示选择格式样式 (APA 7.0 / Chicago / IEEE)；PDF 必须通过 `tectonic` 从 LaTeX 编译（不得使用 HTML 转 PDF）；APA 7.0 使用带有 XeCJK（用于双语 CJK 支持）的 `apa7` 文档类（`man` 模式）；字体栈：Times New Roman + Source Han Serif TC VF + Courier New ### v2.2 / v1.3 (2025-03-05) - **跨 Agent 质量对齐**：统一了所有 Agent 的定义（同行评审、时效性规则、CRITICAL 严重性、来源层级） - **deep-research v2.2**：合成反模式、苏格拉底式自动结束条件、DOI+WebSearch 验证、增强的伦理完整性检查、模式转换矩阵 - **academic-paper v2.2**：4 级论证评分、抄袭筛查、2 个新的失败路径 (F11 稿件拒稿恢复, F12 会议转期刊)、Plan→Full 模式转换 - **academic-paper-reviewer v1.3**：DA 与 R3 角色边界、CRITICAL 发现标准、共识分类 (4/3/SPLIT/DA-CRITICAL)、置信度分数加权、亚洲及区域期刊参考 - **academic-pipeline v2.2**：检查点确认语义、模式切换矩阵、失败回退矩阵、状态所有权协议、材料版本控制 ### v2.0.1 (2026-03) - **精简 4 个 SKILL.md** (-371 行, -16.5%)：移除跨技能重复、内联模板 → 文件引用、冗余路由表、重复的模式选择部分 - 修复了 academic-paper 和 academic-pipeline 之间的修订循环上限矛盾 ### v2.0 (2026-02) - **academic-pipeline v2.0**：5→9 个阶段，强制完整性验证，两阶段评审，苏格拉底式修订辅导，可复现性保证 - **academic-paper-reviewer v1.1**：+ 魔鬼代言人审查员（第 7 个 Agent），+ 重新审查模式 (验证)，+ 审查后苏格拉底式辅导 - 新 Agent：`integrity_verification_agent` —— 带有审计跟踪的 100% 参考文献/数据验证 - 新 Agent：`devils_advocate_reviewer_agent` —— 8 维度论点挑战者 - 输出顺序：MD → 在可用时通过 Pandoc 生成 DOCX（否则提供说明）→ 询问 LaTeX → 确认 → PDF ### v1.0 (2026-02) - 初始发布 - deep-research v2.0 (10 个 Agent，6 种模式，包括 socratic) - academic-paper v2.0 (10 个 Agent，8 种模式，包括 plan) - academic-paper-reviewer v1.0 (6 个 Agent，4 种模式，包括 guided) - academic-pipeline v1.0 (协调器)

标签：AI Plugin, AI幻觉检测, AI辅助研究, Claude Code, DLL 劫持, DNS解析, Human-in-the-loop, JetBrains, LLM工具, Socratic对话, VS Code, 人机协作, 同行评审, 大语言模型, 学术写作, 学术出版, 学术研究, 学术诚信, 开源项目, 提示词工程, 文献综述, 科研工具, 策略决策点, 自动化流水线, 论文修改, 论文写作, 逆向工具