notvcto/zero

GitHub: notvcto/zero

Zero是一个基于GRPO对抗性自我博弈训练的安全推理模型。

Stars: 1 | Forks: 0

# 零 **[阅读公告 →](https://notvc.to/blog/zero-announcement)** Zero 是一个开源的小型语言模型系列,通过 GRPO 对抗性自我博弈训练,训练领域为安全。选择 CTF 问题是因为它们有可验证的答案、清晰的推理链,并且没有空间通过模式匹配找到解决方案。研究问题是,在该领域进行严格训练是否能产生一个在一般情况下推理良好的模型。 直接性是嵌入到奖励函数中的,而不是通过提示实现的。校准的不确定性会受到奖励。自信的错误答案会受到最严厉的惩罚。 ## 模型系列 | 模型 | 状态 | 备注 | | ----------- | ------- | --------------- | | `zero-1.5b` | 计划中 | MVR 下限 | | `zero-3b` | 计划中 | 主要发布 | | `zero-7b` | 计划中 | MVR 上限 | ## 规范 完整的设计在 **[SPEC.md](SPEC.md)** 中 — 训练架构、奖励函数实现、自我博弈失败模式缓解、评估框架、数据集策略。 ## 状态 **第 2 阶段 — 数据集构建。** 第一次抓取尝试(CTFtime + HTB)产生了 1,735 个原始条目,其中 898 个包含嵌入在 CTFtime 写作中的 LLM 诱饵注入。CTFtime 已不再是一个来源。现在,管道正在抓取标记为 `topic:ctf-writeups` 的 GitHub 仓库,按星级排序。结构化 Markdown,无诱饵,质量信号。正在进行的夜间运行。 **[第 2 阶段:抓取器撒谎 →](https://notvc.to/blog/zero-phase2-the-scraper-lied)** **[第 2 阶段:原材料 →](https://notvc.to/blog/zero-phase2-raw-material)** 第 1 阶段基线评估已完成。所有三个模型大小在未训练的情况下得分约为 25%,扩展没有效果。能力差距在于训练信号,而不是基础权重。 **[第 1 阶段结果 →](https://notvc.to/blog/zero-phase1-results)** ### 阶段 | 阶段 | 描述 | 状态 | | ----- | ----------- | ------ | | 1 | 模型大小间的基线映射 | ✅ 完成 | | 2 | 种子数据集构建 | 🔄 进行中 | | 3 | zero-forge 训练 | 待定 | | 4 | GRPO 自我博弈循环 | 待定 | | 5 | MVR 分析 + 发布 | 待定 | ## 许可证 Apache 2.0 — 查看 [LICENSE](LICENSE).
标签:Apex, CTF 挑战, DNS解析, Markdown, URL抓取, 不确定性评估, 人工智能, 奖励函数, 安全推理模型, 安全领域, 对抗性自博弈, 开源项目, 性能评估, 技术博客, 数据抓取, 数据集构建, 机器学习, 模型大小, 模型评估, 用户模式Hook绕过, 自我改进, 训练架构, 语言模型, 请求拦截