lihouwenbin/ai-redteam-recursive-self-improvement

GitHub: lihouwenbin/ai-redteam-recursive-self-improvement

一个领域无关的 AI 红队治理框架,通过晋升门禁和对抗性审查机制约束 agent 递归自我改进循环中的变更安全。

Stars: 44 | Forks: 2

# AI Red-Team 递归自我改进框架 当前版本:`v0.1.1` 本仓库是一个协议优先的框架,用于管理 AI 辅助项目中的递归自我改进循环。 该框架围绕一个简单的规则构建:在缺乏独立检查、失败保留机制和明确的晋升决策的情况下,不得允许 agent 将其自身的提议转化为已接受的改进。 ## 核心循环 ``` proposal -> frozen task -> implementation -> implementation red-team -> research red-team -> promotion gate -> decision record ``` 该框架是领域无关的。它可用于代码维护工作流、评估 pipeline、文档系统、agent 编排实验,或其他需要对抗性审查的递归变更项目。 ## 原则 - 在实现之前冻结范围。 - 将构建者与审查者分离。 - 将失败的尝试作为一等产出保留。 - 在晋升前要求提供明确的证据。 - 阻断未解决的否决。 - 在协议边界保留人工审批。 ## 仓库结构 ``` rsi_framework/ Core protocol, gate, ledger, and red-team logic examples/ Small domain-neutral round examples tests/ Regression tests .github/ Contribution templates AGENTS.md Agent operating rules CONTRIBUTING.md Contribution guide SECURITY.md Security and disclosure policy ``` ## 快速开始 安装测试依赖: ``` python -m pip install -r requirements.txt ``` 运行测试: ``` python -m pytest ``` 评估 JSON 轮次文件: ``` rsi-evaluate examples/minimal_round.json --out examples/minimal_decision_record.json ``` 创建并评估一个最小化轮次: ``` from rsi_framework import ( Decision, GatePolicy, ImprovementRound, RedTeamFinding, evaluate_round, ) round_record = ImprovementRound( round_id="RND_DEMO_001", parent_round_id=None, objective="Clarify contribution workflow", hypothesis_family="repository-maintenance", frozen_task="Add contributor-facing documentation without changing protocol rules.", evidence={"tests_passed": True, "diff_reviewed": True}, failures=[], ) decision = evaluate_round( round_record, policy=GatePolicy(), implementation_findings=[], research_findings=[], ) assert decision.decision == Decision.PROMOTE ``` ## 晋升决策 晋升门禁只能返回: ``` promote keep_research_only downgrade stop blocked ``` 当缺少必要证据、存在未解决的否决,或者在未经批准的情况下更改了协议边界时,晋升将被阻断。 ## 非目标 - 本项目不是一个自主改进系统。 - 本项目不取代人工审查。 - 本项目不追求最美好的事后总结。 - 本项目不隐藏失败的尝试。 ## 许可证 本项目基于 [MIT 许可证](LICENSE) 发布。
标签:AI智能体, AI红队, Python, 人工智能治理, 安全规则引擎, 工作流编排, 文档结构分析, 无后门, 自动化审查, 逆向工具