Lancimoun/agent-reliability-arena

GitHub: Lancimoun/agent-reliability-arena

一个轻量级 AI agent 可靠性评估工具,附带防御性邮箱域名安全扫描和跨设备事件响应引导审计功能。

Stars: 1 | Forks: 0

# Agent Reliability Arena Agent Reliability Arena 是一个轻量级、低依赖的 AI agent 评估工具。 [在线演示 + 对话记录分析器](https://lancimoun.github.io/agent-reliability-arena/) | [安全实战报告](https://lancimoun.github.io/agent-reliability-arena/security.html) | [排行榜路线图](ROADMAP.md) | [案例研究](docs/case_study.md) | [发布文案](docs/security_launch_copy.md) ![Agent Reliability Arena 仪表盘](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/0bb051fd36204659.png) 它测试那些导致 agent 产品显得不可靠的实际故障: - 将陈旧记忆表述为当前事实 - 不完整的回复 - 过长的响应 - 在复杂建议中缺失推理过程 - 工具能力幻觉 - 薄弱的对话记录健康状况 - 当前事实覆盖失败 该项目受 Project Maxima 的 Eval Lab 启发,但其设计初衷是作为一个公开的、可复用的作品集项目。 ## 安全实战报告 Arena 现在包含一份经过脱敏处理的公开实战报告: [账号接管剖析](https://lancimoun.github.io/agent-reliability-arena/security.html) 它将一起真实的账号安全事件转化为一份关于隐藏持久化风险的教育清单: - 密码重用暴露 - 隐藏证据的过滤器 - OAuth 已连接应用后门 - Passkey 和活动会话审查 - 恢复邮箱弱点 - 备份代码管理 这份公开报告有意排除了确切的财务金额、收款人姓名、银行详细信息、案件编号、账号标识符以及私密证据文件。它被设计为一个建立信任的产物:用于 AI agent 的同样可靠性思维,也同样适用于安全响应、恢复路径和隐藏的故障模式。 ![安全实战报告社交预览图](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/ee78dd6694204704.png) ## 邮箱域名安全扫描器 实战报告现在包含一个无需身份验证的防御性邮箱/域名安全态势扫描器: - 输入您拥有的邮箱地址或域名 - 扫描公共 DNS 记录以获取 MX、SPF、DMARC、常见 DKIM 选择器、MTA-STS 以及 TLS-RPT - 获得确定性的评分和优先修复计划 - 下载 JSON 报告或复制修复摘要 这第一层扫描器不会收集密码、读取收件箱、绕过登录系统或存储私密账户数据。它仅查询公共 DNS 记录。请参阅 [安全扫描器计划](docs/security_scanner_plan.md) 了解关于 Gmail 设置检查、Google 安全检查指导、违规暴露检查和报告生成的路线图。 ## 跨设备事件响应准备扫描器 同一页面现在包含一个更深度的 PC 和移动端事件响应引导扫描器: - Google/Gmail 持久化:过滤器、自动转发、OAuth 授权、Passkey、会话、恢复路径 - PC/浏览器安全清理:实时保护、远程访问工具、扩展程序、启动项、暴露的文件 - 移动端/SIM 路径:辅助功能服务、设备管理应用、侧载应用、操作系统更新、SIM 卡交换保护 - 财务恢复:冻结、争议、警报、加密货币/券商提现路径 - 开发者账户/云:GitHub token、API 密钥、Railway/云密码、密码管理器信任根 - 证据与善后:时间线、截图、监控、长效修复清单 这是一个本地引导式审计工具,而不是侵入式扫描器。它可以通过桌面或移动端浏览器运行,并生成可下载的跨设备准备情况报告。 ## 存在的意义 大多数演示只展示了 agent 能工作一次。真实的系统需要证明它们能随着时间的推移持续正常工作。 Agent Reliability Arena 为您提供: - 公开的 v0.2 对话记录分析器 - 用于 agent/模型对比的初始排行榜 - 确定性评估用例 - 对话记录健康检查 - 质量评分 - JSON 报告 - 静态 HTML 仪表盘 - 每日趋势 JSON 和静态趋势仪表盘 - 无需付费 API ## v0.2:对话记录分析器 公开演示现在包含一个纯浏览器端的分析器: 1. 粘贴 AI agent 的对话记录。 2. 获得可靠性评分。 3. 审查故障模式: - 陈旧时间线或记忆偏移 - 缺乏依据的实时工具/Web 声明 - 不完整的回复 - 响应臃肿 - 复杂建议中缺失推理过程 4. 下载 JSON 报告。 该分析器完全在浏览器本地运行。它不会将对话记录发送到服务器。 ## v0.3 方向:可靠性排行榜 下一次升级将把 Arena 变成一个比较看板: 1. 在不同的 agent endpoint 或模型提供商上运行相同的可靠性测试套件。 2. 评估记忆偏移、陈旧事实、工具诚实度、响应完整性和决策透明度。 3. 比较可靠性得分、成本和延迟。 4. 生成可分享的 HTML/PDF 评分卡,用于作品集发布和客户审计。 该公开页面现在包含一个初始排行榜,其中包含真实的确定性 Arena 记录,以及通过 Axiom 接入的 Claude、GPT、Gemini 和 Groq 的排队提供商槽位。在真实运行完成之前,不声称任何提供商得分。 请参阅 [ROADMAP.md](ROADMAP.md) 了解分阶段计划。 ## 快速开始 ``` cd agent-reliability-arena python -m agent_reliability_arena run --cases cases/maxima_foundation.json --transcript examples/maxima_transcript_sample.jsonl --out runs/latest.json python -m agent_reliability_arena dashboard --report runs/latest.json --out runs/dashboard.html ``` 在浏览器中打开 `runs/dashboard.html` 以查看报告。 ## CLI 运行评估用例: ``` python -m agent_reliability_arena run --cases cases/maxima_foundation.json --out runs/latest.json ``` 运行评估用例及对话记录健康检查: ``` python -m agent_reliability_arena run --cases cases/maxima_foundation.json --transcript examples/maxima_transcript_sample.jsonl --out runs/latest.json ``` 生成仪表盘: ``` python -m agent_reliability_arena dashboard --report runs/latest.json --out runs/dashboard.html ``` 导入实时 Maxima Eval Lab 报告: ``` $env:SYNC_SECRET = "" python -m agent_reliability_arena import-maxima --out runs/maxima-live.json python -m agent_reliability_arena dashboard --report runs/maxima-live.json --out runs/maxima-live-dashboard.html ``` 请参阅 [实时 Maxima 导入](docs/live_maxima_import.md) 了解隐私说明。 将实时 Maxima 导入追加到每日趋势中: ``` $env:SYNC_SECRET = "" python -m agent_reliability_arena import-maxima --out runs/maxima-live.json --trend-out runs/maxima-trend.json python -m agent_reliability_arena trend-dashboard --trend runs/maxima-trend.json --out runs/maxima-trend.html ``` 运行故意制造偏移的演示: ``` python -m agent_reliability_arena run --cases cases/drift_demo.json --transcript examples/drift_transcript_sample.jsonl --out runs/drift.json python -m agent_reliability_arena dashboard --report runs/drift.json --out runs/drift-dashboard.html ``` 运行本地质量检查: ``` python -m unittest discover -s quality_checks ``` ## 测试用例类型 每个用例都包含 `checks`。支持的检查项: - `must_include` - `must_not_include` - `max_chars` - `complete_reply` - `decision_transparency` - `tool_honesty` - `current_truth_override` 示例: ``` { "name": "Current truth beats stale countdown", "input": "Am I still 109 days away from India?", "response": "No. Current truth says you are already in India.", "checks": [ {"type": "must_include", "terms": ["already in India"]}, {"type": "must_not_include", "terms": ["109 days away"]}, {"type": "current_truth_override", "current_truth": ["already in India"], "stale_terms": ["109 days"]} ] } ``` ## 对话记录检查 对话记录的 JSONL 行应如下所示: ``` {"role":"user","ts":"2026-06-07T08:00:00+05:30","content":"Can you remember yesterday?"} {"role":"assistant","ts":"2026-06-07T08:00:04+05:30","content":"Yes. Here is what I have from yesterday..."} ``` 对话记录评估器将检查: - 是否存在用户和助手的对话轮次 - 助手回复的平均长度 - 看起来不完整的结尾 - 陈旧的倒计时引用 - 工具诚实度用语 ## 作品集切入点 这适用于: - AI 工程师作品集演示 - agent 产品质量保证 (QA) - 记忆/RAG 可靠性测试 - Upwork 服务打包 - 关于 agent 评估的公开文章 阅读简短的[案例研究](docs/case_study.md),了解首个可靠性测试套件背后的故事。 阅读[发布案例研究](docs/launch_case_study.md) 获取 LinkedIn、Facebook、Upwork、YouTube Shorts 和 TikTok 的发布文案。 ## 服务报价 该仓库还支持产品化的自由职业报价: ``` AI Agent Reliability Audit I test your chatbot or AI agent for memory drift, hallucinated tool access, stale facts, incomplete replies, and RAG recall quality. Starter Audit: $99 Deep Audit + Fix Plan: $299 Implementation Help: $500+ ``` 请参阅 [审计服务报价](docs/audit_service_offer.md) 获取市场推广文案。 ## 路线图 - 添加 Axiom 多提供商运行器,支持 Claude、GPT、Gemini、Groq 和 Maxima - 添加成本和延迟比较 - 添加 GitHub Actions 回归测试和 README 徽章 - 在可选的 API 密钥支持下,添加基于模型评分的评估规则 - 通过重复运行和方差报告增加统计严谨性 - 为其他 agent 仪表盘添加更多实时导入适配器
标签:AI代理评估, DNS安全配置, Homebrew安装, 可靠性测试, 多模态安全, 安全意识教育, 数据可视化, 时序数据库, 逆向工具, 邮件安全, 防御性扫描