VishakhaVB/ai-incident-response-benchmark

GitHub: VishakhaVB/ai-incident-response-benchmark

面向AI智能体的自主运维事件响应基准测试环境，通过确定性沙盒和结构化Runbook评估AI在模拟系统故障场景中的诊断与恢复能力。

Stars: 0 | Forks: 0

# 🚀 自主事件响应基准环境 *AI SRE 智能体的终极演练场。* ## 🧠 问题背景生产环境事故通常充满压力、成本高昂，且严重依赖人工干预。站点可靠性工程师 (SRE) 遵循严格的 Runbook 来稳定系统，但执行这些步骤需要时间——这几分钟可能让公司损失数千美元。我们需要能够在警报触发时无缝执行 Runbook 的自主智能体，但我们如何确信它们值得信任？ ## 💡 我们的解决方案由 **ByteBrains** 团队构建，这个基于 OpenEnv 的基准测试是一个确定性的沙盒，专门设计用于测试、训练和评估 AI 智能体执行 DevOps 事故 Runbook 的能力。通过向智能体提供逼真的系统警报和一组严格的允许动作，我们创建了一个环境，能够从数学层面给 AI 在不产生幻觉的情况下逻辑性解决宕机事故的能力进行评分。 ## ⚙️ 工作原理该环境的循环方式与真实的事件控制台完全一致： 1. `reset()` → 事故触发（例如，CPU 飙升至 99%）。 2. `observation` → AI 接收上下文、事故状态和允许的动作 token。 3. `AI action` → 模型严格选择一个专用动作 token。 4. `step()` → 环境处理该动作。 5. `reward` → 智能体因正确执行而获得奖励，或因偏离 Runbook 而受到重罚。 6. **重复**，直到系统稳定或智能体失败。 ## 🧩 关键特性 - **动作 Token 系统**：智能体不使用冗长的描述性字符串，而是从简洁的动作 token（例如 `check_cpu`）中进行选择。这极大地降低了 AI 幻觉率，并强制实现了结构化的可靠性。 - **确定性评分（0.0 到 1.0）**：零随机性。智能体的最终评分是对其遵循确切序列程度的严格数学反映。 - **上下文感知观察**：`incident_state` 根据缓解进度动态更新，为 AI 提供逼真的、与其工作相关的上下文反馈。 - **真实世界失败后果**：错误的步骤会增加内部失败计数器。一旦达到阈值，情节将提前终止并伴随巨额惩罚——模拟真实的生产灾难。 - **动作推理追踪**：所采取的每一步都原生支持推理记忆，充分解释 AI 选择其动作的*原因*。 ## 📊 任务概览该基准测试预置了难度递增的事故复杂性： - 🟢 **简单（CPU 飙升）**：3 步。一个 API 节点正在消耗大量 CPU。诊断、检查日志、扩容。 - 🟡 **中等（DB 连接耗尽）**：5 步。数据库连接池已满。检查指标、识别查询、限制端点、开启优化工单。 - 🔴 **困难（K8s 区域宕机）**：7 步以上。主要区域的控制平面完全故障。声明严重性、验证辅助集群、路由全球流量、运行合成测试。 ## 🤖 AI 智能体集成我们构建了一个健壮的、生产就绪的推理执行循环（`inference.py`），与 OpenAI API 进行交互。 - **严格解析**：通过强提示词和温度 0.0，强制智能体返回严格格式化的动作 token。 - **弹性**：它根据允许的动作动态验证输出，利用自动重试机制处理解析失败。 - **安全回退**：如果 AI 在重试后仍严重产生幻觉，循环将执行安全的回退默认动作，确保引擎永不崩溃。 ## 📦 项目结构 ``` ai-runbook-env/ ├── env.py # Core RunbookEnv logic & contextual state ├── tasks.py # Task definitions & Action Token mapping ├── models.py # Pydantic validation schemas ├── grader.py # Mathematical correctness evaluation ├── inference.py # OpenAI Agent execution loop ├── test_env.py # Deterministic offline suite ├── Dockerfile # HF Spaces deployment blueprint ├── openenv.yaml # OpenEnv core registration └── README.md ``` ## ▶️ 如何运行在本地开始测试极其简单： ``` # 1. 安装依赖 pip install openenv-core openai pydantic python-dotenv # 2. 添加你的 API key echo "OPENAI_API_KEY=your_key_here" > .env # 3. 运行完整的 AI benchmark loop python inference.py ``` ## 🐳 Docker 使用为生产评估或 Hugging Face Spaces 做好了准备。它使用高度优化的 `python:3.12-slim` 镜像： ``` # 构建 clean image docker build -t ai-runbook-env . # 运行容器化 benchmark docker run --env-file .env ai-runbook-env ``` ## ✅ 测试我们信奉坚不可摧的基础。运行 `python test_env.py` 以启动我们健壮的手动测试套件——验证从顺利路径到边界故障和无效动作惩罚的所有内容。*（目前所有测试均 100% 通过）。* ## 🎯 项目为何脱颖而出这不是一个玩具项目或通用的聊天机器人封装。它是一个高度有主见、整洁模块化、严格评估的强化学习环境，以真实的 SRE 值班噩梦为模型。它评估了 AI 智能体在接触生产环境之前必须掌握的最关键技能：准确且确定性地遵守规则。 ## 📌 结语我们构建这个项目是因为 AI DevOps 智能体是未来，而未来需要严格的试验场。我们希望您享受破坏它——以及拯救它的过程。由 **ByteBrains** 用 ❤️ 构建。

标签：Action Token, AIOps, AI SRE 代理, Benchmark, DevOps 工具, IT 运维, LLM Agent, Petitpotam, Runbook 自动化, 事故响应, 云原生运维, 幻觉抑制, 强化学习环境, 故障诊断与恢复, 智能决策, 沙箱模拟, 确定性评估, 站点可靠性工程, 系统稳定性, 自主基准测试环境, 自动化运维, 请求拦截, 逆向工具