VishakhaVB/ai-incident-response-benchmark

GitHub: VishakhaVB/ai-incident-response-benchmark

面向AI智能体的自主运维事件响应基准测试环境,通过确定性沙盒和结构化Runbook评估AI在模拟系统故障场景中的诊断与恢复能力。

Stars: 0 | Forks: 0

# 🚀 自主事件响应基准环境 *AI SRE 智能体的终极演练场。* ## 🧠 问题背景 生产环境事故通常充满压力、成本高昂,且严重依赖人工干预。站点可靠性工程师 (SRE) 遵循严格的 Runbook 来稳定系统,但执行这些步骤需要时间——这几分钟可能让公司损失数千美元。我们需要能够在警报触发时无缝执行 Runbook 的自主智能体,但我们如何确信它们值得信任? ## 💡 我们的解决方案 由 **ByteBrains** 团队构建,这个基于 OpenEnv 的基准测试是一个确定性的沙盒,专门设计用于测试、训练和评估 AI 智能体执行 DevOps 事故 Runbook 的能力。通过向智能体提供逼真的系统警报和一组严格的允许动作,我们创建了一个环境,能够从数学层面给 AI 在不产生幻觉的情况下逻辑性解决宕机事故的能力进行评分。 ## ⚙️ 工作原理 该环境的循环方式与真实的事件控制台完全一致: 1. `reset()` → 事故触发(例如,CPU 飙升至 99%)。 2. `observation` → AI 接收上下文、事故状态和允许的动作 token。 3. `AI action` → 模型严格选择一个专用动作 token。 4. `step()` → 环境处理该动作。 5. `reward` → 智能体因正确执行而获得奖励,或因偏离 Runbook 而受到重罚。 6. **重复**,直到系统稳定或智能体失败。 ## 🧩 关键特性 - **动作 Token 系统**:智能体不使用冗长的描述性字符串,而是从简洁的动作 token(例如 `check_cpu`)中进行选择。这极大地降低了 AI 幻觉率,并强制实现了结构化的可靠性。 - **确定性评分(0.0 到 1.0)**:零随机性。智能体的最终评分是对其遵循确切序列程度的严格数学反映。 - **上下文感知观察**:`incident_state` 根据缓解进度动态更新,为 AI 提供逼真的、与其工作相关的上下文反馈。 - **真实世界失败后果**:错误的步骤会增加内部失败计数器。一旦达到阈值,情节将提前终止并伴随巨额惩罚——模拟真实的生产灾难。 - **动作推理追踪**:所采取的每一步都原生支持推理记忆,充分解释 AI 选择其动作的*原因*。 ## 📊 任务概览 该基准测试预置了难度递增的事故复杂性: - 🟢 **简单(CPU 飙升)**:3 步。一个 API 节点正在消耗大量 CPU。诊断、检查日志、扩容。 - 🟡 **中等(DB 连接耗尽)**:5 步。数据库连接池已满。检查指标、识别查询、限制端点、开启优化工单。 - 🔴 **困难(K8s 区域宕机)**:7 步以上。主要区域的控制平面完全故障。声明严重性、验证辅助集群、路由全球流量、运行合成测试。 ## 🤖 AI 智能体集成 我们构建了一个健壮的、生产就绪的推理执行循环(`inference.py`),与 OpenAI API 进行交互。 - **严格解析**:通过强提示词和温度 0.0,强制智能体返回严格格式化的动作 token。 - **弹性**:它根据允许的动作动态验证输出,利用自动重试机制处理解析失败。 - **安全回退**:如果 AI 在重试后仍严重产生幻觉,循环将执行安全的回退默认动作,确保引擎永不崩溃。 ## 📦 项目结构 ``` ai-runbook-env/ ├── env.py # Core RunbookEnv logic & contextual state ├── tasks.py # Task definitions & Action Token mapping ├── models.py # Pydantic validation schemas ├── grader.py # Mathematical correctness evaluation ├── inference.py # OpenAI Agent execution loop ├── test_env.py # Deterministic offline suite ├── Dockerfile # HF Spaces deployment blueprint ├── openenv.yaml # OpenEnv core registration └── README.md ``` ## ▶️ 如何运行 在本地开始测试极其简单: ``` # 1. 安装依赖 pip install openenv-core openai pydantic python-dotenv # 2. 添加你的 API key echo "OPENAI_API_KEY=your_key_here" > .env # 3. 运行完整的 AI benchmark loop python inference.py ``` ## 🐳 Docker 使用 为生产评估或 Hugging Face Spaces 做好了准备。它使用高度优化的 `python:3.12-slim` 镜像: ``` # 构建 clean image docker build -t ai-runbook-env . # 运行容器化 benchmark docker run --env-file .env ai-runbook-env ``` ## ✅ 测试 我们信奉坚不可摧的基础。运行 `python test_env.py` 以启动我们健壮的手动测试套件——验证从顺利路径到边界故障和无效动作惩罚的所有内容。*(目前所有测试均 100% 通过)。* ## 🎯 项目为何脱颖而出 这不是一个玩具项目或通用的聊天机器人封装。它是一个高度有主见、整洁模块化、严格评估的强化学习环境,以真实的 SRE 值班噩梦为模型。它评估了 AI 智能体在接触生产环境之前必须掌握的最关键技能:准确且确定性地遵守规则。 ## 📌 结语 我们构建这个项目是因为 AI DevOps 智能体是未来,而未来需要严格的试验场。我们希望您享受破坏它——以及拯救它的过程。 由 **ByteBrains** 用 ❤️ 构建。
标签:Action Token, AIOps, AI SRE 代理, Benchmark, DevOps 工具, IT 运维, LLM Agent, Petitpotam, Runbook 自动化, 事故响应, 云原生运维, 幻觉抑制, 强化学习环境, 故障诊断与恢复, 智能决策, 沙箱模拟, 确定性评估, 站点可靠性工程, 系统稳定性, 自主基准测试环境, 自动化运维, 请求拦截, 逆向工具