RishwanthRaju/sre-incident-env

GitHub: RishwanthRaju/sre-incident-env

一个基于时间压力和动态反作弊机制的 AI 智能体 SRE 故障响应基准测试平台，用于评估模型在高压微服务故障场景下的推理与行动能力。

Stars: 0 | Forks: 0

title: SRE 事件环境 emoji: 🚨 colorFrom: red colorTo: yellow sdk: docker pinned: false tags: - openenv # 🚨 KubeSRE-OpenEnv：自主 SRE 智能体的前沿基准 ## 🏆 当前 AI 基准测试的问题当前的 LLM 智能体基准测试评估的是具有无限时间范围的静态、回合制任务（例如网页抓取、邮件分类）。在现实世界的站点可靠性工程 (SRE) 中，**时间是敌人，且目标并非硬编码。** **KubeSRE** 引入了一个高度不稳定、非确定性的环境，专门设计用于在模拟的生产故障下对前沿 ReAct（推理 + 行动）模型进行压力测试。 ## 🚀 核心架构创新 ### 1. 时间退化引擎（反幻觉） KubeSRE 惩罚低效的推理。智能体在未解决根本原因的情况下采取的每一步都会使集群健康状况降低 **15%**。如果智能体幻觉出不存在的工具、疯狂发送错误命令或陷入循环，模拟环境将触发 `FATAL SYSTEM CRASH`（致命系统崩溃）。 ### 2. 随机生成（反死记硬背）为了防止智能体过拟合或死记硬背静态解决方案，KubeSRE 在每次 `reset()` 时利用动态状态生成。 * **随机攻击向量：** Layer 7 DDoS IP 是程序化生成的（例如 `64.74.35.18`）。 * **动态 Linux 进程：** OOM（内存溢出）警报要求智能体执行 `run_top`，解析随机化的 Linux 进程树，并提取内存泄漏的确切 PID。 ### 3. 级联微服务故障（痕迹追踪）高级任务具有“红鲱鱼”（干扰性）警报。智能体可能会在 `frontend-service` 上收到 500 错误。它必须解析日志，将超时追溯到 `payment-gateway`，阅读这些日志，将故障追溯到 `redis-cache-cluster`，并执行 `flush_cache` 命令以拯救系统。这评估了真正的多跳自主调试能力。 ## 🛠️ 5 级评估矩阵智能体通过利用 8 个不同的终端命令，在难度梯度上进行评估。 * **Level 1（简单）：** 通过重启 Pod 解决 Prometheus 延迟警报。 * **Level 2（中等）：** 通过 Datadog 日志识别错误的数据库凭据并启动部署回滚。 * **Level 3（困难）：** 调查 99% 的 CPU 入口流量激增，从 Nginx 日志中动态提取攻击 IP，并执行 IP 封禁。 * **Level 4（极难）：** 响应 AWS CloudWatch OOM 警报，运行终端 top 命令，识别 Java 内存泄漏的动态 PID，并执行精准的进程终止。 * **Level 5（疯狂）：** 穿越 3 跳微服务故障级联（Frontend → Gateway → Cache），在不导致系统崩溃的情况下找出真正的根本原因。 ## 🎯 持续奖励塑形策略符合严格的 OpenEnv RL 规范 `[0.0 - 1.0]`： * **+0.15 到 +0.30**：在正确且动态生成的目标上执行正确诊断命令（`get_logs`, `run_top`）的稠密奖励。 * **+1.0**：用于精准根因缓解的稀疏终端奖励。 * **-15.0% 系统健康度**：每走一步的时间惩罚。 * **-0.1**：对破坏性或语法无效命令的立即扣分。 ## 💻 可复现性与 OpenEnv 规范合规性 KubeSRE 使用 FastAPI 和 Pydantic 构建，完全类型化、容器化，并符合 OpenEnv 规范。 ``` # 构建 Docker 容器 docker build -t sre-env . # 本地运行环境 docker run -p 7860:7860 sre-env # 运行基线 OpenEnv ReAct agent python inference.py ```

标签：AI Agent基准测试, AIOps, ASM汇编, Docker容器, Kubernetes运维, KubeSRE, L7 DDoS攻击模拟, Linux系统管理, OOM内存溢出, OpenEnv, ReAct推理, Root Cause Analysis, SRE, 偏差过滤, 分布式系统, 动态环境, 压力测试, 反作弊机制, 响应大小分析, 因果推理, 多跳调试, 大模型评测, 子域名突变, 幻觉抑制, 开源环境, 微服务故障排查, 攻击面发现, 时效性惩罚, 服务降级, 根因分析, 生产事故模拟, 站点可靠性工程, 类DevOps, 终端工具调用, 自治系统, 请求拦截, 运维自动化, 逆向工具, 配置错误, 随机化生成