jasminekaur7/incident-response-env

GitHub: jasminekaur7/incident-response-env

这是一个基于 OpenEnv 的模拟环境,旨在训练和评估 AI 智能体处理 SRE 事故诊断与自动化修复的能力。

Stars: 0 | Forks: 0

# 🚨 DevOps 事件响应 — OpenEnv 环境 一个真实的 SRE/DevOps 环境,AI 智能体在其中根据服务器日志和系统指标诊断生产环境事故,并应用正确的修复操作。 ## 任务 | Task | Difficulty | Description | | ---------------------------------- | ---------- | ------------------------------------------- | | `cpu_spike_webserver` | 🟢 Easy | 单服务 CPU 尖峰 — 清晰的日志信号 | | `memory_leak_cascade` | 🟡 Medium | 跨 3 个服务级联的内存泄漏 | | `multi_service_outage_red_herring` | 🔴 Hard | 数据库故障转移 + 具有误导性的红鲱鱼干扰 | ## 动作空间 `diagnose` · `restart_service` · `scale_up` · `rollback` · `ignore` · `alert_team` · `inspect_logs` · `kill_process` · `clear_cache` · `redeploy` ## 观测空间 | Field | Type | Description | | ------------------- | ------ | ------------------------------------------------- | | `log_snippet` | string | 带时间戳的服务器日志行 | | `system_metrics` | object | 按服务划分的 CPU%、内存%、error_rate、latency_ms | | `affected_services` | list | 显示异常的服务 | | `incident_status` | string | open / mitigated / resolved / escalated | | `feedback` | string | 针对上一步操作的自然语言反馈 | ## 奖励函数 | Outcome | Reward | | ------------------------------- | ------------------- | | 正确动作 + 正确目标 | 1.0 − 0.05×(step−1) | | 正确动作,错误目标 | 0.4 − 0.05×step | | 调查动作 | 0.3 − 0.05×step | | 无效动作 | −0.2 − 0.05×step | ## 设置 ``` pip install openenv-core fastapi uvicorn pydantic uvicorn server.app:app --host 0.0.0.0 --port 7860 ``` ## Docker ``` docker build -t incident-response-env -f server/Dockerfile . docker run -p 7860:7860 incident-response-env ``` ## 基线推理 ``` export API_BASE_URL=https://api.openai.com/v1 export MODEL_NAME=gpt-4o-mini export HF_TOKEN=hf_your_token export ENV_BASE_URL=http://localhost:7860 python inference.py ``` ## 基线得分 | Task | Score | | -------------------------------- | -------- | | cpu_spike_webserver | 0.95 | | memory_leak_cascade | 0.70 | | multi_service_outage_red_herring | 0.45 | | **Average** | **0.70** |
标签:AIOps, BurpSuite集成, CPU飙升, OpenEnv, SRE, 人工智能代理, 偏差过滤, 内存泄漏, 容器编排, 故障响应, 智能运维, 服务器指标, 服务重启, 根因分析, 演练, 环境模拟, 生产环境, 网络安全训练, 自动修复, 请求拦截, 运维, 逆向工具, 靶机