jasminekaur7/incident-response-env
GitHub: jasminekaur7/incident-response-env
这是一个基于 OpenEnv 的模拟环境,旨在训练和评估 AI 智能体处理 SRE 事故诊断与自动化修复的能力。
Stars: 0 | Forks: 0
# 🚨 DevOps 事件响应 — OpenEnv 环境
一个真实的 SRE/DevOps 环境,AI 智能体在其中根据服务器日志和系统指标诊断生产环境事故,并应用正确的修复操作。
## 任务
| Task | Difficulty | Description |
| ---------------------------------- | ---------- | ------------------------------------------- |
| `cpu_spike_webserver` | 🟢 Easy | 单服务 CPU 尖峰 — 清晰的日志信号 |
| `memory_leak_cascade` | 🟡 Medium | 跨 3 个服务级联的内存泄漏 |
| `multi_service_outage_red_herring` | 🔴 Hard | 数据库故障转移 + 具有误导性的红鲱鱼干扰 |
## 动作空间
`diagnose` · `restart_service` · `scale_up` · `rollback` · `ignore` ·
`alert_team` · `inspect_logs` · `kill_process` · `clear_cache` · `redeploy`
## 观测空间
| Field | Type | Description |
| ------------------- | ------ | ------------------------------------------------- |
| `log_snippet` | string | 带时间戳的服务器日志行 |
| `system_metrics` | object | 按服务划分的 CPU%、内存%、error_rate、latency_ms |
| `affected_services` | list | 显示异常的服务 |
| `incident_status` | string | open / mitigated / resolved / escalated |
| `feedback` | string | 针对上一步操作的自然语言反馈 |
## 奖励函数
| Outcome | Reward |
| ------------------------------- | ------------------- |
| 正确动作 + 正确目标 | 1.0 − 0.05×(step−1) |
| 正确动作,错误目标 | 0.4 − 0.05×step |
| 调查动作 | 0.3 − 0.05×step |
| 无效动作 | −0.2 − 0.05×step |
## 设置
```
pip install openenv-core fastapi uvicorn pydantic
uvicorn server.app:app --host 0.0.0.0 --port 7860
```
## Docker
```
docker build -t incident-response-env -f server/Dockerfile .
docker run -p 7860:7860 incident-response-env
```
## 基线推理
```
export API_BASE_URL=https://api.openai.com/v1
export MODEL_NAME=gpt-4o-mini
export HF_TOKEN=hf_your_token
export ENV_BASE_URL=http://localhost:7860
python inference.py
```
## 基线得分
| Task | Score |
| -------------------------------- | -------- |
| cpu_spike_webserver | 0.95 |
| memory_leak_cascade | 0.70 |
| multi_service_outage_red_herring | 0.45 |
| **Average** | **0.70** |
标签:AIOps, BurpSuite集成, CPU飙升, OpenEnv, SRE, 人工智能代理, 偏差过滤, 内存泄漏, 容器编排, 故障响应, 智能运维, 服务器指标, 服务重启, 根因分析, 演练, 环境模拟, 生产环境, 网络安全训练, 自动修复, 请求拦截, 运维, 逆向工具, 靶机