LokeshDasari123/incident_response_env-Meta_Hackathon-
GitHub: LokeshDasari123/incident_response_env-Meta_Hackathon-
这是一个基于真实微服务数据构建的AI智能体训练环境,用于模拟生产事故场景,让智能体学习在SLA压力下进行根因分析、告警过滤及故障修复。
Stars: 0 | Forks: 0
# 🚨 Incident Response OpenEnv
[](https://github.com/meta-pytorch/OpenEnv)
[](https://python.org)
[](LICENSE)
## 🎯 本环境模拟内容
每个运行微服务的工程团队都会面临**生产事故**:
级联故障、嘈杂的告警风暴,以及在 SLA 违约前解决问题的压力。目前,这些工作由凌晨 2 点的值班 SRE 手动完成,且压力巨大。
该环境用于训练 AI 智能体:
1. **分析**微服务调用图中的级联告警风暴
2. **过滤噪音**——识别与事故无关的误导性告警
3. **通过向内遍历依赖图来识别根本原因**
4. **分类严重性**(P0/P1/P2/P3)并开具正确的补救措施
5. **在 SLA 时间压力下与利益相关者沟通**
**数据基础:** 场景基于真实的阿里巴巴微服务集群追踪数据(v2021)、Microsoft AIOpsLab 故障分类法以及 Google SRE Book 事故模式(第 13–16 章)进行建模。
## 🗺️ 动作空间
智能体每一步提交一个结构化的 `IncidentAction`:
| 字段 | 类型 | 描述 |
|---|---|---|
| `root_cause_service` | string | 被识别为根本原因的服务 |
| `root_cause_type` | enum | misconfiguration / memory_leak / network_partition / crash_loop / ... |
| `severity` | enum | P0 (revenue) / P1 (user-facing) / P2 (partial) / P3 (minor) |
| `affected_services` | list[str] | 所有受影响的服务 |
| `remediation_action` | enum | rollback / restart_service / fix_config / escalate / ... |
| `stakeholder_message` | string | P0/P1 事故必需 |
| `confidence` | float | 智能体置信度 0.0–1.0 |
| `reasoning` | string | 思维链(用于部分计分) |
## 👁️ 观测空间
每一步智能体收到:
| 字段 | 描述 |
|---|---|
| `alerts` | 活跃的监控告警(服务、指标、值、阈值) |
| `metrics` | 每个服务当前的 CPU/内存/RT |
| `topology` | 服务调用图边(上游 → 下游) |
| `timeline` | 按时间顺序排列的事故事件 |
| `time_pressure` | SLA 违约紧迫度 0.0–1.0 |
| `sla_breach_in_steps` | 距离 SLA 违约的步数(仅限困难任务) |
## 📋 任务
### 任务 1:Easy – Change-Induced Single Service Failure
- **故障:** 对 `payments-db` 的错误 ConfigMap 更新
- **级联:** `payments-db` → `payments-api` → `checkout-ui`
- **误导项:** `worker-node-4` 上的 CPU 尖峰(无关的批处理作业)
- **预期 GPT-4 分数:** 0.75 | **随机:** 0.15
### 任务 2:Medium – Test-Induced Hidden Dependency Cascade
- **故障:** DNS 解析故障导致 `auth-service` → `user-service` 中断
- **级联:** `user-service` → `auth-service` → `api-gateway` → `storefront-ui`
- **误导项:** CPU 尖峰 + 内存警告(两者均无关)
- **预期 GPT-4 分数:** 0.52 | **随机:** 0.10
### 任务 3:Hard – Process-Induced Cascading Failure with SLA Pressure
- **故障:** `payments-db` 上的内存泄漏 + 崩溃循环
- **级联:** 跨 5 个服务。具有误导性的网络延迟告警。
- **第 6 步发生 SLA 违约**——必须上报
- **预期 GPT-4 分数:** 0.31 | **随机:** 0.05
## 🎁 奖励函数
```
score = root_cause × 0.35
+ action × 0.25
+ severity × 0.20
+ comms × 0.10
+ speed × 0.10
− false_positive × 0.15
− wrong_action × 0.20
− missed_escalation × 0.25
```
## 🚀 快速开始
```
# 安装
pip install -r requirements.txt
# 运行本地验证
python scripts/validate_env.py
# 启动服务器
uvicorn server.app:app --host 0.0.0.0 --port 7860
# 运行基线推理
export HF_TOKEN=your_token
export MODEL_NAME=meta-llama/Llama-3.3-70B-Instruct
export API_BASE_URL=https://router.huggingface.co/v1
python inference.py
```
## 🐳 Docker
```
docker build -t incident-response-env .
docker run -p 7860:7860 \
-e HF_TOKEN=your_token \
incident-response-env
```
## 🧪 测试
```
pytest tests/ -v
```
## 📊 基线分数
| 任务 | Llama-3.3-70B | 随机 |
|---|---|---|
| Easy | 0.97 | 0.15 |
| Medium | 0.70 | 0.10 |
| Hard | 0.98 | 0.05 |
## 🔗 在线环境
https://loki7123-incident-response-env.hf.space
## 📚 数据来源
- **Alibaba Cluster Trace v2021** —— 指标模式和服务拓扑
- **Microsoft AIOpsLab** —— 故障注入分类法
- **Google SRE Book (Ch 13–16)** —— 事故场景叙述和评分标准
标签:AIOps, Apex, Google SRE, IaC 扫描, Python, SLA管理, SRE, 人工智能, 依赖图, 修复建议, 偏差过滤, 告警风暴, 强化学习环境, 故障分类, 故障排查, 无后门, 智能运维, 机器学习, 根因分析, 模拟仿真, 用户模式Hook绕过, 站点可靠性工程, 级联故障, 网络安全应急响应, 自动化运维, 请求拦截, 逆向工具, 阿里巴巴