LokeshDasari123/incident_response_env-Meta_Hackathon-

GitHub: LokeshDasari123/incident_response_env-Meta_Hackathon-

这是一个基于真实微服务数据构建的AI智能体训练环境，用于模拟生产事故场景，让智能体学习在SLA压力下进行根因分析、告警过滤及故障修复。

Stars: 0 | Forks: 0

# 🚨 Incident Response OpenEnv [![OpenEnv](https://img.shields.io/badge/OpenEnv-1.0.0-blue)](https://github.com/meta-pytorch/OpenEnv) [![Python](https://img.shields.io/badge/Python-3.11-green)](https://python.org) [![License](https://img.shields.io/badge/License-MIT-yellow)](LICENSE) ## 🎯 本环境模拟内容每个运行微服务的工程团队都会面临**生产事故**：级联故障、嘈杂的告警风暴，以及在 SLA 违约前解决问题的压力。目前，这些工作由凌晨 2 点的值班 SRE 手动完成，且压力巨大。该环境用于训练 AI 智能体： 1. **分析**微服务调用图中的级联告警风暴 2. **过滤噪音**——识别与事故无关的误导性告警 3. **通过向内遍历依赖图来识别根本原因** 4. **分类严重性**（P0/P1/P2/P3）并开具正确的补救措施 5. **在 SLA 时间压力下与利益相关者沟通** **数据基础：** 场景基于真实的阿里巴巴微服务集群追踪数据（v2021）、Microsoft AIOpsLab 故障分类法以及 Google SRE Book 事故模式（第 13–16 章）进行建模。 ## 🗺️ 动作空间智能体每一步提交一个结构化的 `IncidentAction`： | 字段 | 类型 | 描述 | |---|---|---| | `root_cause_service` | string | 被识别为根本原因的服务 | | `root_cause_type` | enum | misconfiguration / memory_leak / network_partition / crash_loop / ... | | `severity` | enum | P0 (revenue) / P1 (user-facing) / P2 (partial) / P3 (minor) | | `affected_services` | list[str] | 所有受影响的服务 | | `remediation_action` | enum | rollback / restart_service / fix_config / escalate / ... | | `stakeholder_message` | string | P0/P1 事故必需 | | `confidence` | float | 智能体置信度 0.0–1.0 | | `reasoning` | string | 思维链（用于部分计分） | ## 👁️ 观测空间每一步智能体收到： | 字段 | 描述 | |---|---| | `alerts` | 活跃的监控告警（服务、指标、值、阈值） | | `metrics` | 每个服务当前的 CPU/内存/RT | | `topology` | 服务调用图边（上游 → 下游） | | `timeline` | 按时间顺序排列的事故事件 | | `time_pressure` | SLA 违约紧迫度 0.0–1.0 | | `sla_breach_in_steps` | 距离 SLA 违约的步数（仅限困难任务） | ## 📋 任务 ### 任务 1：Easy – Change-Induced Single Service Failure - **故障：** 对 `payments-db` 的错误 ConfigMap 更新 - **级联：** `payments-db` → `payments-api` → `checkout-ui` - **误导项：** `worker-node-4` 上的 CPU 尖峰（无关的批处理作业） - **预期 GPT-4 分数：** 0.75 | **随机：** 0.15 ### 任务 2：Medium – Test-Induced Hidden Dependency Cascade - **故障：** DNS 解析故障导致 `auth-service` → `user-service` 中断 - **级联：** `user-service` → `auth-service` → `api-gateway` → `storefront-ui` - **误导项：** CPU 尖峰 + 内存警告（两者均无关） - **预期 GPT-4 分数：** 0.52 | **随机：** 0.10 ### 任务 3：Hard – Process-Induced Cascading Failure with SLA Pressure - **故障：** `payments-db` 上的内存泄漏 + 崩溃循环 - **级联：** 跨 5 个服务。具有误导性的网络延迟告警。 - **第 6 步发生 SLA 违约**——必须上报 - **预期 GPT-4 分数：** 0.31 | **随机：** 0.05 ## 🎁 奖励函数 ``` score = root_cause × 0.35 + action × 0.25 + severity × 0.20 + comms × 0.10 + speed × 0.10 − false_positive × 0.15 − wrong_action × 0.20 − missed_escalation × 0.25 ``` ## 🚀 快速开始 ``` # 安装 pip install -r requirements.txt # 运行本地验证 python scripts/validate_env.py # 启动服务器 uvicorn server.app:app --host 0.0.0.0 --port 7860 # 运行基线推理 export HF_TOKEN=your_token export MODEL_NAME=meta-llama/Llama-3.3-70B-Instruct export API_BASE_URL=https://router.huggingface.co/v1 python inference.py ``` ## 🐳 Docker ``` docker build -t incident-response-env . docker run -p 7860:7860 \ -e HF_TOKEN=your_token \ incident-response-env ``` ## 🧪 测试 ``` pytest tests/ -v ``` ## 📊 基线分数 | 任务 | Llama-3.3-70B | 随机 | |---|---|---| | Easy | 0.97 | 0.15 | | Medium | 0.70 | 0.10 | | Hard | 0.98 | 0.05 | ## 🔗 在线环境 https://loki7123-incident-response-env.hf.space ## 📚 数据来源 - **Alibaba Cluster Trace v2021** —— 指标模式和服务拓扑 - **Microsoft AIOpsLab** —— 故障注入分类法 - **Google SRE Book (Ch 13–16)** —— 事故场景叙述和评分标准

标签：AIOps, Apex, Google SRE, IaC 扫描, Python, SLA管理, SRE, 人工智能, 依赖图, 修复建议, 偏差过滤, 告警风暴, 强化学习环境, 故障分类, 故障排查, 无后门, 智能运维, 机器学习, 根因分析, 模拟仿真, 用户模式Hook绕过, 站点可靠性工程, 级联故障, 网络安全应急响应, 自动化运维, 请求拦截, 逆向工具, 阿里巴巴