LokeshDasari123/incident_response_env-Meta_Hackathon-

GitHub: LokeshDasari123/incident_response_env-Meta_Hackathon-

这是一个基于真实微服务数据构建的AI智能体训练环境,用于模拟生产事故场景,让智能体学习在SLA压力下进行根因分析、告警过滤及故障修复。

Stars: 0 | Forks: 0

# 🚨 Incident Response OpenEnv [![OpenEnv](https://img.shields.io/badge/OpenEnv-1.0.0-blue)](https://github.com/meta-pytorch/OpenEnv) [![Python](https://img.shields.io/badge/Python-3.11-green)](https://python.org) [![License](https://img.shields.io/badge/License-MIT-yellow)](LICENSE) ## 🎯 本环境模拟内容 每个运行微服务的工程团队都会面临**生产事故**: 级联故障、嘈杂的告警风暴,以及在 SLA 违约前解决问题的压力。目前,这些工作由凌晨 2 点的值班 SRE 手动完成,且压力巨大。 该环境用于训练 AI 智能体: 1. **分析**微服务调用图中的级联告警风暴 2. **过滤噪音**——识别与事故无关的误导性告警 3. **通过向内遍历依赖图来识别根本原因** 4. **分类严重性**(P0/P1/P2/P3)并开具正确的补救措施 5. **在 SLA 时间压力下与利益相关者沟通** **数据基础:** 场景基于真实的阿里巴巴微服务集群追踪数据(v2021)、Microsoft AIOpsLab 故障分类法以及 Google SRE Book 事故模式(第 13–16 章)进行建模。 ## 🗺️ 动作空间 智能体每一步提交一个结构化的 `IncidentAction`: | 字段 | 类型 | 描述 | |---|---|---| | `root_cause_service` | string | 被识别为根本原因的服务 | | `root_cause_type` | enum | misconfiguration / memory_leak / network_partition / crash_loop / ... | | `severity` | enum | P0 (revenue) / P1 (user-facing) / P2 (partial) / P3 (minor) | | `affected_services` | list[str] | 所有受影响的服务 | | `remediation_action` | enum | rollback / restart_service / fix_config / escalate / ... | | `stakeholder_message` | string | P0/P1 事故必需 | | `confidence` | float | 智能体置信度 0.0–1.0 | | `reasoning` | string | 思维链(用于部分计分) | ## 👁️ 观测空间 每一步智能体收到: | 字段 | 描述 | |---|---| | `alerts` | 活跃的监控告警(服务、指标、值、阈值) | | `metrics` | 每个服务当前的 CPU/内存/RT | | `topology` | 服务调用图边(上游 → 下游) | | `timeline` | 按时间顺序排列的事故事件 | | `time_pressure` | SLA 违约紧迫度 0.0–1.0 | | `sla_breach_in_steps` | 距离 SLA 违约的步数(仅限困难任务) | ## 📋 任务 ### 任务 1:Easy – Change-Induced Single Service Failure - **故障:** 对 `payments-db` 的错误 ConfigMap 更新 - **级联:** `payments-db` → `payments-api` → `checkout-ui` - **误导项:** `worker-node-4` 上的 CPU 尖峰(无关的批处理作业) - **预期 GPT-4 分数:** 0.75 | **随机:** 0.15 ### 任务 2:Medium – Test-Induced Hidden Dependency Cascade - **故障:** DNS 解析故障导致 `auth-service` → `user-service` 中断 - **级联:** `user-service` → `auth-service` → `api-gateway` → `storefront-ui` - **误导项:** CPU 尖峰 + 内存警告(两者均无关) - **预期 GPT-4 分数:** 0.52 | **随机:** 0.10 ### 任务 3:Hard – Process-Induced Cascading Failure with SLA Pressure - **故障:** `payments-db` 上的内存泄漏 + 崩溃循环 - **级联:** 跨 5 个服务。具有误导性的网络延迟告警。 - **第 6 步发生 SLA 违约**——必须上报 - **预期 GPT-4 分数:** 0.31 | **随机:** 0.05 ## 🎁 奖励函数 ``` score = root_cause × 0.35 + action × 0.25 + severity × 0.20 + comms × 0.10 + speed × 0.10 − false_positive × 0.15 − wrong_action × 0.20 − missed_escalation × 0.25 ``` ## 🚀 快速开始 ``` # 安装 pip install -r requirements.txt # 运行本地验证 python scripts/validate_env.py # 启动服务器 uvicorn server.app:app --host 0.0.0.0 --port 7860 # 运行基线推理 export HF_TOKEN=your_token export MODEL_NAME=meta-llama/Llama-3.3-70B-Instruct export API_BASE_URL=https://router.huggingface.co/v1 python inference.py ``` ## 🐳 Docker ``` docker build -t incident-response-env . docker run -p 7860:7860 \ -e HF_TOKEN=your_token \ incident-response-env ``` ## 🧪 测试 ``` pytest tests/ -v ``` ## 📊 基线分数 | 任务 | Llama-3.3-70B | 随机 | |---|---|---| | Easy | 0.97 | 0.15 | | Medium | 0.70 | 0.10 | | Hard | 0.98 | 0.05 | ## 🔗 在线环境 https://loki7123-incident-response-env.hf.space ## 📚 数据来源 - **Alibaba Cluster Trace v2021** —— 指标模式和服务拓扑 - **Microsoft AIOpsLab** —— 故障注入分类法 - **Google SRE Book (Ch 13–16)** —— 事故场景叙述和评分标准
标签:AIOps, Apex, Google SRE, IaC 扫描, Python, SLA管理, SRE, 人工智能, 依赖图, 修复建议, 偏差过滤, 告警风暴, 强化学习环境, 故障分类, 故障排查, 无后门, 智能运维, 机器学习, 根因分析, 模拟仿真, 用户模式Hook绕过, 站点可靠性工程, 级联故障, 网络安全应急响应, 自动化运维, 请求拦截, 逆向工具, 阿里巴巴