Escanor925/openenv_sre_arbiter
GitHub: Escanor925/openenv_sre_arbiter
基于 OpenEnv 规范的 RL 风格评测环境,用于评估 AI 智能体在云服务事故中同时进行故障遏制与根因调查的综合能力。
Stars: 0 | Forks: 0
## Cloud SRE Arbiter
emoji: 🚨
colorFrom: red
colorTo: yellow
sdk: docker
pinned: false
# 🚨 Cloud SRE Arbiter
**OpenEnv 黑客松提交作品** —— 一个 RL 风格的环境,用于评估 AI 智能体诊断和缓解实时服务器宕机的能力。
## 核心机制:“遏制与调查”
智能体面临着逼真的**告警风暴**。在每个回合,它必须同时做出两个决策:
| 决策 | 领域 | 示例 |
|----------|--------|----------|
| **遏制** (Ops) | 保持系统在线 | 扩容节点、回滚部署、限流 |
| **调查** (Sec/Data) | 找出根本原因 | 查询数据库锁、检查提交、分析流量 |
这个回合循环会一直持续,直到智能体正确宣告根本原因——或者系统崩溃。
## 任务
| 难度 | 场景 | 根本原因 |
|-----------|----------|------------|
| **简单** | 导致 API 500 错误的错误代码部署 | 支付处理程序中的错误提交 |
| **中等** | 级联微服务故障 | 用户表上的数据库死锁 |
| **困难** | 模棱两可的流量突增(DDoS 还是病毒式传播) | 伪装成病毒式传播事件的 95% 僵尸网络流量 |
## 评分(确定性,0.0 → 1.0)
| 权重 | 类别 |
|--------|----------|
| 40% | 根本原因识别 |
| 25% | 遏制质量 |
| 15% | 证据收集 |
| 10% | 预算效率 |
| 10% | 系统健康度维护 |
**惩罚:**
- 过早猜测(无证据):**−0.30**
- 系统崩溃(健康度 → 0):**−0.50**
## 快速开始
```
# 安装依赖项
pip install -r requirements.txt
# 启动环境服务器
uvicorn main:app --host 0.0.0.0 --port 7860
# 运行评估 (在另一个终端)
export HF_TOKEN=your_token_here
export MODEL_NAME=gpt-4o-mini
python inference.py
```
## API 端点
| 方法 | 端点 | 描述 |
|--------|----------|-------------|
| `GET` | `/` | 健康检查 |
| `POST` | `/reset` | 开始新回合 `{"task_name": "easy"}` |
| `POST` | `/step` | 发送动作,接收观察结果 + 奖励 |
| `GET` | `/state` | 当前回合元数据 |
## 文件结构
```
├── data.json # Scenario dataset (easy/medium/hard)
├── environment.py # Core engine + Pydantic models + grader
├── main.py # FastAPI server (/reset, /step, /state)
├── inference.py # LLM evaluation script
├── openenv.yaml # OpenEnv specification
├── Dockerfile # Container config
└── requirements.txt # Python dependencies
```
标签:AIOps, AI基准测试, AI智能体, AV绕过, CISA项目, DDoS攻击, DLL 劫持, Docker, FastAPI, LLM评估, Ollama, OpenEnv, PB级数据处理, Petitpotam, Python, SRE, Uvicorn, 人工智能, 代码回滚, 偏差过滤, 告警风暴, 大语言模型, 安全运维, 安全防御评估, 库, 应急响应, 强化学习, 故障诊断, 无后门, 服务器宕机, 根因分析, 混沌工程, 用户模式Hook绕过, 站点可靠性工程, 请求拦截, 运维自动化, 逆向工具, 配置错误