Shivabhalke1/AI-VARANI
GitHub: Shivabhalke1/AI-VARANI
AI-VARANI 是一个基于 OpenEnv 的自主 SRE 事故响应环境,旨在通过模拟微服务架构训练 AI 代理进行故障诊断与自愈操作。
Stars: 0 | Forks: 0
# 🛡️ AI VARANI: 自主 SRE 指挥中心
**Meta PyTorch OpenEnv Hackathon 2026 项目**
AI VARANI (Varani AI) 是一个自主的站点可靠性工程 (SRE) 环境,旨在训练和评估 AI 代理的故障响应能力。它基于 **OpenEnv** 框架构建,模拟了一个复杂的微服务架构,代理必须在其中观测遥测数据、对日志进行分类,并执行自愈操作以维持 100% 的系统正常运行时间。
## 🚀 愿景
在现代分布式系统中,停机平均每分钟造成 **9,000 美元**的损失。传统的监控仅向人类发出警报;AI VARANI 提供了一个“Gym”,让代理学习自主修复系统,将平均恢复时间 (MTTR) 从分钟级缩短至毫秒级。
## 📡 环境规格
AI VARANI 遵循标准的 Gymnasium/OpenEnv 接口,使其与任何基于 PyTorch 的 RL 库(如 Stable Baselines3、Ray Rllib 等)兼容。
| 组件 | 类型 | 描述 |
| :--- | :--- | :--- |
| **观测空间** | `Box(0, 1, (24,))` | 归一化遥测数据:4 个服务的错误率、延迟以及 CPU/内存 指标。 |
| **动作空间** | `Discrete(8)` | SRE 动作:`inspect_logs`、`restart_service`、`scale_up`、`rollback` 等。 |
| **奖励函数** | `Health + Step Penalty` | 解决问题奖励 `+250`,每步惩罚 `-1` 以鼓励速度(MTTR)。 |
| **故障场景** | `Deterministic` | 场景:DB Pool Exhaustion(数据库连接池耗尽)、Auth Memory Leak(认证服务内存泄漏)、API Latency Spike(API 延迟激增)。 |
## 🛠️ 项目结构
```
AI-VARANI/
├── openenv_incident/ # Core Logic & Simulation Engine
│ ├── env.py # Gymnasium-compliant Environment
│ ├── state_manager.py # Telemetry and Log tracking
│ └── action_space.py # Mapping of AI actions to system commands
├── frontend/
│ └── app.py # Gradio-based Monitoring Dashboard
├── demo.py # "One-Click" Autonomous Agent Demo
├── requirements.txt # Dependency list
└── README.md # Technical Documentation
```
标签:AIOps, API集成, Gradio, Gymnasium, Hackathon, Meta, MTTR, OpenEnv, PyTorch, Ray Rllib, SRE, Stable Baselines3, 人工智能, 偏差过滤, 内存泄漏, 凭据扫描, 可观测性, 平均恢复时间, 延迟峰值, 强化学习, 微服务架构, 故障响应, 故障排查, 数据库连接池耗尽, 智能运维, 模拟仿真, 用户模式Hook绕过, 监控仪表盘, 离散动作空间, 站点可靠性工程, 自动驾驶运维, 自愈系统, 资源调度, 逆向工具, 遥测数据