Shivabhalke1/AI-VARANI

GitHub: Shivabhalke1/AI-VARANI

AI-VARANI 是一个基于 OpenEnv 的自主 SRE 事故响应环境，旨在通过模拟微服务架构训练 AI 代理进行故障诊断与自愈操作。

Stars: 0 | Forks: 0

# 🛡️ AI VARANI: 自主 SRE 指挥中心 **Meta PyTorch OpenEnv Hackathon 2026 项目** AI VARANI (Varani AI) 是一个自主的站点可靠性工程 (SRE) 环境，旨在训练和评估 AI 代理的故障响应能力。它基于 **OpenEnv** 框架构建，模拟了一个复杂的微服务架构，代理必须在其中观测遥测数据、对日志进行分类，并执行自愈操作以维持 100% 的系统正常运行时间。 ## 🚀 愿景在现代分布式系统中，停机平均每分钟造成 **9,000 美元**的损失。传统的监控仅向人类发出警报；AI VARANI 提供了一个“Gym”，让代理学习自主修复系统，将平均恢复时间 (MTTR) 从分钟级缩短至毫秒级。 ## 📡 环境规格 AI VARANI 遵循标准的 Gymnasium/OpenEnv 接口，使其与任何基于 PyTorch 的 RL 库（如 Stable Baselines3、Ray Rllib 等）兼容。 | 组件 | 类型 | 描述 | | :--- | :--- | :--- | | **观测空间** | `Box(0, 1, (24,))` | 归一化遥测数据：4 个服务的错误率、延迟以及 CPU/内存指标。 | | **动作空间** | `Discrete(8)` | SRE 动作：`inspect_logs`、`restart_service`、`scale_up`、`rollback` 等。 | | **奖励函数** | `Health + Step Penalty` | 解决问题奖励 `+250`，每步惩罚 `-1` 以鼓励速度（MTTR）。 | | **故障场景** | `Deterministic` | 场景：DB Pool Exhaustion（数据库连接池耗尽）、Auth Memory Leak（认证服务内存泄漏）、API Latency Spike（API 延迟激增）。 | ## 🛠️ 项目结构 ``` AI-VARANI/ ├── openenv_incident/ # Core Logic & Simulation Engine │ ├── env.py # Gymnasium-compliant Environment │ ├── state_manager.py # Telemetry and Log tracking │ └── action_space.py # Mapping of AI actions to system commands ├── frontend/ │ └── app.py # Gradio-based Monitoring Dashboard ├── demo.py # "One-Click" Autonomous Agent Demo ├── requirements.txt # Dependency list └── README.md # Technical Documentation ```

标签：AIOps, API集成, Gradio, Gymnasium, Hackathon, Meta, MTTR, OpenEnv, PyTorch, Ray Rllib, SRE, Stable Baselines3, 人工智能, 偏差过滤, 内存泄漏, 凭据扫描, 可观测性, 平均恢复时间, 延迟峰值, 强化学习, 微服务架构, 故障响应, 故障排查, 数据库连接池耗尽, 智能运维, 模拟仿真, 用户模式Hook绕过, 监控仪表盘, 离散动作空间, 站点可靠性工程, 自动驾驶运维, 自愈系统, 资源调度, 逆向工具, 遥测数据