Afnan-0206/cloud-incident-openenv

GitHub: Afnan-0206/cloud-incident-openenv

基于OpenEnv协议的云事件响应模拟器,为DevOps/SRE人员提供结构化的故障响应训练与评分。

Stars: 0 | Forks: 0

## title: 云事件响应模拟器 emoji: 🚀 colorFrom: indigo colorTo: purple sdk: docker app_port: 7860 # 🚀 CloudOps Responder (OpenEnv Hackathon) ## 🧠 项目概述 本项目是一个真实世界、生产级的 **OpenEnv** AI 训练环境。它真实地模拟了级联云基础设施故障和延迟事件。AI 代理和人类操作员可以使用 OpenEnv 协议(`step()`、`reset()`、`state()`)直接交互,以缓解当前问题、修补资源泄漏并恢复完整的系统运行。 ## ⚙️ 功能特性 - **实时事件模拟:** 动态追踪 CPU/内存容量、服务健康状况和活动警报。 - **多难度级别:** 针对简单、中等和困难故障,具备独特的逻辑工作流。 - **逐步评估时间线:** 动作注入的即时程序化模拟。 - **智能评分系统:** 严格的边界评估,提供 `0–1` 的标准化分数。 - **AI 式动作反馈:** 提供情境化、上下文感知的分析以及最佳的下一步建议。 - **基于 Web 的交互式 UI:** 直接连接到底层 OpenEnv 代理界面的高级代理可视化工具。 ## 🎯 如何使用 1. **选择难度** (EASY / MEDIUM / HARD)。 2. **生成事件** 以触发并注入模拟故障状态。 3. **逐行输入操作员动作**。 4. 点击 **"Execute & Evaluate"**。 5. 查看最终序列分数、逐步反馈时间线和生成的系统状态报告。 ## 🧪 示例场景 **事件:** `API Gateway Down (502)` **操作员解决方案序列:** ``` restart service check logs rollback deployment ``` *(困难场景会严格评估逻辑序列推理,确保操作员在执行修复之前遵守基础设施约束)。* ## 🏗 OpenEnv 合规性 我们严格遵守标准规范,确保自主评估的即插即用兼容性。 - **`step(action)`**:处理输入动作,返回即时的局部状态观察、奖励部分和上下文反馈。 - **`reset()`**:根据参数化的难度模板重新初始化系统变量。 - **`state()`**:返回活动云基础设施负载的类型化 JSON 序列化快照。 - **`openenv.yaml`**:本地包含,用于完全绑定动作边界和状态参数。 ## 📊 评估系统 一个严格的评分器将核心确定性环境封装成一个评估引擎。 - **基于奖励的评分(`0–1`)**。 - **支持部分学分**,针对那些提供局部缓解但遗留残余问题的动作。 - **逻辑序列评估** 检查顺序因果关系(例如,在 CPU 耗尽期间尝试重启会产生惩罚性评分)。 - **惩罚错误动作**,防止代理试错利用循环。 ## 🚀 部署 - **Hugging Face Spaces**:网络已优化,以适应 Spaces 代理层。 - **基于 Docker 的执行**:无需依赖,通用可复现。 - **完全可复现**:全球范围内保证可预测的静态执行模型。 ## 🧑‍💻 作者 **Afnan B.R.** ✉️ [2102508519@svyasa-sas.edu.in](mailto:2102508519@svyasa-sas.edu.in)
标签:DevOps 培训, Docker, OpenEnv, SRE 运维, 云计算, 人工智能, 后端开发, 基础架构管理, 多用户, 安全防御评估, 实时评估, 容灾恢复, 排行榜, 故障注入, 用户模式Hook绕过, 级联故障, 网络安全, 规则引擎, 计分系统, 请求拦截, 运维演练, 逆向工具, 隐私保护