Tracer-Cloud/opensre

GitHub: Tracer-Cloud/opensre

OpenSRE 是一个用于构建自有基础设施上的 AI SRE 代理开源框架,旨在解决生产事件响应缺乏标准化评估与训练支持的问题。

Stars: 804 | Forks: 110

OpenSRE:构建你自己的 AI SRE 代理

一个用于 AI SRE 代理的开源框架,以及它们提升所需的训练和评估环境。连接你已经运行的 40+ 工具,定义你自己的工作流,并在自己的基础设施上调查事件。

Stars License CI Open Source Discord

## 为什么选择 OpenSRE? 当生产环境发生故障时,证据分散在日志、指标、追踪、运行手册和 Slack 线程中。OpenSRE 是一个用于解决生产事件的人工智能 SRE 代理开源框架,旨在运行在你自己的基础设施上。 我们这么做是因为 SWE-bench1 为编码代理提供了可扩展的训练数据和明确的反馈。而生产事件响应仍然缺乏同等水平的支持。 分布式故障比本地代码任务更慢、噪声更大,也更难模拟和评估,这也是为什么 AI SRE,以及更广义的生产调试 AI,仍然是一个未解决的问题。 OpenSRE 正在构建_那个_缺失的层次: 我们通过以下方式实现: - 构建易于部署、可定制的 AI SRE 代理,用于生产事件调查与响应 - 运行评分化的合成 RCA 测试套件,检查根因准确性、所需证据以及对抗性干扰项 [(tests/synthetic)](tests/synthetic/rds_postgres) - 运行跨云场景的真实端到端测试,包括 Kubernetes、EC2、CloudWatch、Lambda、ECS Fargate 和 Flink [(tests/e2e)](tests/e2e) - 保持语义测试目录命名,以便明确区分端到端与合成、本地与云端 [(tests/README.md)](tests/README.md) 我们的使命是基于此构建 AI SRE 代理,将其扩展到数千个真实的基础设施故障场景,并将 OpenSRE 确立为 AI SRE 的基准和训练平台。 1 https://arxiv.org/abs/2310.06770 ## 安装 ``` curl -fsSL https://raw.githubusercontent.com/Tracer-Cloud/opensre/main/install.sh | bash ``` ``` brew install Tracer-Cloud/opensre/opensre ``` ``` irm https://raw.githubusercontent.com/Tracer-Cloud/opensre/main/install.ps1 | iex ```