qiuyluo/openClaw-oncall-SRE
GitHub: qiuyluo/openClaw-oncall-SRE
一个基于多智能体协作的轻量级 SRE 自动化助手,将监控、诊断、代码关联和工单创建的完整事件响应流程自动化,显著降低 On-call 人员的认知负荷。
Stars: 0 | Forks: 0
# openClaw-oncall-SRE
一个轻量级、Agent 原生的 SRE 助手,用于自动化事件响应。
## 背景
对于 SDE 和 SRE 来说,On-call 往往意味着碎片化的工作流程和高认知负荷。当生产环境发生事故时,典型的例行工作包括:
1. 收到来自 Grafana 的模糊告警。
2. 手动查询 Loki 或 CloudWatch 以获取日志。
3. 在 GitHub 中搜索最近的提交以识别潜在的回归。
4. 手动创建工单并通知相关人员。
openClaw-oncall-SRE 将这种手动劳动转化为自主的闭环流程。该项目基于 OpenClaw 和模型上下文协议 (MCP) 构建,部署了一个虚拟的“SRE 团队”,无需人工干预即可监控、诊断和记录事件。
## 架构:多 Agent 循环
该系统利用两个专门的 Agent 通过共享上下文进行协作:
- SRE-Agent (守护者):执行主动健康检查。它识别指标中的异常并收集原始证据(日志)。
- Dev-Agent (修复者):接收事件摘要,将其与 GitHub 中最近的代码变更关联起来,并创建可执行的工程任务。
## 快速开始(分步指南)
1. 一键初始化
运行我们的自动化设置脚本,以搭建项目脚手架、安装 OpenClaw CLI 并获取所需的 MCP 插件。
```
curl -O https://raw.githubusercontent.com/YOUR_USERNAME/openClaw-oncall-SRE/main/init_oncall.sh
bash init_oncall.sh
```
2. 配置凭证
编辑生成的 mcp.json 文件。该文件充当 LLM 与您的基础设施之间的网关。
```
{
"mcpServers": {
"slack": {
"command": "npx", "args": ["-y", "@modelcontextprotocol/server-slack"],
"env": { "SLACK_BOT_TOKEN": "xoxb-your-token" }
},
"grafana": {
"command": "npx", "args": ["-y", "@grafana/mcp-server"],
"env": { "GRAFANA_URL": "https://your-org.grafana.net", "GRAFANA_TOKEN": "glsa_your_key" }
},
"github": {
"command": "npx", "args": ["-y", "@modelcontextprotocol/server-github"],
"env": { "GITHUB_PERSONAL_ACCESS_TOKEN": "ghp_your_pat" }
}
}
}
```
3. 启动 Agent
启动 OpenClaw daemon。它将自动注册 SCHEDULE.md 中定义的 cron job。
```
# 启动常驻进程
openclaw start
```
## 核心逻辑与提示词
AGENTS.md(操作工作流)
Agent 遵循严格的标准操作流程 (SOP):
**SRE-Agent 逻辑:**
- 监控:每 10 分钟查询一次 grafana.query_prometheus。重点关注 Error Rate > 1% 或 P99 Latency > 200ms。
- 诊断:发现异常时,通过 grafana.get_loki_logs 获取最近 5 分钟的 {level="error"} 日志。
- 告警:向 Slack #oncall-alerts 发布结构化报告。
**Dev-Agent 逻辑:**
- 追踪:接收日志摘要。为受影响的服务调用 github.get_recent_commits。
- 关联:将错误模式与代码差异进行比较。
- 记录:调用 github.create_issue 并附上“Potential Regression”标签,并将其链接回 Slack 线程。
**SOUL.md(角色定义)**
- SRE-Agent:善于分析、数据驱动且简洁。在通知之前会验证持续性,从而避免“嘈杂”的告警。
- Dev-Agent:务实且技术化。专注于将日志映射到特定的代码行或提交。
## 项目结构
```
openClaw-oncall-SRE/
├── mcp.json # Plugin configurations and API credentials
├── SCHEDULE.md # Native Cron schedule (e.g., */10 * * * *)
├── AGENTS.md # Comprehensive Multi-Agent SOPs
├── SOUL.md # Personas and reasoning principles
├── init_oncall.sh # Automation bootstrap script
└── .claw/ # Execution logs and agent memory
```
## 为什么选择这个项目?
Agent 原生:无需复杂的 Python/Node.js 逻辑。“代码”即文档。
隐私优先:如果与本地 vLLM endpoint 一起使用,您的日志永远不会离开您的基础设施。
零 Toil:消除了“告警 -> 日志搜索 -> Git 搜索”的人工循环。
## 贡献
有兴趣增加对 Datadog、PagerDuty 或 Kubernetes 的支持吗?请查看我们的贡献指南!
标签:AIOps, BurpSuite集成, DLL 劫持, GitHub集成, Grafana, IT运维, LLM, MCP, Model Context Protocol, On-call, OpenClaw, PyRIT, Slack集成, Socks5代理, SOC Prime, SRE, Unmanaged PE, 事故响应, 偏差过滤, 告警管理, 多智能体系统, 大语言模型, 开发工具, 故障自愈, 智能运维, 监控诊断, 站点可靠性工程, 自动化运维, 运维自动化