qiuyluo/openClaw-oncall-SRE

GitHub: qiuyluo/openClaw-oncall-SRE

一个基于多智能体协作的轻量级 SRE 自动化助手，将监控、诊断、代码关联和工单创建的完整事件响应流程自动化，显著降低 On-call 人员的认知负荷。

Stars: 0 | Forks: 0

# openClaw-oncall-SRE 一个轻量级、Agent 原生的 SRE 助手，用于自动化事件响应。 ## 背景对于 SDE 和 SRE 来说，On-call 往往意味着碎片化的工作流程和高认知负荷。当生产环境发生事故时，典型的例行工作包括： 1. 收到来自 Grafana 的模糊告警。 2. 手动查询 Loki 或 CloudWatch 以获取日志。 3. 在 GitHub 中搜索最近的提交以识别潜在的回归。 4. 手动创建工单并通知相关人员。 openClaw-oncall-SRE 将这种手动劳动转化为自主的闭环流程。该项目基于 OpenClaw 和模型上下文协议 (MCP) 构建，部署了一个虚拟的“SRE 团队”，无需人工干预即可监控、诊断和记录事件。 ## 架构：多 Agent 循环该系统利用两个专门的 Agent 通过共享上下文进行协作： - SRE-Agent (守护者)：执行主动健康检查。它识别指标中的异常并收集原始证据（日志）。 - Dev-Agent (修复者)：接收事件摘要，将其与 GitHub 中最近的代码变更关联起来，并创建可执行的工程任务。 ## 快速开始（分步指南） 1. 一键初始化运行我们的自动化设置脚本，以搭建项目脚手架、安装 OpenClaw CLI 并获取所需的 MCP 插件。 ``` curl -O https://raw.githubusercontent.com/YOUR_USERNAME/openClaw-oncall-SRE/main/init_oncall.sh bash init_oncall.sh ``` 2. 配置凭证编辑生成的 mcp.json 文件。该文件充当 LLM 与您的基础设施之间的网关。 ``` { "mcpServers": { "slack": { "command": "npx", "args": ["-y", "@modelcontextprotocol/server-slack"], "env": { "SLACK_BOT_TOKEN": "xoxb-your-token" } }, "grafana": { "command": "npx", "args": ["-y", "@grafana/mcp-server"], "env": { "GRAFANA_URL": "https://your-org.grafana.net", "GRAFANA_TOKEN": "glsa_your_key" } }, "github": { "command": "npx", "args": ["-y", "@modelcontextprotocol/server-github"], "env": { "GITHUB_PERSONAL_ACCESS_TOKEN": "ghp_your_pat" } } } } ``` 3. 启动 Agent 启动 OpenClaw daemon。它将自动注册 SCHEDULE.md 中定义的 cron job。 ``` # 启动常驻进程 openclaw start ``` ## 核心逻辑与提示词 AGENTS.md（操作工作流） Agent 遵循严格的标准操作流程 (SOP)： **SRE-Agent 逻辑：** - 监控：每 10 分钟查询一次 grafana.query_prometheus。重点关注 Error Rate > 1% 或 P99 Latency > 200ms。 - 诊断：发现异常时，通过 grafana.get_loki_logs 获取最近 5 分钟的 {level="error"} 日志。 - 告警：向 Slack #oncall-alerts 发布结构化报告。 **Dev-Agent 逻辑：** - 追踪：接收日志摘要。为受影响的服务调用 github.get_recent_commits。 - 关联：将错误模式与代码差异进行比较。 - 记录：调用 github.create_issue 并附上“Potential Regression”标签，并将其链接回 Slack 线程。 **SOUL.md（角色定义）** - SRE-Agent：善于分析、数据驱动且简洁。在通知之前会验证持续性，从而避免“嘈杂”的告警。 - Dev-Agent：务实且技术化。专注于将日志映射到特定的代码行或提交。 ## 项目结构 ``` openClaw-oncall-SRE/ ├── mcp.json # Plugin configurations and API credentials ├── SCHEDULE.md # Native Cron schedule (e.g., */10 * * * *) ├── AGENTS.md # Comprehensive Multi-Agent SOPs ├── SOUL.md # Personas and reasoning principles ├── init_oncall.sh # Automation bootstrap script └── .claw/ # Execution logs and agent memory ``` ## 为什么选择这个项目？ Agent 原生：无需复杂的 Python/Node.js 逻辑。“代码”即文档。隐私优先：如果与本地 vLLM endpoint 一起使用，您的日志永远不会离开您的基础设施。零 Toil：消除了“告警 -> 日志搜索 -> Git 搜索”的人工循环。 ## 贡献有兴趣增加对 Datadog、PagerDuty 或 Kubernetes 的支持吗？请查看我们的贡献指南！

标签：AIOps, BurpSuite集成, DLL 劫持, GitHub集成, Grafana, IT运维, LLM, MCP, Model Context Protocol, On-call, OpenClaw, PyRIT, Slack集成, Socks5代理, SOC Prime, SRE, Unmanaged PE, 事故响应, 偏差过滤, 告警管理, 多智能体系统, 大语言模型, 开发工具, 故障自愈, 智能运维, 监控诊断, 站点可靠性工程, 自动化运维, 运维自动化