rameshsurapathi/SignalOps
GitHub: rameshsurapathi/SignalOps
SignalOps 是一款自动化基础设施事件处理代理,旨在提高响应速度和准确性。
Stars: 0 | Forks: 0
# 🛡️ SignalOps 通用 SRE 代理
## 🏗️ 架构:推理引擎
SignalOps 在一个**解耦的推理循环**上运行。大脑(Gemini)做出高级决策,而双手(MCP 工具)与基础设施交互。
```
graph TD
UI[Streamlit UI] -->|Incident Trigger| Agent(LangGraph Orchestrator)
Agent -->|1. Analyze| LLM{Gemini 1.5 Flash}
Agent -->|2. Gather Context| MCP[MCP Server Bridge]
subgraph "Infrastructure Edge (Simulated)"
MCP -->|Diagnostic| K8s(K8s Events)
MCP -->|Diagnostic| Grafana(Grafana Metrics)
MCP -->|Diagnostic| Datadog(Datadog Logs)
MCP -->|Guidance| Runbook(Vertex AI Search)
end
MCP -->|Context Returned| Agent
Agent -->|3. Propose Fix| LLM
Agent -->|4. HITL Approval| UI
UI -.->|Approve/Reject| Agent
Agent -->|5. Apply Fix| MCP
Agent -->|6. Technical RCA| LLM
Agent -->|Final Report| UI
```
### SignalOps 生命周期:
1. **分析警报:** 当警报被摄取(例如,“调查 payment-service 崩溃”),代理使用 Gemini 识别目标服务并动态选择最相关的诊断工具(日志 vs. 指标 vs. 事件)。
2. **收集上下文(MCP):** 代理连接到 **MCP 服务器** 来执行选定的工具。它实现了 **上下文压缩**,过滤大量日志以提供 `WARN/ERROR/FATAL` 状态的干净、高信号上下文给 LLM。
3. **提出修复方案:** Gemini 综合压缩的证据和从 **运行手册知识库** 的查找,以提出结构化的解决方案。
4. **HITL 网关(安全):** 强制性的“人工介入”暂停。直到人类操作员在 UI 中审查并点击“批准”,才采取任何行动。
5. **应用修复方案:** 代理通过 MCP 桥执行模拟的修复步骤(例如,“K8s 补丁:增加内存限制”)。
6. **技术根本原因分析:** 生成最终的技术事后分析,结合原始证据和应用的修复方案已确认的结果。
### 4. 启动交互式演示
标签:Apex, Datadog, Gemini, Grafana, LLM, MCP, NIDS, PB级数据处理, Runbook, SRE, Streamlit, Unmanaged PE, 事件处理, 人工审核, 人工智能, 代码审查, 偏差过滤, 基础设施监控, 安全策略, 安全运维, 容器化, 库, 应急响应, 性能优化, 技术回溯, 技术栈, 指标监控, 提示词设计, 故障修复, 故障响应, 故障诊断, 故障预防, 日志审计, 智能运维, 机器学习, 架构设计, 检测绕过, 流式处理, 生命周期管理, 用户模式Hook绕过, 用户界面, 站点可靠性工程, 自动化运维, 访问控制, 请求拦截, 逆向工具, 风险控制