eagleeyethinker/multi-agent-incident-response-csharp

GitHub: eagleeyethinker/multi-agent-incident-response-csharp

基于 Semantic Kernel 的多智能体事件响应参考实现,系统展示六种编排模式在 SaaS 平台自动化运维场景中的应用方式。

Stars: 1 | Forks: 0

# 多智能体事件响应 — Semantic Kernel (C#) ## 为什么选择此用例? 事件响应是目前技术领域杠杆率最高的智能体工作负载。它周期短、工具密集、需要多名专家的协调,并且在任何更改写入生产环境之前,具有不可协商的人工干预 (human-in-the-loop) 关卡。如果你的多智能体框架能处理这个场景,那它就能处理其他任何场景。 ## 包含内容 | 文件 | 模式 | 角色 | |---|---|---| | `Program.cs` | — | 串联完整流水线的入口点 | | `Agents/TriageAgent.cs` | Sequential | 对告警进行分类,设定严重级别 | | `Agents/LogAgent.cs` | Concurrent | 读取日志 (Loki/CloudWatch tool) | | `Agents/MetricsAgent.cs` | Concurrent | 读取 Prometheus 指标 | | `Agents/KbSearchAgent.cs` | Concurrent | 搜索运维手册 (runbooks) + 历史事件 | | `Agents/DiagnosticAgent.cs` | Group Chat | 探讨并论证根因 | | `Agents/KnowledgeAgent.cs` | Group Chat | 根据先验知识进行反驳 | | `Agents/LeadAgent.cs` | Group Chat | 决定辩论何时结束 | | `Agents/RemediationAgents.cs` | Handoff | 数据库 / 网络 / 应用专家 | | `Agents/CommsAgent.cs` | Sequential (final) | 草拟状态页更新 | | `Orchestration/IncidentOrchestrator.cs` | Magnetic / Hierarchical | 顶层编排器 | | `Plugins/ObservabilityPlugin.cs` | — | 日志/指标/链路的模拟工具 | | `Plugins/RemediationPlugin.cs` | — | kubectl/db 操作的模拟工具 | | `HumanGate/ApprovalGate.cs` | — | 人工干预 (human-in-the-loop) 审批 | ## 涵盖模式 1. **Sequential** — `Triage → Investigate → Debate → Remediate → Announce` 2. **Concurrent** — `LogAgent ‖ MetricsAgent ‖ KbSearchAgent` 3. **Group Chat** — `DiagnosticAgent ⇌ KnowledgeAgent`,由 `LeadAgent` 裁决 4. **Handoff** — Remediation 根据症状路由到 DB / Network / App 专家 5. **Magnetic / Orchestrator-Worker** — `IncidentOrchestrator` 在工具失败时重新规划 6. **Hierarchical** — 顶层编排器拥有一个“团队中的团队”;子管理者提供摘要 ## 前置条件 ``` dotnet --version # 8.0 or later ``` `appsettings.json`: ``` { "AzureOpenAI": { "Endpoint": "https://YOUR-RESOURCE.openai.azure.com/", "DeploymentName": "gpt-4o", "ApiKey": "..." } } ``` ## 运行 ``` dotnet restore dotnet run -- ./samples/alert-db-cpu-spike.json ``` 你将看到每个智能体推理过程的流式记录、并行调查结果、根因辩论,以及在任何修复工具触发之前的审批提示。 ## 生产环境检查清单 - [ ] 每个阶段的 Token 预算(硬性上限) - [ ] 每个智能体的工具白名单(默认只读) - [ ] 每次调用的 OpenTelemetry 链路追踪 - [ ] 针对历史事件的夜间评估测试 - [ ] 通过 Feature Flag 控制的紧急切断开关(“仅建议”模式) - [ ] 每次事件和每天的成本防护机制 ## 许可证 MIT — 详见 `LICENSE`。这是参考代码;请在投入生产使用前进行强化。
标签:AIOps, API集成, CloudWatch, DLL 劫持, Docker 部署, IT运维, LLM应用开发, Loki, Microsoft Semantic Kernel, .NET开发, PyRIT, SaaS安全, Socks5代理, 专家路由, 事件分诊, 人工智能, 人机协同, 人类在环, 参考架构, 可观测性, 多智能体模式, 多智能体系统, 大语言模型, 数据库运维, 模块化设计, 用户模式Hook绕过, 系统架构, 编排器, 网络运维, 群聊协作, 自动化事件响应, 自动化修复, 自动化运维, 顺序执行