deployedengineer/incident-response

GitHub: deployedengineer/incident-response

面向SOC团队的事件响应Runbook自动化系统,通过向量检索历史事件、语义匹配Playbook和实时威胁情报,用LLM自动生成结构化分诊报告以缩短MTTR。

Stars: 0 | Forks: 0

# 🚨 面向 SOC 团队的事件到 Runbook 自动化 [![GitHub Stars](https://img.shields.io/github/stars/deployedengineer/incident-response?style=social)](https://github.com/deployedengineer/incident-response) [![n8n](https://img.shields.io/badge/Built%20with-n8n-orange?logo=n8n)](https://n8n.io) [![Supabase](https://img.shields.io/badge/Vector%20DB-Supabase-green?logo=supabase)](https://supabase.com) **[📥 导入 n8n 工作流](https://github.com/deployedengineer/incident-response/blob/main/Incident%20Management.json)** · **[📖 深入探索文档](./docs/)** ## 📋 目录 - [🔥 问题背景](#-the-problem) - [💡 解决方案](#-the-solution) - [🧠 项目定位(是何物与非何物)](#-what-this-is-and-isnt) - [🏗️ 架构](#%EF%B8%8F-how-it-works) - [🛠️ 技术栈](#%EF%B8%8F-tech-stack) - [📁 仓库内容](#-whats-in-this-repo) - [🚀 快速入门](#-quickstart) - [🤝 贡献指南](#-contributing) - [📄 许可证](#-license) ## 🔥 问题背景 当凌晨 3 点突发安全事件时,SOC 团队面临一个关键瓶颈:**快速寻找上下文**。 - **上下文切换开销**:手动搜索 Slack、Confluence、JIRA 和过往事件文档需要 15–30 分钟,之后才能开始真正的分析。 - **经验知识的流失**:半年前解决过类似事件的工程师可能已经离职。解决策略散落在零散的笔记中,而没有存在于一个可检索的系统内。 - **高压下的认知负荷**:高压的分流(Triage)工作会导致错失过往事件中与当前模式匹配的信号。 - **60% 的事件是重复发生的**:行业数据一致表明,绝大多数事件都是以往已解决问题的变种——然而大多数团队每次都要从零开始解决它们。 **结果:** 在没有良好工具的情况下,平均事件解决时间 (MTTR) 平均为每次事件 3-4 小时。如果能即时提供相关的上下文,这个时间可以缩短到 45 分钟 – 1.5 小时。 ## 💡 解决方案 该系统在警报触发后的几分钟内,通过三个并行的智能数据流,**自动丰富每一个事件的上下文**: 1. **历史智能** —— 从您的向量数据库中检索最相似的历史已解决事件,并提取经过验证的修复步骤。 2. **Playbook 路由** —— 语义匹配相应的参考 Playbook,并显示其触发条件和紧急应对措施。 3. **实时威胁情报** —— 使用 Tavily 搜索与此特定事件相关的活跃 CVE、威胁行为者活动和供应商公告。 这三个数据流将由最终的 LLM 合并并综合成一份单一、结构化的分流报告,并直接写回到您的数据库或 SIEM 中。 **生成的输出严格包含:** 1. 执行摘要 2. 警报分析与受影响系统 3. 根因假设与 MITRE ATT&CK 评估 4. 妥协指标 5. 紧急响应检查清单(接下来 30 分钟内) 6. 升级决策 7. 根除与恢复计划 8. 历史上下文与模式智能 9. 威胁情报简报 10. 长期强化建议 11. 文档要求 ## 🧠 项目定位(是何物与非何物) 本仓库旨在完美地做好一件事情。设定正确的期望至关重要。 ### ✅ 本项目是: **一个顾问式的智能层。** 它自动为人类分析师起草一份拥有深度上下文的 Runbook 供其审查。它将数据直接送到分析师面前,为他们节省 30 分钟的搜索时间。 ### ❌ 本项目不是: - **它不是 SOAR 平台:** 它开箱即用时不会主动隔离端点、封禁哈希或拦截 IP。每一项行动都需要人工执行。 - **它不是 BAS( breach & attack simulation, breach & attack simulation)工具:** 它不会模拟攻击。 - **它不是检测工程平台:** 它不会编写 YARA 或 Sigma 规则(尽管这已在我们的[路线图](./docs/roadmap.md)中)。 - **它不会做出自主决策:** 严重性校准和遏制步骤仅作为*建议*提供,而非自动化操作。 ## 🏗️ 工作原理 该系统完全在 [n8n](https://n8n.io) 内部编排,以 6 步 Pipeline 的方式运行: 1. **获取:** 接收事件警报(通过 Webhook 或数据库获取)。 2. **检索(并行):** - 分支 A:通过向量搜索获取历史已解决事件。 - 分支 B:通过向量搜索路由到精确的 Playbook。 - 分支 C:通过 Tavily 网络搜索获取真实世界的威胁情报。 3. **合并:** 合并所有三个数据流。 4. **综合:** LLM(`claude-opus-4.5`)遵循严格的信任层级(Playbook > 历史 > 威胁情报 > LLM 推理)起草 Runbook。 5. **验证:** 结构化输出解析器保证 Runbook 的结构形状,同时逻辑门确保必需字段(如紧急行动)存在。 6. **写入:** 将验证过的 Runbook 输出到目标位置。 👉 **[阅读完整的架构拆解](./docs/architecture.md)** ## 🛠️ 技术栈 | 层级 | 工具 | 详情 | | --------------------- | ------------------------------------------------------------------------------------- | ------------------------------------------------------- | | 编排层 | [n8n](https://n8n.io) | 可自托管,可视化工作流逻辑 | | 向量数据库 | [Supabase](https://supabase.com) + pgvector | 3 张表:Playbook、已解决事件、测试事件 | | 嵌入模型 | [Google AI Studio](https://aistudio.google.com) `models/gemini-embedding-001` | 高保真向量,可实现最大检索准确率 | | 检索代理 | [OpenRouter](https://openrouter.ai) (`anthropic/claude-opus-4.5`) | Playbook 选择 + 历史相似性提取 | | 综合 LLM | [OpenRouter](https://openrouter.ai) (`anthropic/claude-opus-4.5`) | 最终结构化报告生成 | | Playbook 摘要器 | [Google AI Studio](https://aistudio.google.com) (`gemini-3.1-pro-preview`) | 在数据摄入阶段摘要 Markdown Playbook | | 外部威胁情报 | [Tavily Search](https://tavily.com) | 实时 CVE / 威胁行为者 / 公告查询 | ## 📁 仓库内容 ``` Incident Management/ ├── README.md # This file ├── docs/ # Deep-dive documentation: │ ├── quickstart.md # Setup and execution guide │ ├── architecture.md # Data flow and schema contracts │ ├── research.md # Rationale for AI choices │ └── roadmap.md # Future planned extensions ├── Incident Management.json # The core n8n workflow to import ├── supabase_schema_v1.sql # DB setup — run once in Supabase SQL editor ├── Reference Playbooks/ # Pre-written markdown playbooks ├── Resolved Incidents/ # Synthetic historical SOC tickets └── Test Incidents/ # Synthetic incoming alerts to test the pipeline ``` ## 🚀 快速入门 您可以在 10 分钟内让这个 Pipeline 运行起来。 我们提供了一条极其顺畅的执行路径,以便您直接从数据库测试该 Pipeline: 1. **5 分钟演示路径:** 点击“Test workflow”,观察工作流如何为预加载的测试事件生成 Runbook。 👉 **[前往快速入门指南](./docs/quickstart.md)** 配置您的数据库、导入工作流并运行您的第一个事件。 ## 🤝 贡献指南 欢迎来自 SOC 和检测工程社区的贡献。最有价值的贡献包括: - **参考 Playbook** —— 为当前未涵盖的攻击类型添加一个 Markdown Playbook - **已解决事件模式** —— 分享匿名化的事件模板,以改进样本数据集 **贡献方式:** 1. Fork 该仓库 2. 创建一个特性分支 (`git checkout -b feature/your-feature-name`) 3. 进行修改并测试 4. 发起 Pull Request,描述您更改了什么以及为什么更改 ## 📄 许可证 MIT 许可证 —— 详见 `LICENSE` 获取完整条款。 您可以自由地出于商业或非商业目的使用、修改和分发本项目。欢迎注明出处,但非强制要求。
标签:AI智能体, Confluence, IT运维, Jira, LLM, MTTR, n8n, RAG, Ruby, Runbook, SecOps, Slack, Socks5代理, Supabase, Tribal Knowledge, Unmanaged PE, 上下文提取, 事件管理, 云安全架构, 企业安全, 向量数据库, 大模型, 安全运营中心, 工作流自动化, 库, 应急响应, 开源, 故障排查, 检索增强生成, 知识库, 网络安全, 网络映射, 网络调试, 网络资产管理, 自动化, 自动化运维, 认知负荷, 隐私保护