RussBucket1/ai-detection-platform

GitHub: RussBucket1/ai-detection-platform

基于AI的安全检测工程平台,整合IOC多源扩充、LLM驱动的SIGMA规则自动生成和RAG警报分诊等模块,实现从原始威胁情报到可部署检测规则的端到端工作流。

Stars: 0 | Forks: 0

# AI 检测工程平台 一系列生产级安全工具的组合,展示了 AI 增强的检测工程能力。每个模块都是一个独立、可部署的系统,同时也可与其他模块集成,形成端到端的检测工作流——从原始威胁情报到经过验证的检测规则,再到分诊警报。 ## 平台概述 ``` Threat Intelligence Detection Authoring Alert Operations ───────────────────── ─────────────────── ──────────────── ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │ Module 01 │ │ Module 02 │ │ Module 03 │ │ IOC Enrichment │─────────▶│ SIGMA Rule │───────▶│ RAG Triage │ │ Pipeline │ scored │ Generator │ rules │ Assistant │ └─────────────────┘ IOCs └─────────────────┘ └─────────────────┘ │ ┌─────────────────┐ ┌─────────────────┐ │ alerts │ Module 05 │ │ Module 04 │◀───────────────┘ │ AI Threat │ │ ML Anomaly │ │ Model Generator│ │ Detection │ └─────────────────┘ └─────────────────┘ ``` ## 模块 ### 模块 01 — IOC 扩充管道 **状态:已完成** 一个异步管道,通过并行查询五个威胁情报 API 来扩充失陷指标(IP、域名、文件哈希、URL)。应用加权评分模型生成 0-100 的风险评分,具有可解释的单项特征贡献度以及 MITRE ATT&CK 技术映射。 **核心能力:** - 通过 `asyncio.gather()` 进行并发扩充,支持按提供商配置速率限制与重试/退避机制 - 5 个提供商:VirusTotal、AbuseIPDB、Shodan、AlienVault OTX、URLScan.io - 跨 6 个特征维度的加权风险评分,包含置信度区间(CRITICAL / HIGH / MEDIUM / LOW / INFO) - 基于聚合的提供商标签进行 MITRE ATT&CK 技术映射 - 支持 JSON、NDJSON(Elastic Common Schema)、CSV 或 Rich 终端表格格式输出 - 还原混淆:自动处理 `[.]`、`hxxp`、`[at]` 等模式 **技术栈:** Python 3.11+、asyncio、aiohttp、Pydantic v2、structlog、Click、Rich ``` cd 01-ioc-enrichment-pipeline pip install -e . ioc-enricher enrich --ioc 198.51.100.1 ioc-enricher enrich --input-file iocs.txt --output-format ndjson ``` [完整文档 →](01-ioc-enrichment-pipeline/README.md) ### 模块 02 — SIGMA 规则生成器 **状态:已完成** 一个由 LLM 驱动的工具,可将非结构化威胁情报(威胁报告、CVE 描述、IOC 列表、原始日志片段)转换为经过验证的生产级 SIGMA 检测规则。使用 Claude 生成包含 MITRE ATT&CK 映射、误报指导和置信度评分及其理由的检测逻辑。 **核心能力:** - 根据内容模式自动检测输入类型(威胁报告、CVE、IOC 列表、日志片段) - 根据复杂度和范围,每个输入生成 1-3 个 SIGMA 规则 - 在写入文件之前,根据 SIGMA 规范验证输出 - 置信度评分(0-100%),带有 LLM 生成的每个规则的理由说明 - 兼容 pySigma 的 YAML 输出,可直接导入 SIEM - 批量处理模式,用于处理威胁报告目录 **技术栈:** Python 3.11+、Anthropic SDK (claude-sonnet-4-6)、Pydantic v2、Jinja2、ruamel.yaml、structlog、Click、Rich ``` cd 02-sigma-rule-generator pip install -e . sigma-generator generate --text "Mimikatz credential dumping via sekurlsa::logonpasswords" sigma-generator generate --input examples/threat_reports/cobalt_strike.txt --format both sigma-generator batch --input-dir examples/threat_reports/ --output-dir ./output/ ``` [完整文档 →](02-sigma-rule-generator/README.md) ### 模块 03 — RAG 分诊助手 **状态:计划中** 一个由 LLM 驱动并带有检索增强生成的警报分诊助手。引入 SIGMA 规则(来自模块 02)和威胁情报报告作为上下文,然后回答分析师关于活动警报的问题——解释警报触发的原因、可能的攻击路径以及下一步该调查什么。 ### 模块 04 — ML 异常检测 **状态:计划中** 针对网络和端点遥测数据的无监督行为异常检测。在正常行为上训练基线模型,并将统计异常值标记出来供分析师审查,将高置信度异常馈送到模块 03 的分诊工作流中。 ### 模块 05 — AI 威胁模型生成器 **状态:计划中** 根据架构图和服务描述生成 STRIDE/MITRE ATT&CK 威胁模型。输出按优先级排序的攻击路径列表,并映射与模块 02 中 SIGMA 规则相对应的检测覆盖缺口。 ## 模块间如何连接 | 数据流 | 源 | 目标 | 传输内容 | |-----------|--------|-------------|------------| | 扩充后的 IOC → 规则上下文 | 模块 01 | 模块 02 | 将高风险 IOC 作为规则生成的输入 | | SIGMA 规则 → 分诊上下文 | 模块 02 | 模块 03 | 生成的 `.yml` 规则加载到 RAG 向量存储中 | | 异常警报 → 分诊队列 | 模块 04 | 模块 03 | 将评分后的异常提交给 LLM 辅助分诊 | | 威胁模型缺口 → 规则 | 模块 05 | 模块 02 | 将未覆盖的攻击路径用作规则生成提示词 | ## 共享基础设施 [shared/](shared/) 目录包含跨模块使用的模型和实用工具: - `shared/models/` — 通用数据类型(IOC、alert、finding) - `shared/utils/` — 跨模块辅助工具 ## 密钥管理 每个模块从已添加到 `.gitignore` 的本地文件中加载密钥。切勿在配置文件中硬编码 API 密钥。 | 模块 | 密钥文件 | 关键变量 | |--------|-------------|---------------| | 01 | `config/secrets.pem` | `VT_API_KEY`、`ABUSEIPDB_API_KEY`、`SHODAN_API_KEY`、`OTX_API_KEY`、`URLSCAN_API_KEY` | | 02 | `.env` | `ANTHROPIC_API_KEY` | Shell 环境变量的优先级始终高于基于文件的密钥。 ## 技术栈 | 层级 | 选择 | 原因 | |-------|--------|--------| | 语言 | Python 3.11+ | 异步支持,丰富的 ML/安全生态系统 | | 数据模型 | Pydantic v2 | 运行时验证、序列化、IDE 支持 | | 异步 I/O | asyncio + aiohttp | 无线程开销的并发提供商调用 | | LLM | Anthropic Claude (claude-sonnet-4-6) | 用于安全分析的一流推理能力 | | 日志记录 | structlog | JSON 结构化日志,兼容 SIEM 摄取 | | CLI | Click + Rich | 可组合的命令,可读性强的终端输出 | | 测试 | pytest + pytest-asyncio | 异步测试支持,完整的 API 模拟 | | 配置 | YAML + 环境变量覆盖 | 十二要素应用模式,YAML 中不含密钥 | ## 作品集背景 本平台展示了与**检测工程**、**安全数据工程**和**AI/ML 安全**职位相关的技能: - **检测工程**:SIGMA 规则编写、MITRE ATT&CK 映射、误报分析、SIEM 集成 - **威胁情报**:多源 IOC 扩充、风险评分、指标生命周期管理 - **AI 工程**:面向结构化输出的 LLM 提示词工程、RAG 系统设计、置信度评分 - **生产级 Python**:异步优先设计、Pydantic v2、structlog、重试/退避、速率限制、完整测试覆盖 - **安全架构**:密钥管理、关注点分离、可组合的工具设计
标签:AI安全, Apex, Chat Copilot, DLL 劫持, IOC富集, IP 地址批量处理, RAG, SecOps, SIGMA规则, SOAR, 云安全架构, 人工智能, 告警分诊, 大语言模型, 威胁建模, 威胁情报, 安全规则引擎, 安全运营, 开发者工具, 异常检测, 扫描框架, 机器学习, 检索增强生成, 用户模式Hook绕过, 网络安全, 自动化防御, 规则生成, 计算机取证, 隐私保护