RussBucket1/ai-detection-platform

GitHub: RussBucket1/ai-detection-platform

基于AI的安全检测工程平台，整合IOC多源扩充、LLM驱动的SIGMA规则自动生成和RAG警报分诊等模块，实现从原始威胁情报到可部署检测规则的端到端工作流。

Stars: 0 | Forks: 0

# AI 检测工程平台一系列生产级安全工具的组合，展示了 AI 增强的检测工程能力。每个模块都是一个独立、可部署的系统，同时也可与其他模块集成，形成端到端的检测工作流——从原始威胁情报到经过验证的检测规则，再到分诊警报。 ## 平台概述 ``` Threat Intelligence Detection Authoring Alert Operations ───────────────────── ─────────────────── ──────────────── ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │ Module 01 │ │ Module 02 │ │ Module 03 │ │ IOC Enrichment │─────────▶│ SIGMA Rule │───────▶│ RAG Triage │ │ Pipeline │ scored │ Generator │ rules │ Assistant │ └─────────────────┘ IOCs └─────────────────┘ └─────────────────┘ │ ┌─────────────────┐ ┌─────────────────┐ │ alerts │ Module 05 │ │ Module 04 │◀───────────────┘ │ AI Threat │ │ ML Anomaly │ │ Model Generator│ │ Detection │ └─────────────────┘ └─────────────────┘ ``` ## 模块 ### 模块 01 — IOC 扩充管道 **状态：已完成** 一个异步管道，通过并行查询五个威胁情报 API 来扩充失陷指标（IP、域名、文件哈希、URL）。应用加权评分模型生成 0-100 的风险评分，具有可解释的单项特征贡献度以及 MITRE ATT&CK 技术映射。 **核心能力：** - 通过 `asyncio.gather()` 进行并发扩充，支持按提供商配置速率限制与重试/退避机制 - 5 个提供商：VirusTotal、AbuseIPDB、Shodan、AlienVault OTX、URLScan.io - 跨 6 个特征维度的加权风险评分，包含置信度区间（CRITICAL / HIGH / MEDIUM / LOW / INFO） - 基于聚合的提供商标签进行 MITRE ATT&CK 技术映射 - 支持 JSON、NDJSON（Elastic Common Schema）、CSV 或 Rich 终端表格格式输出 - 还原混淆：自动处理 `[.]`、`hxxp`、`[at]` 等模式 **技术栈：** Python 3.11+、asyncio、aiohttp、Pydantic v2、structlog、Click、Rich ``` cd 01-ioc-enrichment-pipeline pip install -e . ioc-enricher enrich --ioc 198.51.100.1 ioc-enricher enrich --input-file iocs.txt --output-format ndjson ``` [完整文档 →](01-ioc-enrichment-pipeline/README.md) ### 模块 02 — SIGMA 规则生成器 **状态：已完成** 一个由 LLM 驱动的工具，可将非结构化威胁情报（威胁报告、CVE 描述、IOC 列表、原始日志片段）转换为经过验证的生产级 SIGMA 检测规则。使用 Claude 生成包含 MITRE ATT&CK 映射、误报指导和置信度评分及其理由的检测逻辑。 **核心能力：** - 根据内容模式自动检测输入类型（威胁报告、CVE、IOC 列表、日志片段） - 根据复杂度和范围，每个输入生成 1-3 个 SIGMA 规则 - 在写入文件之前，根据 SIGMA 规范验证输出 - 置信度评分（0-100%），带有 LLM 生成的每个规则的理由说明 - 兼容 pySigma 的 YAML 输出，可直接导入 SIEM - 批量处理模式，用于处理威胁报告目录 **技术栈：** Python 3.11+、Anthropic SDK (claude-sonnet-4-6)、Pydantic v2、Jinja2、ruamel.yaml、structlog、Click、Rich ``` cd 02-sigma-rule-generator pip install -e . sigma-generator generate --text "Mimikatz credential dumping via sekurlsa::logonpasswords" sigma-generator generate --input examples/threat_reports/cobalt_strike.txt --format both sigma-generator batch --input-dir examples/threat_reports/ --output-dir ./output/ ``` [完整文档 →](02-sigma-rule-generator/README.md) ### 模块 03 — RAG 分诊助手 **状态：计划中** 一个由 LLM 驱动并带有检索增强生成的警报分诊助手。引入 SIGMA 规则（来自模块 02）和威胁情报报告作为上下文，然后回答分析师关于活动警报的问题——解释警报触发的原因、可能的攻击路径以及下一步该调查什么。 ### 模块 04 — ML 异常检测 **状态：计划中** 针对网络和端点遥测数据的无监督行为异常检测。在正常行为上训练基线模型，并将统计异常值标记出来供分析师审查，将高置信度异常馈送到模块 03 的分诊工作流中。 ### 模块 05 — AI 威胁模型生成器 **状态：计划中** 根据架构图和服务描述生成 STRIDE/MITRE ATT&CK 威胁模型。输出按优先级排序的攻击路径列表，并映射与模块 02 中 SIGMA 规则相对应的检测覆盖缺口。 ## 模块间如何连接 | 数据流 | 源 | 目标 | 传输内容 | |-----------|--------|-------------|------------| | 扩充后的 IOC → 规则上下文 | 模块 01 | 模块 02 | 将高风险 IOC 作为规则生成的输入 | | SIGMA 规则 → 分诊上下文 | 模块 02 | 模块 03 | 生成的 `.yml` 规则加载到 RAG 向量存储中 | | 异常警报 → 分诊队列 | 模块 04 | 模块 03 | 将评分后的异常提交给 LLM 辅助分诊 | | 威胁模型缺口 → 规则 | 模块 05 | 模块 02 | 将未覆盖的攻击路径用作规则生成提示词 | ## 共享基础设施 [shared/](shared/) 目录包含跨模块使用的模型和实用工具： - `shared/models/` — 通用数据类型（IOC、alert、finding） - `shared/utils/` — 跨模块辅助工具 ## 密钥管理每个模块从已添加到 `.gitignore` 的本地文件中加载密钥。切勿在配置文件中硬编码 API 密钥。 | 模块 | 密钥文件 | 关键变量 | |--------|-------------|---------------| | 01 | `config/secrets.pem` | `VT_API_KEY`、`ABUSEIPDB_API_KEY`、`SHODAN_API_KEY`、`OTX_API_KEY`、`URLSCAN_API_KEY` | | 02 | `.env` | `ANTHROPIC_API_KEY` | Shell 环境变量的优先级始终高于基于文件的密钥。 ## 技术栈 | 层级 | 选择 | 原因 | |-------|--------|--------| | 语言 | Python 3.11+ | 异步支持，丰富的 ML/安全生态系统 | | 数据模型 | Pydantic v2 | 运行时验证、序列化、IDE 支持 | | 异步 I/O | asyncio + aiohttp | 无线程开销的并发提供商调用 | | LLM | Anthropic Claude (claude-sonnet-4-6) | 用于安全分析的一流推理能力 | | 日志记录 | structlog | JSON 结构化日志，兼容 SIEM 摄取 | | CLI | Click + Rich | 可组合的命令，可读性强的终端输出 | | 测试 | pytest + pytest-asyncio | 异步测试支持，完整的 API 模拟 | | 配置 | YAML + 环境变量覆盖 | 十二要素应用模式，YAML 中不含密钥 | ## 作品集背景本平台展示了与**检测工程**、**安全数据工程**和**AI/ML 安全**职位相关的技能： - **检测工程**：SIGMA 规则编写、MITRE ATT&CK 映射、误报分析、SIEM 集成 - **威胁情报**：多源 IOC 扩充、风险评分、指标生命周期管理 - **AI 工程**：面向结构化输出的 LLM 提示词工程、RAG 系统设计、置信度评分 - **生产级 Python**：异步优先设计、Pydantic v2、structlog、重试/退避、速率限制、完整测试覆盖 - **安全架构**：密钥管理、关注点分离、可组合的工具设计

标签：AI安全, Apex, Chat Copilot, DLL 劫持, IOC富集, IP 地址批量处理, RAG, SecOps, SIGMA规则, SOAR, 云安全架构, 人工智能, 告警分诊, 大语言模型, 威胁建模, 威胁情报, 安全规则引擎, 安全运营, 开发者工具, 异常检测, 扫描框架, 机器学习, 检索增强生成, 用户模式Hook绕过, 网络安全, 自动化防御, 规则生成, 计算机取证, 隐私保护