RussBucket1/ai-detection-platform
GitHub: RussBucket1/ai-detection-platform
基于AI的安全检测工程平台,整合IOC多源扩充、LLM驱动的SIGMA规则自动生成和RAG警报分诊等模块,实现从原始威胁情报到可部署检测规则的端到端工作流。
Stars: 0 | Forks: 0
# AI 检测工程平台
一系列生产级安全工具的组合,展示了 AI 增强的检测工程能力。每个模块都是一个独立、可部署的系统,同时也可与其他模块集成,形成端到端的检测工作流——从原始威胁情报到经过验证的检测规则,再到分诊警报。
## 平台概述
```
Threat Intelligence Detection Authoring Alert Operations
───────────────────── ─────────────────── ────────────────
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ Module 01 │ │ Module 02 │ │ Module 03 │
│ IOC Enrichment │─────────▶│ SIGMA Rule │───────▶│ RAG Triage │
│ Pipeline │ scored │ Generator │ rules │ Assistant │
└─────────────────┘ IOCs └─────────────────┘ └─────────────────┘
│
┌─────────────────┐ ┌─────────────────┐ │ alerts
│ Module 05 │ │ Module 04 │◀───────────────┘
│ AI Threat │ │ ML Anomaly │
│ Model Generator│ │ Detection │
└─────────────────┘ └─────────────────┘
```
## 模块
### 模块 01 — IOC 扩充管道
**状态:已完成**
一个异步管道,通过并行查询五个威胁情报 API 来扩充失陷指标(IP、域名、文件哈希、URL)。应用加权评分模型生成 0-100 的风险评分,具有可解释的单项特征贡献度以及 MITRE ATT&CK 技术映射。
**核心能力:**
- 通过 `asyncio.gather()` 进行并发扩充,支持按提供商配置速率限制与重试/退避机制
- 5 个提供商:VirusTotal、AbuseIPDB、Shodan、AlienVault OTX、URLScan.io
- 跨 6 个特征维度的加权风险评分,包含置信度区间(CRITICAL / HIGH / MEDIUM / LOW / INFO)
- 基于聚合的提供商标签进行 MITRE ATT&CK 技术映射
- 支持 JSON、NDJSON(Elastic Common Schema)、CSV 或 Rich 终端表格格式输出
- 还原混淆:自动处理 `[.]`、`hxxp`、`[at]` 等模式
**技术栈:** Python 3.11+、asyncio、aiohttp、Pydantic v2、structlog、Click、Rich
```
cd 01-ioc-enrichment-pipeline
pip install -e .
ioc-enricher enrich --ioc 198.51.100.1
ioc-enricher enrich --input-file iocs.txt --output-format ndjson
```
[完整文档 →](01-ioc-enrichment-pipeline/README.md)
### 模块 02 — SIGMA 规则生成器
**状态:已完成**
一个由 LLM 驱动的工具,可将非结构化威胁情报(威胁报告、CVE 描述、IOC 列表、原始日志片段)转换为经过验证的生产级 SIGMA 检测规则。使用 Claude 生成包含 MITRE ATT&CK 映射、误报指导和置信度评分及其理由的检测逻辑。
**核心能力:**
- 根据内容模式自动检测输入类型(威胁报告、CVE、IOC 列表、日志片段)
- 根据复杂度和范围,每个输入生成 1-3 个 SIGMA 规则
- 在写入文件之前,根据 SIGMA 规范验证输出
- 置信度评分(0-100%),带有 LLM 生成的每个规则的理由说明
- 兼容 pySigma 的 YAML 输出,可直接导入 SIEM
- 批量处理模式,用于处理威胁报告目录
**技术栈:** Python 3.11+、Anthropic SDK (claude-sonnet-4-6)、Pydantic v2、Jinja2、ruamel.yaml、structlog、Click、Rich
```
cd 02-sigma-rule-generator
pip install -e .
sigma-generator generate --text "Mimikatz credential dumping via sekurlsa::logonpasswords"
sigma-generator generate --input examples/threat_reports/cobalt_strike.txt --format both
sigma-generator batch --input-dir examples/threat_reports/ --output-dir ./output/
```
[完整文档 →](02-sigma-rule-generator/README.md)
### 模块 03 — RAG 分诊助手
**状态:计划中**
一个由 LLM 驱动并带有检索增强生成的警报分诊助手。引入 SIGMA 规则(来自模块 02)和威胁情报报告作为上下文,然后回答分析师关于活动警报的问题——解释警报触发的原因、可能的攻击路径以及下一步该调查什么。
### 模块 04 — ML 异常检测
**状态:计划中**
针对网络和端点遥测数据的无监督行为异常检测。在正常行为上训练基线模型,并将统计异常值标记出来供分析师审查,将高置信度异常馈送到模块 03 的分诊工作流中。
### 模块 05 — AI 威胁模型生成器
**状态:计划中**
根据架构图和服务描述生成 STRIDE/MITRE ATT&CK 威胁模型。输出按优先级排序的攻击路径列表,并映射与模块 02 中 SIGMA 规则相对应的检测覆盖缺口。
## 模块间如何连接
| 数据流 | 源 | 目标 | 传输内容 |
|-----------|--------|-------------|------------|
| 扩充后的 IOC → 规则上下文 | 模块 01 | 模块 02 | 将高风险 IOC 作为规则生成的输入 |
| SIGMA 规则 → 分诊上下文 | 模块 02 | 模块 03 | 生成的 `.yml` 规则加载到 RAG 向量存储中 |
| 异常警报 → 分诊队列 | 模块 04 | 模块 03 | 将评分后的异常提交给 LLM 辅助分诊 |
| 威胁模型缺口 → 规则 | 模块 05 | 模块 02 | 将未覆盖的攻击路径用作规则生成提示词 |
## 共享基础设施
[shared/](shared/) 目录包含跨模块使用的模型和实用工具:
- `shared/models/` — 通用数据类型(IOC、alert、finding)
- `shared/utils/` — 跨模块辅助工具
## 密钥管理
每个模块从已添加到 `.gitignore` 的本地文件中加载密钥。切勿在配置文件中硬编码 API 密钥。
| 模块 | 密钥文件 | 关键变量 |
|--------|-------------|---------------|
| 01 | `config/secrets.pem` | `VT_API_KEY`、`ABUSEIPDB_API_KEY`、`SHODAN_API_KEY`、`OTX_API_KEY`、`URLSCAN_API_KEY` |
| 02 | `.env` | `ANTHROPIC_API_KEY` |
Shell 环境变量的优先级始终高于基于文件的密钥。
## 技术栈
| 层级 | 选择 | 原因 |
|-------|--------|--------|
| 语言 | Python 3.11+ | 异步支持,丰富的 ML/安全生态系统 |
| 数据模型 | Pydantic v2 | 运行时验证、序列化、IDE 支持 |
| 异步 I/O | asyncio + aiohttp | 无线程开销的并发提供商调用 |
| LLM | Anthropic Claude (claude-sonnet-4-6) | 用于安全分析的一流推理能力 |
| 日志记录 | structlog | JSON 结构化日志,兼容 SIEM 摄取 |
| CLI | Click + Rich | 可组合的命令,可读性强的终端输出 |
| 测试 | pytest + pytest-asyncio | 异步测试支持,完整的 API 模拟 |
| 配置 | YAML + 环境变量覆盖 | 十二要素应用模式,YAML 中不含密钥 |
## 作品集背景
本平台展示了与**检测工程**、**安全数据工程**和**AI/ML 安全**职位相关的技能:
- **检测工程**:SIGMA 规则编写、MITRE ATT&CK 映射、误报分析、SIEM 集成
- **威胁情报**:多源 IOC 扩充、风险评分、指标生命周期管理
- **AI 工程**:面向结构化输出的 LLM 提示词工程、RAG 系统设计、置信度评分
- **生产级 Python**:异步优先设计、Pydantic v2、structlog、重试/退避、速率限制、完整测试覆盖
- **安全架构**:密钥管理、关注点分离、可组合的工具设计
标签:AI安全, Apex, Chat Copilot, DLL 劫持, IOC富集, IP 地址批量处理, RAG, SecOps, SIGMA规则, SOAR, 云安全架构, 人工智能, 告警分诊, 大语言模型, 威胁建模, 威胁情报, 安全规则引擎, 安全运营, 开发者工具, 异常检测, 扫描框架, 机器学习, 检索增强生成, 用户模式Hook绕过, 网络安全, 自动化防御, 规则生成, 计算机取证, 隐私保护