azdabat/-AI-LLM-Autonomous-Systems
GitHub: azdabat/-AI-LLM-Autonomous-Systems
该仓库记录了将 MTDF 方法论应用于 AI/LLM 系统威胁建模、LLM 增强检测工程以及 AI 辅助红蓝队运营的原创安全研究。
Stars: 0 | Forks: 0
# AI 与 LLM 安全研究
### Ala Dabat | 2026 | Minimum Truth Detection Framework 的一部分
## 概述
本仓库记录了在 **AI/LLM 系统**与**检测工程**交叉领域进行的原创安全研究——将支撑 [Minimum Truth Detection Framework](https://azdabat.github.io/Minimum-Truth-Detection-Framework-ADX-Validated-Composite-Rules/index.html) 的同等对抗严谨性应用于一个全新且快速演变的威胁面。
这里的工作涵盖三个相互关联的学科:
**1. AI 系统威胁建模**
将 STRIDE 方法论应用于基于 LLM 和 Agent 的架构——识别由自主性、工具使用、记忆、编排层和 RAG pipeline 引入的风险。这不是理论上的——这里的每个威胁模型都源于我亲自构建和攻击过的系统。
**2. LLM 增强的检测工程**
MTDF Copilot——一个由 Claude (Anthropic API) 和 AnythingLLM 驱动的 Agent 检测工程 pipeline——针对真实的 Empire 遥测数据,生成模式精确的、4 阶段的 KQL 检测规则。该 pipeline 本身就是 AI 系统安全的一个案例研究。
**3. AI 增强的红蓝队运营**
关于 LLM 与进攻性安全工具(Kali Linux 生态系统)以及防御性检测 pipeline 集成的研究——探索 AI 如何加速攻击模拟和检测验证,以及这种加速对安全的影响。
## 仓库结构
```
AI-LLM-Security/
│
├── threat-models/
│ ├── STRIDE_LLM_Agent_Pipeline.md ← STRIDE analysis of agentic pipeline
│ ├── AI_Threat_Classes_Detection_View.md ← 5 AI threat classes, detection lens
│ └── RAG_Pipeline_Attack_Surface.md ← RAG-specific threats and mitigations
│
├── mtdf-copilot/
│ ├── Architecture.md ← Pipeline design and trust boundaries
│ ├── Detection_Factory_Workflow.md ← End-to-end rule generation workflow
│ └── Prompt_Engineering_Doctrine.md ← System prompt design principles
│
├── red-blue-ai/
│ ├── LLM_Kali_Integration_Research.md ← AI-augmented offensive security
│ ├── AI_Purple_Team_Methodology.md ← LLM-assisted purple team operations
│ └── Detection_Validation_Pipeline.md ← Automated detection testing with AI
│
└── receipts/
└── [ADX validation screenshots]
```
## 第 1 部分 — AI 系统威胁建模
### 为什么现在这很重要
企业采用 AI 的速度快于安全框架的适应速度。STRIDE 是为传统软件系统设计的——确定性的、可预测的、可审计的。基于 LLM 的系统引入了在传统应用安全中没有先例的威胁类别:
- **非确定性输出** — 相同的输入在不同运行中产生不同的输出
- **指令与数据混淆** — 模型原生无法区分指令与其处理的数据
- **涌现行为** — 多步骤 Agent 链产生未显式编程且无法完全预测的结果
- **间接攻击面** — 攻击向量通常是系统*读取*的数据,而不是攻击者*输入*的内容
安全行业仍在努力追赶。大多数已发布的 AI 威胁模型都是供应商的白皮书。本仓库记录了源自**我构建和运营过的系统**的威胁模型——植根于运营现实,而非理论框架。
### 应用于 LLM Agent Pipeline 的 STRIDE
MTDF Copilot 是一个 Agent 检测工程系统,具有以下信任边界映射:
```
[User Input]
│
▼
[AnythingLLM Orchestrator] ──► [Vector DB / RAG Engine]
│ │
│ [Embedded Documents]
│ - Telemetry files (attack data)
│ - Skeleton templates
│ - Framework knowledge base
▼
[Anthropic Claude API] ──► [KQL Rule Output]
│
[External Network Boundary]
```
**在每个边界识别出的关键威胁:**
| 边界 | 最高风险威胁 | 类别 | 缓解措施 |
|----------|-------------------|-------|-----------|
| 用户 → 编排器 | System prompt 覆盖 | 欺骗 / 篡改 | Prompt 加固,输出验证 |
| 文档 → RAG | **间接 Prompt 注入** | 篡改 | 在 embedding 前进行输入净化 |
| RAG → 模型上下文 | RAG 投毒 | 篡改 | 文档来源验证 |
| 编排器 → API | 敏感数据渗出 | 信息泄露 | 绝不嵌入真实的生产遥测数据 |
| API → 输出 | 恶意 KQL 生成 | 篡改 | 部署前进行人工审查 |
| 工具执行 | 意外的 Agent 操作 | 权限提升 | 最小权限工具访问 |
**完整的 STRIDE 分析:** [STRIDE_LLM_Agent_Pipeline.md](./threat-models/STRIDE_LLM_Agent_Pipeline.md)
### 五大 AI 专属威胁类别
| 类别 | 描述 | 检测视角 |
|-------|-------------|----------------|
| **Prompt 注入** | 攻击者控制的输入覆盖了模型指令 | 监控数据输入中的指令模式;异常的输出格式偏差 |
| **模型滥用** | 越狱、能力提取、有害输出生成 | 输出内容分类;对异常查询模式进行速率限制 |
| **数据泄露** | System prompt 提取、训练数据记忆、跨会话泄露 | 对已知敏感字符串进行输出过滤;会话隔离监控 |
| **不安全的工具执行** | 被操纵的输入触发危险的工具调用 | 工具调用审计日志;针对不可逆操作引入 Human-in-the-loop |
| **涌现的 Agent 行为** | 多步骤链产生意外结果 | Agent 操作范围限制;推理链审计跟踪 |
**包含检测工程视角的完整分析:** [AI_Threat_Classes_Detection_View.md](./threat-models/AI_Threat_Classes_Detection_View.md)
## 第 2 部分 — MTDF Copilot
### 它是什么
一个生成 KQL 检测规则的 Agent pipeline,它接收 MITRE 技术 prompt,并遵循 Minimum Truth Detection Framework 原则生成模式精确的、4 阶段的检测规则。
**架构:**
- **引擎:** 通过 AnythingLLM 使用 Claude Sonnet (Anthropic API)
- **知识库:** Framework README、骨架模板、MDE/Sentinel schema 参考
- **遥测数据:** Empire C2 框架攻击数据,按检测面划分
- **输出:** 适用于 Microsoft Defender XDR 和 Microsoft Sentinel 的生产候选 KQL 规则
### 首个经验证的输出 — T1003.001
**技术:** OS Credential Dumping:通过 comsvcs.dll MiniDump 进行 LSASS Memory 转储
**锚定策略:** 意图优先 — rundll32.exe 无处不在;恶意的原语是命令行中针对 lsass 的显式 `MiniDump` 导出调用。
**关键的工程决策:**
- 双重原语覆盖:命名的导出 (`MiniDump`) 与序号形式 (`#24`) — 捕获故意的混淆
- Sentinel 变体处理双重摄入路径:SecurityEvent EID 4688(原生审计)和 WindowsEvent Sysmon EID 1 — 并记录了文档化的字段可用性差异
- `IsElevatedSession` 在 Sentinel 变体中故意缺失 — SecurityEvent 原生不暴露完整性级别;`IsOrdinalForm` (+15) 填补了评分空白
- 计算并记录了最小触发路径:基础 55 + IsElevatedSession 15 + IsSuspectOutputPath 10 = 80 ≥ 75
**规则文件:**
- [T1003.001_rundll32_comsvcs_MDE.kql](./rules/credential-access/T1003.001_rundll32_comsvcs_MDE.kql)
- [T1003.001_rundll32_comsvcs_Sentinel.kql](./rules/credential-access/T1003.001_rundll32_comsvcs_Sentinel.kql)
## 第 3 部分 — AI 增强的红蓝队运营
### 愿景
LLM 与进攻性安全工具的融合,既是现代安全运营中最重大的能力倍增器,也是最重大的风险放大器。
**在进攻方:**
与 Kali Linux 工具集成的 LLM 可以加速:
- 攻击路径生成和假设形成
- 自动化漏洞利用链文档编写
- 自然语言到命令的转换(侦察 → 漏洞利用 → 后渗透)
- 根据威胁情报生成紫队场景
**在防御方:**
与检测 pipeline 集成的 LLM 可以加速:
- 从遥测数据生成检测规则(MTDF Copilot)
- 告警分诊和上下文丰富
- 威胁狩猎假设生成
- 事件时间线重建
**安全悖论:**
使 AI 增强的红队更快的同样能力,也会使 AI 增强的攻击者更快。了解双方是建立可靠防御的唯一途径。
### 研究方向 — LLM + Kali 集成
**第 1 阶段 — 已记录(进行中):**
- LLM 辅助的侦察自动化
- 自然语言到 Nmap/Metasploit/Burp 命令的转换
- 针对紫队场景的 AI 生成的攻击路径文档
- 基于目标环境配置文件的自动化 Empire 模块选择
**第 2 阶段 — 已计划:**
- 闭环紫队 pipeline:LLM 生成攻击 → 在实验室执行 → 触发检测 → LLM 分析差距 → 生成同类规则
- AI 辅助的 MITRE ATT&CK 覆盖盲区分析
- 针对检测规则集进行 LLM 驱动的威胁模拟
**第 3 阶段 — 研究视野:**
- 结合检测反馈回路的自主对手模拟
- 用于规避测试的基于 LLM 的变体生成
- 通过自动化攻击模拟进行 AI 威胁模型验证
### AI 增强进攻性工具的安全影响
这不仅仅是一个能力问题——它是一个威胁模型问题。
当 LLM 与进攻性工具集成时,会出现新的风险:
**进攻性 pipeline 中的 Prompt 注入** — 如果 AI 增强的红队工具处理目标系统输出(Banner 抓取、错误消息、Web 响应),这些输出可能包含旨在操纵 AI 下一步操作的 Prompt 注入 payload。
**能力放大** — 技能较低的攻击者在 AI 的协助下,可以执行以前需要高级专业知识才能执行的攻击。防御者关于“攻击复杂性意味着高级对手”的假设不再成立。
**归因复杂性** — AI 生成的攻击模式可能与已知的威胁行为者 TTP 不匹配,从而使归因复杂化,并可能规避基于威胁情报的检测。
**检测影响** — 基于人类攻击者模式构建的传统行为检测,可能需要对 AI 辅助的攻击速度和时序进行建模,这与手动操作有所不同。
## 研究理念
这项工作处于 MTDF 三个原则的交汇处:
**Minimum Truth 同样适用于 AI 系统。**
每个 AI 威胁都有一个不可简化的条件,该条件必须成立,威胁才是真实的。Prompt 注入要求模型混淆指令和数据。不安全的工具执行要求 Agent 拥有超出其范围的能力。从 Minimum Truth 开始。其他一切都是强化。
**规则即传感器。事件即叙述。**
AI 安全检测应该是独立的表面传感器——每个威胁类别对应一条规则,并在事件层进行关联。一个试图捕获所有内容的单体“AI 安全”检测,最终什么也抓不住。
**基于对手视角的工程。**
你无法为尚未从攻击者角度建模的威胁构建防御。本仓库中的每一个检测都是由了解攻击是如何构建的人所构建的。
## 状态
| 研究领域 | 状态 |
|--------------|--------|
| STRIDE — LLM Agent Pipeline | 🟡 进行中 |
| AI 威胁类别 — 检测视角 | 🟡 进行中 |
| MTDF Copilot — 架构 | ✅ 完成 |
| MTDF Copilot — 首个规则 (T1003.001) | ✅ 生产候选 |
| LLM + Kali 集成 — 第 1 阶段 | 🔴 已计划 |
| 紫队 AI Pipeline | 🔴 已计划 |
| 自主检测验证 | 🔴 已计划 |
## 署名与许可
所有原创研究和检测逻辑:**Ala Dabat (2026)**
采用 [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/) 许可
要求署名 · 非商业性使用 · 相同方式共享
[Minimum Truth Detection Framework](https://github.com/azdabat/Minimum-Truth-Detection-Framework-ADX-Validated-Composite-Rules) 的一部分
*“AI 安全的 Minimum Truth 是:模型无法区分指令和数据。其他一切——Prompt 注入、RAG 投毒、涌现行为、不安全的工具执行——都是对这一单一架构现实的强化。”*
*— Ala Dabat,2026*
标签:DLL 劫持, 人工智能安全, 合规性, 大语言模型, 威胁建模