azdabat/-AI-LLM-Autonomous-Systems

GitHub: azdabat/-AI-LLM-Autonomous-Systems

该仓库记录了将 MTDF 方法论应用于 AI/LLM 系统威胁建模、LLM 增强检测工程以及 AI 辅助红蓝队运营的原创安全研究。

Stars: 0 | Forks: 0

# AI 与 LLM 安全研究 ### Ala Dabat | 2026 | Minimum Truth Detection Framework 的一部分 ## 概述本仓库记录了在 **AI/LLM 系统**与**检测工程**交叉领域进行的原创安全研究——将支撑 [Minimum Truth Detection Framework](https://azdabat.github.io/Minimum-Truth-Detection-Framework-ADX-Validated-Composite-Rules/index.html) 的同等对抗严谨性应用于一个全新且快速演变的威胁面。这里的工作涵盖三个相互关联的学科： **1. AI 系统威胁建模** 将 STRIDE 方法论应用于基于 LLM 和 Agent 的架构——识别由自主性、工具使用、记忆、编排层和 RAG pipeline 引入的风险。这不是理论上的——这里的每个威胁模型都源于我亲自构建和攻击过的系统。 **2. LLM 增强的检测工程** MTDF Copilot——一个由 Claude (Anthropic API) 和 AnythingLLM 驱动的 Agent 检测工程 pipeline——针对真实的 Empire 遥测数据，生成模式精确的、4 阶段的 KQL 检测规则。该 pipeline 本身就是 AI 系统安全的一个案例研究。 **3. AI 增强的红蓝队运营** 关于 LLM 与进攻性安全工具（Kali Linux 生态系统）以及防御性检测 pipeline 集成的研究——探索 AI 如何加速攻击模拟和检测验证，以及这种加速对安全的影响。 ## 仓库结构 ``` AI-LLM-Security/ │ ├── threat-models/ │ ├── STRIDE_LLM_Agent_Pipeline.md ← STRIDE analysis of agentic pipeline │ ├── AI_Threat_Classes_Detection_View.md ← 5 AI threat classes, detection lens │ └── RAG_Pipeline_Attack_Surface.md ← RAG-specific threats and mitigations │ ├── mtdf-copilot/ │ ├── Architecture.md ← Pipeline design and trust boundaries │ ├── Detection_Factory_Workflow.md ← End-to-end rule generation workflow │ └── Prompt_Engineering_Doctrine.md ← System prompt design principles │ ├── red-blue-ai/ │ ├── LLM_Kali_Integration_Research.md ← AI-augmented offensive security │ ├── AI_Purple_Team_Methodology.md ← LLM-assisted purple team operations │ └── Detection_Validation_Pipeline.md ← Automated detection testing with AI │ └── receipts/ └── [ADX validation screenshots] ``` ## 第 1 部分 — AI 系统威胁建模 ### 为什么现在这很重要企业采用 AI 的速度快于安全框架的适应速度。STRIDE 是为传统软件系统设计的——确定性的、可预测的、可审计的。基于 LLM 的系统引入了在传统应用安全中没有先例的威胁类别： - **非确定性输出** — 相同的输入在不同运行中产生不同的输出 - **指令与数据混淆** — 模型原生无法区分指令与其处理的数据 - **涌现行为** — 多步骤 Agent 链产生未显式编程且无法完全预测的结果 - **间接攻击面** — 攻击向量通常是系统*读取*的数据，而不是攻击者*输入*的内容安全行业仍在努力追赶。大多数已发布的 AI 威胁模型都是供应商的白皮书。本仓库记录了源自**我构建和运营过的系统**的威胁模型——植根于运营现实，而非理论框架。 ### 应用于 LLM Agent Pipeline 的 STRIDE MTDF Copilot 是一个 Agent 检测工程系统，具有以下信任边界映射： ``` [User Input] │ ▼ [AnythingLLM Orchestrator] ──► [Vector DB / RAG Engine] │ │ │ [Embedded Documents] │ - Telemetry files (attack data) │ - Skeleton templates │ - Framework knowledge base ▼ [Anthropic Claude API] ──► [KQL Rule Output] │ [External Network Boundary] ``` **在每个边界识别出的关键威胁：** | 边界 | 最高风险威胁 | 类别 | 缓解措施 | |----------|-------------------|-------|-----------| | 用户 → 编排器 | System prompt 覆盖 | 欺骗 / 篡改 | Prompt 加固，输出验证 | | 文档 → RAG | **间接 Prompt 注入** | 篡改 | 在 embedding 前进行输入净化 | | RAG → 模型上下文 | RAG 投毒 | 篡改 | 文档来源验证 | | 编排器 → API | 敏感数据渗出 | 信息泄露 | 绝不嵌入真实的生产遥测数据 | | API → 输出 | 恶意 KQL 生成 | 篡改 | 部署前进行人工审查 | | 工具执行 | 意外的 Agent 操作 | 权限提升 | 最小权限工具访问 | **完整的 STRIDE 分析：** [STRIDE_LLM_Agent_Pipeline.md](./threat-models/STRIDE_LLM_Agent_Pipeline.md) ### 五大 AI 专属威胁类别 | 类别 | 描述 | 检测视角 | |-------|-------------|----------------| | **Prompt 注入** | 攻击者控制的输入覆盖了模型指令 | 监控数据输入中的指令模式；异常的输出格式偏差 | | **模型滥用** | 越狱、能力提取、有害输出生成 | 输出内容分类；对异常查询模式进行速率限制 | | **数据泄露** | System prompt 提取、训练数据记忆、跨会话泄露 | 对已知敏感字符串进行输出过滤；会话隔离监控 | | **不安全的工具执行** | 被操纵的输入触发危险的工具调用 | 工具调用审计日志；针对不可逆操作引入 Human-in-the-loop | | **涌现的 Agent 行为** | 多步骤链产生意外结果 | Agent 操作范围限制；推理链审计跟踪 | **包含检测工程视角的完整分析：** [AI_Threat_Classes_Detection_View.md](./threat-models/AI_Threat_Classes_Detection_View.md) ## 第 2 部分 — MTDF Copilot ### 它是什么一个生成 KQL 检测规则的 Agent pipeline，它接收 MITRE 技术 prompt，并遵循 Minimum Truth Detection Framework 原则生成模式精确的、4 阶段的检测规则。 **架构：** - **引擎：** 通过 AnythingLLM 使用 Claude Sonnet (Anthropic API) - **知识库：** Framework README、骨架模板、MDE/Sentinel schema 参考 - **遥测数据：** Empire C2 框架攻击数据，按检测面划分 - **输出：** 适用于 Microsoft Defender XDR 和 Microsoft Sentinel 的生产候选 KQL 规则 ### 首个经验证的输出 — T1003.001 **技术：** OS Credential Dumping：通过 comsvcs.dll MiniDump 进行 LSASS Memory 转储 **锚定策略：** 意图优先 — rundll32.exe 无处不在；恶意的原语是命令行中针对 lsass 的显式 `MiniDump` 导出调用。 **关键的工程决策：** - 双重原语覆盖：命名的导出 (`MiniDump`) 与序号形式 (`#24`) — 捕获故意的混淆 - Sentinel 变体处理双重摄入路径：SecurityEvent EID 4688（原生审计）和 WindowsEvent Sysmon EID 1 — 并记录了文档化的字段可用性差异 - `IsElevatedSession` 在 Sentinel 变体中故意缺失 — SecurityEvent 原生不暴露完整性级别；`IsOrdinalForm` (+15) 填补了评分空白 - 计算并记录了最小触发路径：基础 55 + IsElevatedSession 15 + IsSuspectOutputPath 10 = 80 ≥ 75 **规则文件：** - [T1003.001_rundll32_comsvcs_MDE.kql](./rules/credential-access/T1003.001_rundll32_comsvcs_MDE.kql) - [T1003.001_rundll32_comsvcs_Sentinel.kql](./rules/credential-access/T1003.001_rundll32_comsvcs_Sentinel.kql) ## 第 3 部分 — AI 增强的红蓝队运营 ### 愿景 LLM 与进攻性安全工具的融合，既是现代安全运营中最重大的能力倍增器，也是最重大的风险放大器。 **在进攻方：** 与 Kali Linux 工具集成的 LLM 可以加速： - 攻击路径生成和假设形成 - 自动化漏洞利用链文档编写 - 自然语言到命令的转换（侦察 → 漏洞利用 → 后渗透） - 根据威胁情报生成紫队场景 **在防御方：** 与检测 pipeline 集成的 LLM 可以加速： - 从遥测数据生成检测规则（MTDF Copilot） - 告警分诊和上下文丰富 - 威胁狩猎假设生成 - 事件时间线重建 **安全悖论：** 使 AI 增强的红队更快的同样能力，也会使 AI 增强的攻击者更快。了解双方是建立可靠防御的唯一途径。 ### 研究方向 — LLM + Kali 集成 **第 1 阶段 — 已记录（进行中）：** - LLM 辅助的侦察自动化 - 自然语言到 Nmap/Metasploit/Burp 命令的转换 - 针对紫队场景的 AI 生成的攻击路径文档 - 基于目标环境配置文件的自动化 Empire 模块选择 **第 2 阶段 — 已计划：** - 闭环紫队 pipeline：LLM 生成攻击 → 在实验室执行 → 触发检测 → LLM 分析差距 → 生成同类规则 - AI 辅助的 MITRE ATT&CK 覆盖盲区分析 - 针对检测规则集进行 LLM 驱动的威胁模拟 **第 3 阶段 — 研究视野：** - 结合检测反馈回路的自主对手模拟 - 用于规避测试的基于 LLM 的变体生成 - 通过自动化攻击模拟进行 AI 威胁模型验证 ### AI 增强进攻性工具的安全影响这不仅仅是一个能力问题——它是一个威胁模型问题。当 LLM 与进攻性工具集成时，会出现新的风险： **进攻性 pipeline 中的 Prompt 注入** — 如果 AI 增强的红队工具处理目标系统输出（Banner 抓取、错误消息、Web 响应），这些输出可能包含旨在操纵 AI 下一步操作的 Prompt 注入 payload。 **能力放大** — 技能较低的攻击者在 AI 的协助下，可以执行以前需要高级专业知识才能执行的攻击。防御者关于“攻击复杂性意味着高级对手”的假设不再成立。 **归因复杂性** — AI 生成的攻击模式可能与已知的威胁行为者 TTP 不匹配，从而使归因复杂化，并可能规避基于威胁情报的检测。 **检测影响** — 基于人类攻击者模式构建的传统行为检测，可能需要对 AI 辅助的攻击速度和时序进行建模，这与手动操作有所不同。 ## 研究理念这项工作处于 MTDF 三个原则的交汇处： **Minimum Truth 同样适用于 AI 系统。** 每个 AI 威胁都有一个不可简化的条件，该条件必须成立，威胁才是真实的。Prompt 注入要求模型混淆指令和数据。不安全的工具执行要求 Agent 拥有超出其范围的能力。从 Minimum Truth 开始。其他一切都是强化。 **规则即传感器。事件即叙述。** AI 安全检测应该是独立的表面传感器——每个威胁类别对应一条规则，并在事件层进行关联。一个试图捕获所有内容的单体“AI 安全”检测，最终什么也抓不住。 **基于对手视角的工程。** 你无法为尚未从攻击者角度建模的威胁构建防御。本仓库中的每一个检测都是由了解攻击是如何构建的人所构建的。 ## 状态 | 研究领域 | 状态 | |--------------|--------| | STRIDE — LLM Agent Pipeline | 🟡 进行中 | | AI 威胁类别 — 检测视角 | 🟡 进行中 | | MTDF Copilot — 架构 | ✅ 完成 | | MTDF Copilot — 首个规则 (T1003.001) | ✅ 生产候选 | | LLM + Kali 集成 — 第 1 阶段 | 🔴 已计划 | | 紫队 AI Pipeline | 🔴 已计划 | | 自主检测验证 | 🔴 已计划 | ## 署名与许可所有原创研究和检测逻辑：**Ala Dabat (2026)** 采用 [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/) 许可要求署名 · 非商业性使用 · 相同方式共享 [Minimum Truth Detection Framework](https://github.com/azdabat/Minimum-Truth-Detection-Framework-ADX-Validated-Composite-Rules) 的一部分 *“AI 安全的 Minimum Truth 是：模型无法区分指令和数据。其他一切——Prompt 注入、RAG 投毒、涌现行为、不安全的工具执行——都是对这一单一架构现实的强化。”* *— Ala Dabat，2026*

标签：DLL 劫持, 人工智能安全, 合规性, 大语言模型, 威胁建模