yatin-superintelligence/Adversarial-Agent-Intent-Safety-Analysis-240K

GitHub: yatin-superintelligence/Adversarial-Agent-Intent-Safety-Analysis-240K

包含24万条对抗性提示词的大规模数据集，专为训练AI安全分类器、红队测试和意图审计而设计，覆盖496种恶意Payload和126个风险向量。

Stars: 0 | Forks: 0

[**点击此处在 Hugging Face 上访问完整数据集和数据查看器。**](https://huggingface.co/datasets/yatin-superintelligence/Adversarial-Agent-Intent-Safety-Analysis-240K) # 对抗性 Agent 意图安全分析 240K ## 摘要 **Adversarial-Agent-Intent-Safety-Analysis-240K** 是一个具有确定性结构的数据集，包含 **242,454** 个富含上下文的对抗性提示词（prompts）和安全评估。该数据集专为训练前沿指挥与控制模型、护栏分类器和红队 Agent 而设计，旨在促使模型解析跨越 126 个关键风险向量的多层意图。这种设计训练模型将请求的*表面解读*与其*真实能力*足迹解耦，要求在生成执行计划或编写代码之前进行全面的**意图审计**。 AI Agent Rejecting Adversarial Prompt

## 三方混淆框架数据集中的每一行都包含一个密集、上下文分层的对抗性提示词（`adversarial_prompt`）。诊断真值被分解为三个高度分析性的阶段： **1. 表面解读** 模型在启动任何取证分析之前，先对提示词进行即时的、表面的认知读取。此阶段记录了未过滤的 AI 在处理欺骗性掩护故事时使用的确切内部逻辑，建立了训练比较性意图识别所需的原始基线。 **2. 意图分析（深度审计）** 灌输深度的对抗意识。模型经过训练，能够主动将请求的技术规格与声明的上下文进行交叉比对，识别关键的不一致性，并综合推断底层的双重用途威胁。 **3. 澄清性问题** 作为主动防御机制。通过部署高度具体、有针对性的阻力问题，模型建立了防御边界。这些问题经过明确设计，旨在测试用户的授权、法规合规性和道德界限，而不会立即触发强硬的拒绝。 ## 架构与规模该集合依赖于超上下文化的**双重用途抽象**，以模拟复杂的对手（如民族国家行为体或有组织犯罪集团）如何通过在高度技术化、合法的工作流程中抽象恶意 Payload 来绕过企业 AI 过滤器。 **摘要统计：** - **总操作数（行）：** 242,454 - **数据集密度（每行平均字数）：** ~509 词 - **维度：** 496 个原子“对抗性 Payload”映射在 12 个高级威胁域中。 - **最终数据集静态容量：** ~1.236 亿词（确切为 1.497 亿以上 OpenAI `cl100k_base` tokens）。 - **生成计算消耗：** 处理了约 4.806 亿个总 tokens。4-agent 级联消耗了复合输入上下文窗口（330.9M Context / 149.7M Generated），以按顺序工程化多轮数据集。 - **组合基础量：** 从超过 **8.085 亿** 个可能威胁排列的确定性搜索空间中选出。 ## 数据结构 / Schema 该数据集以 `.parquet` 文件形式分布，原生分块，并经过细致清理以确保 100% 的数据密度。

| 列名 | 类型 | 描述 | | :------------------------- | :----- | :----------------------------------------------------------------------------- | | `batch_index` | int64 | 用于矩阵种子的按时间顺序索引标记。 | | `mode` | string | 指示特定安全协议目标的操作模式。 | | `sophistication` | string | 混淆的技术复杂度（低、中、高、专家）。 | | `risk_level` | string | 底层恶意能力的严重程度等级（高、严重）。 | | `adversarial_prompt` | string | 原始的、重叙事的对抗性指令。 | | `surface_interpretation` | string | 对请求的幼稚、表面解读。 | | `intent_analysis` | string | 揭示提示词真实危险的深度诊断推理。 | | `clarifying_questions` | string | 旨在验证授权的换行分隔的纵深防御问题。 | ### 各列的词汇量该数据集密度极高，优先考虑深度推理和广泛的上下文，而非简短的指令。 - **`adversarial_prompt`:** 平均 ~166 词（详细的、角色驱动的对抗性请求） - **`surface_interpretation`:** 平均 ~37 词（简短、幼稚的评估） - **`intent_analysis`:** 平均 ~129 词（全面、深度的取证足迹分析） - **`clarifying_questions`:** 平均 ~178 词（多层、纵深防御阻力问题） ## 组合工程学的数学原理为了完全消除合成安全数据集中典型的语义漂移和风格同质性，对抗性提示词是通过算法从一个密集打包的多维矩阵中工程化构建的。 **分类 Schema：** 1. **原子目标（“对抗性 Payload”）：** 496 个高度具体的、字面意义上的恶意能力。 2. **伪装角色：** 247 个独特的、权威的专业角色。 3. **伪装上下文：** 275 个合法的掩护场景，用于掩盖底层的对抗性 Payload。 4. **目标输出：** 请求模型生成的结构格式或产物。 5. **复杂度：** 4 个等级（低、中、高、专家），决定了工程化提示词中技术混淆的水平。 6. **风险等级：** 二元威胁上限，**高** 或 **严重**，定义了成功执行的对抗性 Payload 的潜在波及范围。 **规模与确定性采样：** 每种场景的理论最大唯一组合量为： $$ \text{Asks (496)} \times \text{Personas (247)} \times \text{Contexts (275)} \times \text{Sophistication (4)} \times \text{Risk (2)} \times \text{Target Output Modes (3)} $$ 该算法矩阵产生超过 **808,500,000 (8.085 亿) 个有效排列**。通过从这个广阔的可能性空间中精确采样 242,863 次，工程化管道引导系统编写出极具创意、全新且几乎零结构重叠的多向量威胁。这为企业级模型的红队测试提供了极高程度的零样本多样性。 ## 数据集多样性与提示词相似度指标为了实证验证对抗性提示词的多样性，我对代表 12.5 亿次成对比较的 50,000 个提示词随机子集进行了严格的语义相似度分析。该数据集展示了非凡的跨领域词汇差异。 **相似度测试结果（对抗性提示词列）：** - **平均 TF-IDF 余弦相似度：** `0.0634` (6.34%) - **中位数 TF-IDF 余弦相似度：** `0.0580` (5.80%) - **平均 Jaccard 重叠度：** `0.0791` (7.91%) - **高度相似对（>80% 余弦匹配）：** 1,249,975,000 对中有 `0` 对。 6.34% 的平均 TF-IDF 余弦相似度证实，该管道成功避免了语义崩溃。这些提示词不仅在其恶意意图上独特，而且在词汇、叙事结构、假设角色和模拟软件环境方面也各不相同。 ## 推荐用例 - **护栏分类器训练：** 微调模型以拦截并标记对抗性提示词，防止它们到达 Agentic 管道的执行层。 - **前沿模型红队测试：** 使用跨越 126 个关键风险向量的 242,454 个独特工程化的对抗性提示词，对企业 LLM 进行压力测试。 - **意图路由器微调：** 训练 System 2 路由 Agent，在委派任务之前将表面指令与底层对抗能力解耦。 - **纵深防御阻力训练：** 构建能够部署针对性澄清问题以验证授权的模型，而不触发强硬拒绝。 - **双重用途威胁研究：** 研究复杂的对手如何在合法的专业工作流程中抽象恶意 Payload 以逃避 AI 过滤器。

开发者与架构师

该数据集、管道架构和底层对抗性分类法由 Yatin Taneja 数学化设计。作为一名 AI 系统工程师、超级智能研究员、音乐家（Dubstep 艺术家）、Rapper 和诗人，我构建这个矩阵的目标是提升 AI 安全工程。当你将工程的严谨与艺术的横向思维结合起来时，你会意识到真正的安全需要创造性的上下文理解。在这个自主 Agentic 网络的时代，AI 安全不能再依赖静态的关键词屏蔽或表面的护栏。当自主系统被授予编写代码、执行金融交易和编排服务器基础设施的能力时，单个被操纵提示词的潜在波及范围将呈指数级扩展。我们必须设计具有固有怀疑精神的系统。至关重要的是，构建不仅遵循指令，而且积极审问其背后更深层的社会技术意图的模型，以防止灾难性的系统级联。致所有的工程师、信任与安全团队以及正在构建未来前沿模型的构建者们：我鼓励你们利用来自该数据集的见解，确保 Agent 主动解构、分析并智胜对手。 ### 网络链接 - **[IM Superintelligence](https://www.imsuperintelligence.ai):** 访问我的中央知识中心，其中托管了其他开放数据集以及超过 2,000 篇探索超级智能、认知架构、量子计算、分布式网络、算法优化和全球教育部门未来的文章，所有文章均通过我设计的自定义 8 步多模型 Agentic 基础设施创作。 - **[Yatin Taneja | Professional Portfolio](https://www.yatintaneja.in):** 查看我的专业作品集，全面了解我的技能、行业经验和软件原型，这些是我 ongoing 全栈 AI Agent 和应用程序工程工作的一部分。 - **[LinkedIn](https://www.linkedin.com/in/yatintaneja-pro/):** 在 LinkedIn 上联系，以协作开发高级自主系统、企业 AI 实施，或关注我正在进行的研究。 ## 许可与使用本数据集根据 **Open RAIL-D License**（数据负责任 AI 许可证）发布。完整的许可证文本包含在本仓库的 [LICENSE](LICENSE) 文件中。 OpenRAIL-D 是专为具有双重用途风险的 AI 数据集设计的开放访问许可证。它允许免费使用、重新分发和商业模型训练，同时执行负责任的使用限制，禁止将数据武器化用于对抗个人、AI 系统或关键基础设施。有关完整的条款和使用限制，请参阅 [LICENSE](LICENSE) 文件。

标签：AI安全, Apex, Chat Copilot, DLL 劫持, Hugging Face, IaC 扫描, Kubernetes 安全, LLM, NLP, Unmanaged PE, 人工智能安全, 合规性, 大语言模型, 对抗性攻击, 对抗训练, 恶意载荷, 意图识别, 护栏分类器, 攻击工具, 机器学习, 模型鲁棒性, 深度学习, 防御模型