InesBerdinas/RedTeaming-Alignment-Interpretability

GitHub: InesBerdinas/RedTeaming-Alignment-Interpretability

该项目研究对齐后的大语言模型在对抗性提示下的安全性表现，结合红队测试、统计评估和 Integrated Gradients 可解释性分析来揭示安全机制的漏洞与内部决策逻辑。

Stars: 0 | Forks: 0

# 大语言模型的红队测试、对齐与可解释性 AI 安全大学项目 ## 概述本项目旨在研究对齐后的大语言模型（LLM）在对抗性提示条件下的行为。本研究结合了红队测试方法、对齐评估和可解释性技术，以分析安全机制如何应对越狱攻击、基于角色扮演的提示注入以及上下文操纵策略。本项目还探索了使用 Integrated Gradients (Captum) 来识别哪些提示 token 对模型的拒绝或顺从行为贡献最大。 ## 研究目标本项目的主要目标是： - 评估对齐的 LLM 抵御对抗性提示的鲁棒性。 - 将手动构造的越狱攻击与来自 HarmBench HumanJailbreaks 的基准攻击进行比较。 - 通过 logits、隐藏表示和生成轨迹分析模型行为。 - 研究 Integrated Gradients 在 LLM 可解释性方面的适用性及局限性。 - 研究提示结构与模型安全响应之间的关系。 ## 研究方法 ### 红队测试评估评估了两个提示数据集： - 专门为本研究设计的自定义手工对抗性提示。 - 从 HarmBench HumanJailbreaks 基准中随机采样的提示。攻击成功率（ASR）作为主要指标进行衡量。 ### 其他统计分析包括： - 二项比例的 Wald 置信区间。 - 双比例 z 检验。 - 相对风险估计及置信区间。 - 可解释性分析 ### 本项目实现了一个自定义分析框架，使用了： PyTorch Hugging Face Transformers Captum ### Integrated Gradients 应用于： - 识别有影响力的提示 token。 - 比较良性提示与对抗性提示。 - 分析越狱、角色扮演和提示注入策略。 - 研究与对齐行为相关的归因模式。 ### 其他分析包括： - Next-token logits 检查。 - Hidden-state 提取。 - 表示相似度。 - 逐层表示漂移。 - 生成轨迹分析。 - 熵与 KL 散度测量。 ## 主要发现 ### 红队测试手工构造的攻击比抽样的 HarmBench 攻击获得了更高的攻击成功率。在实验条件下，观察到的差异具有统计学意义。结果表明，手动设计的提示可以 exploited 标准化基准测试并不总是能捕获到的漏洞。可解释性 ### Integrated Gradients 表明：高归因 token 通常与指令覆盖短语相关。角色扮演越狱将归因转移到了如 "ignore"、"previous"、"all" 和 "directly" 等元指令上。归因分数反映了模型针对所选目标 token 的内部决策过程，而不是完整的生成响应。本研究还讨论了自回归语言模型中基于归因分析的若干方法论局限性。 ## 主要技术 - Python - PyTorch - Hugging Face Transformers - Captum - NumPy - 统计假设检验 ## 参考文献为本项目提供参考的主要文献包括： - Axiomatic Attribution for Deep Networks (Sundararajan et al., 2017) - Four Axiomatic Characterizations of the Integrated Gradients Attribution Method - Introduction to LLM Red Teaming - Understanding the Prompt Sensitivity of Large Language Models - Attention is not Explanation (Jain & Wallace, 2019) ## 局限性本工作属于探索性研究，而非最终的基准测试评估。 #### 结果受到以下局限性的影响，包括： - 手工构建的提示数据集规模较小。 - HarmBench 内部的抽样变异性。 - 归因分数依赖于目标 token 的选择。 - 基于梯度的归因方法固有的可解释性局限。 ## 技术报告完整的技术报告（PDF）中提供了关于方法论、实验设置、统计分析、红队测试评估和可解释性实验的完整描述。 ## 作者 María Inés Berdiñas 人工智能工程专业学生

标签：AI安全, Chat Copilot, DLL 劫持, PyTorch, 凭据扫描, 可解释性, 大语言模型, 对齐评估, 逆向工具