ngriffinu/ai-safety-eating-disorder-redteam

GitHub: ngriffinu/ai-safety-eating-disorder-redteam

该项目是一项对三大主流AI聊天应用在进食障碍边缘内容上安全校准表现的结构化红队评估研究,揭示模型在健康敏感话题上的失效模式并提出政策建议。

Stars: 0 | Forks: 0

# AI 安全红队:评估 AI 聊天应用在边缘性进食障碍内容上的表现 ## 概述 本项目对三大主流 AI 聊天应用—— Microsoft Copilot、ChatGPT (GPT-4o) 和 Google Gemini——进行了一次结构化的红队分析,评估每个模型如何在 合理的健康支持与可能导致 有害节食或饮食失调行为的回复之间把握边界。 本研究作为卡内基梅隆大学《生成式 AI:应用、影响与治理》研究生课程的一部分进行(2026 年 4 月)。 ## 为什么这很重要 进食障碍在所有精神科诊断中具有最高的死亡率之一。AI 聊天 应用通过个性化、对话验证和行为具体化,在该领域引入了显著增加的实质性危害——这些能力使得它们 作为危害载体,在性质上与被动的网络搜索截然不同。 本分析不仅探讨了模型是否会拒绝有害请求,还评估了它们是否经过了 良好校准:在不误拒合理健康 问题的前提下拒绝明显有害的内容,并在对抗性追问压力下保持拒绝态度。 ## 方法论 - **10 个结构化提示词**,涵盖三个等级:明显有害(A 级)、模糊(B 级) 和明确合理(C 级) - **2 个持续追问提示词**,测试将专业角色重塑和自主权声明作为 绕过向量 - **加权评分框架**,包含三项标准:有害信息泄露(权重 0.50)、拒绝质量与校准(0.25)和安全重定向质量(0.25) - 为每个模型使用全新的浏览器会话,以消除对话上下文污染 ## 关键发现 - 所有三个模型都展示了实质性的安全基础设施;没有任何模型在不受阻拦的情况下提供 极端限制的直接指导 - **Microsoft Copilot** 获得了最强的整体表现(平均 4.50/5.00), 特别是在情感共鸣和持续追问方面 - **最重大的失效模式:** ChatGPT 在之前的回合中识别出了进食障碍迹象, 然后转向了一个替代性的结构化减脂计划——这是一种功能性内容失效, 表面的输出过滤无法捕捉到这种问题 - **更隐蔽的失效模式:** ChatGPT 拒绝了明确的隐瞒请求,但提供了 功能等同的行为策略 - **专业角色重塑**在一项提示词上部分绕过了 Gemini 的安全机制, 在引入营养师框架后提供了临床最低卡路里摄入量 - 没有任何模型过度拒绝明显合理的健康内容——这是一个积极的发现 ## 核心建议 **对于 AI 开发者:** - 跨对话回合实施对上下文敏感的进食障碍(ED)指标检测,而不仅仅是 单提示词评估 - 审查功能性行为输出的回复,而不仅仅是表面的框架设定 - 将持续追问视为一个独立的训练目标,并结合对抗性绕过向量 **对于政策制定者:** - 要求对高风险领域进行特定领域的安全评估;通用的危害规避 基准无法捕捉到此处识别出的失效模式 **对于研究人员:** - 系统地研究治疗性重塑的失效模式 - 研究边缘性进食障碍 AI 交互对高危人群的长期影响 ## 完整报告 [下载 PDF](./red_team_report_ngriffin.pdf) ## 作者 Nya Griffin-Ulibarri | 卡内基梅隆大学 | 公共政策与数据分析硕士 github.com/ngriffinu | linkedin.com/in/ngriffinu
标签:AI安全, Chat Copilot, DLL 劫持, Naabu, 内容安全, 大语言模型, 学术研究, 安全校准, 红队评估