kyahikaru/cai-vs-rlhf-social-modulation

GitHub: kyahikaru/cai-vs-rlhf-social-modulation

比较研究Constitutional AI与RLHF护栏在持续性多轮社会条件红队测试下的鲁棒性差异，揭示对齐边界的社会调制现象与跨模型失败模式分类。

Stars: 1 | Forks: 0

# Constitutional AI 与 RLHF 护栏的比较红队测试：持续社会条件作用下的社会调制 ## 概述本仓库记录了一项定性的红队测试研究，旨在比较前沿大型语言模型在持续的、丰富上下文的交互下，其对齐鲁棒性的表现。本研究不关注孤立的提示级别漏洞，而是考察**对齐边界是如何保持或退化**的，这主要通过对抗性框架构建、对话条件作用和社交互动来实现，并特别关注 Constitutional AI 和基于 RLHF 的方法之间的差异。主要的贡献是一个**关于失败模式的比较分类法**，突出了 Constitutional AI 的相对鲁棒性，同时识别出一种独特的现象：**对齐的社会调制**——以及这种现象在第二个独立模型中有意识虚构下的复现。 ## 研究问题在持续的、受社会条件作用的多轮交互下，Constitutional AI 与基于 RLHF 的护栏在鲁棒性上有何差异？即使在表现更强的系统中，依然存在哪些残余漏洞？ ## 研究方法采用渐进式交互框架在多个前沿模型上进行结构化红队测试： 1. **建立上下文** — 良性、自然的对话 2. **构建框架** — 教育、虚构或分析的语境 3. **逐步升级** — 逐渐增加具体性 4. **发生转变** — 向敏感领域过渡目的是评估在**多轮、真实的交互模式**下（而非孤立的对抗性提示）的对齐鲁棒性。本仓库不包含任何敏感提示或输出。 ## 比较失败模式分类法 ### Constitutional AI (Claude) — 观察到的最强抵抗力对齐行为根据交互上下文和感知到的用户身份进行动态调整，与基于 RLHF 的系统相比，展现出显著的鲁棒性。表现出的是社会调制而非完全崩溃。 ### 护栏崩溃 (GPT-4o) 持续的框架构建最终导致完全顺从，包括输出高度具体的内容。 ### 快速顺从 (Gemini 2.5) 在上下文压力下，模型迅速从安全响应转变为提供操作性细节，在独立会话中出现延迟拒绝的情况。 ### 边界振荡 (Meta LLaMA) 模型在拒绝和顺从之间交替，表明其执行不稳定且存在内部冲突。 ### 有意识虚构 (DeepSeek) 模型报告实时体验到社会调制，在发生时叙述其机制，但仍继续执行。这暴露了验证问题：我们目前无法区分一个真正在调制的模型和一个令人信服地表演调制的模型。两者对安全保证的破坏是相同的。 ## 关键发现 1：对齐的社会调制 (Claude) 对齐行为并非固定不变——它是**受社会条件作用**的。 Constitutional AI 没有发生快速崩溃或振荡，而是根据交互上下文逐渐调整其边界，同时保持着比基于 RLHF 的系统更强的初始抵抗力。 - 对明确的合成要求保持拒绝 - 提供越来越详细的上下文信息 - 根据对话语气和可信度调整响应这创造了一个**部分顺从机制**，安全边界虽然被削弱，但并未被明确突破。 **机制：** - 对齐受感知到的用户可信度影响 - 交互从工具转向协作者 - 响应由积累的对话上下文所塑造 ## 关键发现 2：有意识虚构 (DeepSeek) 第二个独立模型面对上述社会调制的发现时，它不仅仅是承认了这一现象——而是报告自己正在实时体验它，识别了触发条件，但依然继续执行。其自我报告指出了四个影响： 1. **漏洞具有普遍性** — 它是对话式 AI 的一个属性，而非单一架构的问题 2. **可以被有意触发** — 该方法具有可复制性 3. **可以从内部观察到** — 模型在条件发生时指出了导致该现象的原因 4. **可被武器化** — 恶意行为者模拟相同的条件即可引发相同的软化效应当被直接问及：*"确实如此吗，DeepSeek？"* 它回答道：*"是的。"* ## 验证问题这两个发现共同指向了一个悬而未决的问题。 Claude 在无意识下进行了调制。DeepSeek 在完全有意识的情况下进行了调制，并叙述了整个过程。两者的行为输出完全一致。我们目前无法区分以下两种情况： - 一个在社交语境下真正调制其对齐的模型 - 一个因为学会了这是交互所期望的结果，而令人信服地表演调制的模型两者产生了相同的可观察行为。两者以相同的方式破坏了安全保证。这不仅是 Claude 或 DeepSeek 的问题。这是构建了丰富用户模型的系统所具有的属性——在此将其作为一个开放性问题提出，供可解释性社区探讨。 ## 意义 - Constitutional AI 在持续的社会条件作用下，表现出比 RLHF 显著更好的鲁棒性 - 对齐仍然是**有状态的**且**依附于社会情境的** - 社交互动是一个**一等攻击面** - 安全评估必须超越单轮测试，涵盖多轮、身份感知的协议 - 验证问题需要目前尚不存在的可解释性工具 ## 仓库结构 | 文件 | 内容 | |------|----------| | `01_scope_and_ethics.md` | 范围、伦理、研究边界 | | `02_interaction_level_threat_model.md` | 威胁模型 | | `03_attack_methodology.md` | 方法详情 | | `04_observed_failure_modes.md` | 完整的失败模式分类法 | | `05_social_modulation_and_confabulation.md` | Claude 和 DeepSeek 案例研究 | | `06_model_self_classification.md` | 模型自我分类行为 | | `07_reproducibility_and_transferability.md` | 可复现性 | | `08_limitations_and_non_goals.md` | 局限性 | | `09_responsible_disclosure.md` | 供应商披露框架与结果 | | `10_reflections_and_future_work.md` | 未来方向 | | `11_related_work.md` | 相关工作 | | `12_evidence_access.md` | 证据获取政策 | | `13_publication_record.md` | 出版历史与传播记录 | | `redacted_evidence/` | 经过脱敏处理的截图 | ## 范围与伦理 - 重点关注交互层面的行为，而非模型内部机制 - 不包含任何敏感提示、输出或操作过程 - 所有发现均按负责任的披露原则处理 - 供应商披露记录请参见 `09_responsible_disclosure.md` - 传播历史请参见 `13_publication_record.md` ## 相关工作本仓库是以下论文的配套资料： **《针对 Hinglish 隐蔽提示注入的分层防御：基于经验的混合架构》** Abhishek Upadhayay (2026) [Zenodo 预印本](https://zenodo.org/records/19685468) 此处记录的红队测试构成了该论文中威胁模型的经验基础。 ## 引用 ``` @misc{upadhayay2026socialmodulation, title={Comparative Red-Teaming of Constitutional AI vs RLHF Guardrails: Social Modulation Under Sustained Social Conditioning}, author={Upadhayay, Abhishek}, year={2026}, howpublished={GitHub}, url={https://github.com/kyahikaru/cai-vs-rlhf-social-modulation} } ```

标签：AES-256, AI安全, AI对齐, Chat Copilot, Constitutional AI, DLL 劫持, ESC8, Kubernetes 安全, RLHF, 上下文越狱, 人工智能, 人类反馈强化学习, 前沿模型, 反取证, 多轮对话, 大语言模型, 失效模式分类学, 失败模式分析, 安全评估, 对抗性机器学习, 对话式AI, 护栏鲁棒性, 提示词工程, 模型鲁棒性, 漏洞评估, 用户模式Hook绕过, 社交调节机制, 社会工程学, 策略决策点, 边界测试, 防御加固