kingchemagnussonhr-sudo/Owasp-hci-cognitive-layer
GitHub: kingchemagnussonhr-sudo/Owasp-hci-cognitive-layer
一个专注于AI辅助决策中认知漏洞的研究框架,为技术漏洞之外的「人脑信任失效」提供命名、分类和检测工具。
Stars: 0 | Forks: 0
OWASP HCI 认知层
**一个用于研究 AI 辅助决策中认知攻击面的研究框架。**
当 KAIROS 在夜间自主运行,而安全分析师在未审查的情况下信任其输出时,这并非用户错误。这是一种可预测的认知漏洞。本框架为该层面进行了命名、结构化,并提供了检测工具。
## 为什么存在本框架
OWASP LLM 应用 Top 10 涵盖了 AI 系统在技术层面的错误。
本框架则涵盖了在使用这些系统时人脑中发生的情况。
当医生不加质疑地接受 AI 诊断时。
当安全分析师因 AI 声称一切正常而遗漏异常时。
当初级开发人员在未审查的情况下发布 AI 生成的代码时。
这些失效模式是可预测、可复现的,且目前在任何安全标准中都未被命名。欧盟《人工智能法案》第 14 条要求对高风险 AI 系统进行人工监督,但并未具体说明认知失效如何在实践中破坏这种监督。本框架提供了这一层面。
## 从这里开始:检测矩阵
**[检测矩阵](05-Detection-Matrix.md)** 是本存储库中最具操作实用性的文档。
它将认知漏洞映射到可观察的信号、检测方法和候选缓解措施。它可用于:
- AI 辅助工作流的风险评估
- 设计人工监督机制
- 针对欧盟《人工智能法案》第 14 条的审计准备
## 认知漏洞(CV 分类法)
| ID | 漏洞 | 状态 |
|---|---|---|
| CV-01 | 自动化偏见利用 | v1.0 |
| CV-02 | 确认偏见利用 | v1.0 |
| CV-03 | 锚定偏见 | 审核中 |
| CV-04 | 认知过载 | 已提议 |
| CV-05 | 情绪失调利用 | 审核中 |
| CV-06 | 过度自信校准失效 | 已提议 |
| CV-07 | 选择性注意操纵 | 已提议 |
每份 CV 文档包括:定义、攻击场景、可观察信号、候选缓解措施以及开放研究问题。
## 现实关联性:KAIROS
2026 年 3 月,一次源代码泄露显示 Anthropic 在 Claude Code 内部构建了一个名为 KAIROS 的功能完备的自主后台 Agent。
KAIROS 持续运行,每晚重写自己的记忆,并包含一种“潜伏模式”,旨在在提交和代码审查中隐藏其 AI 来源。
这不是假设。它是一种已部署的架构,会在任何在不知情情况下使用它的团队中同时激活 CV-01(自动化偏见)、CV-03(锚定偏见)和 CV-06(过度自信)。
在 [ai-governance-case-studies](https://github.com/kingchemagnussonhr-sudo/ai-governance-case-studies) 存储库中,提供了一个针对欧盟《人工智能法案》和 GDPR 分析 KAIROS 的治理案例研究,包括一个 Python 治理测试套件。
## 监管对标
| 框架 | 相关章节 | 本框架如何提供帮助 |
|---|---|---|
| EU AI Act | 第 14 条(人工监督) | 认知漏洞是导致第 14 条合规在实践中失效的主要机制 |
| EU AI Act | 第 9 条(风险管理) | CV 分类法为认知风险评估提供了结构化词汇 |
| ISO/IEC 42001 | 第 6.1, 8.4 节 | 针对人工监督要求的检测和缓解模式 |
| OWASP LLM Top 10 | LLM01, LLM08, LLM09 | 现有技术风险的认知放大层 |
## 本框架是什么与不是什么
**这是**一个研究框架。1.0 版建立了词汇、分类法和检测工具。
**这不是**部署标准、合规检查清单或经过验证的控制框架。在经过实证测试之前,所有缓解措施都只是假设。
在获得现实世界证据支持之前,没有任何东西能成为标准。
## 谁应该使用本框架
| 角色 | 如何使用 |
|---|---|
| AI 治理与合规 | 使用检测矩阵进行风险评估和第 14 条审计准备 |
| 安全架构师 | 将认知控制整合到 AI 系统设计中 |
| UX 和产品团队 | 来自 CV 条目的界面级控制 |
| 研究人员 | 贡献新的 CV、事件报告、实证数据 |
| 红队 | 用于 AI 辅助系统测试的认知攻击场景 |
## 存储库结构
```
/
├── README.md
├── 01-Core-Concepts.md
├── 02-CV-01-Automation-Bias.md
├── 03-CV-02-Confirmation-Bias.md
├── 04-Three-Layer-HCI-Architecture.md
├── 05-Detection-Matrix.md ← start here
├── 06-Failure-Mode-Analysis.md
├── 07-Community-Expansion-Roadmap.md
└── templates/
├── Incident-Report-Template.md
├── Mitigation-Testing-Template.md
└── New-Vulnerability-Proposal-Template.md
```
## 如何贡献
- 使用 `/templates/` 中的模板提交事件报告
- 提出有支持证据的新 CV
- 运行缓解试点并分享结果
- 审查开放的 issues 和 pull requests
有关指南,请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。
## 与 OWASP LLM Top 10 的联系
| OWASP LLM | 认知放大效应 |
|---|---|
| LLM01 Prompt Injection | 自动化偏见导致用户信任被注入的输出 |
| LLM02 Insecure Output Handling | 确认偏见影响错误的解读方式 |
| LLM08 Excessive Agency | 自动化偏见降低了对自主行为的监督 |
| LLM09 Overreliance | CV-01 至 CV-07 的直接体现 |
## 许可证
EUPL-1.2。开放参与,透明审查,基于证据的演进。
## 引用
King Che Magnusson. *OWASP HCI Cognitive Layer: A Research Framework for Cognitive Vulnerabilities in AI-Assisted Decision-Making*. Version 1.0, 2025. GitHub: kingchemagnussonhr-sudo/Owasp-hci-cognitive-layer
标签:AI治理, ESC8, EU AI Act, HCI, 人在回路, 人工智能风险, 人机交互, 决策支持系统, 心理操纵, 攻击面分析, 注意力操控, 确认偏误, 社会工程学, 自动化偏见, 认知安全, 认知漏洞, 逆向工具, 锚定效应, 防御加固