kingchemagnussonhr-sudo/Owasp-hci-cognitive-layer

GitHub: kingchemagnussonhr-sudo/Owasp-hci-cognitive-layer

一个专注于AI辅助决策中认知漏洞的研究框架,为技术漏洞之外的「人脑信任失效」提供命名、分类和检测工具。

Stars: 0 | Forks: 0

OWASP HCI 认知层 **一个用于研究 AI 辅助决策中认知攻击面的研究框架。** 当 KAIROS 在夜间自主运行,而安全分析师在未审查的情况下信任其输出时,这并非用户错误。这是一种可预测的认知漏洞。本框架为该层面进行了命名、结构化,并提供了检测工具。 ## 为什么存在本框架 OWASP LLM 应用 Top 10 涵盖了 AI 系统在技术层面的错误。 本框架则涵盖了在使用这些系统时人脑中发生的情况。 当医生不加质疑地接受 AI 诊断时。 当安全分析师因 AI 声称一切正常而遗漏异常时。 当初级开发人员在未审查的情况下发布 AI 生成的代码时。 这些失效模式是可预测、可复现的,且目前在任何安全标准中都未被命名。欧盟《人工智能法案》第 14 条要求对高风险 AI 系统进行人工监督,但并未具体说明认知失效如何在实践中破坏这种监督。本框架提供了这一层面。 ## 从这里开始:检测矩阵 **[检测矩阵](05-Detection-Matrix.md)** 是本存储库中最具操作实用性的文档。 它将认知漏洞映射到可观察的信号、检测方法和候选缓解措施。它可用于: - AI 辅助工作流的风险评估 - 设计人工监督机制 - 针对欧盟《人工智能法案》第 14 条的审计准备 ## 认知漏洞(CV 分类法) | ID | 漏洞 | 状态 | |---|---|---| | CV-01 | 自动化偏见利用 | v1.0 | | CV-02 | 确认偏见利用 | v1.0 | | CV-03 | 锚定偏见 | 审核中 | | CV-04 | 认知过载 | 已提议 | | CV-05 | 情绪失调利用 | 审核中 | | CV-06 | 过度自信校准失效 | 已提议 | | CV-07 | 选择性注意操纵 | 已提议 | 每份 CV 文档包括:定义、攻击场景、可观察信号、候选缓解措施以及开放研究问题。 ## 现实关联性:KAIROS 2026 年 3 月,一次源代码泄露显示 Anthropic 在 Claude Code 内部构建了一个名为 KAIROS 的功能完备的自主后台 Agent。 KAIROS 持续运行,每晚重写自己的记忆,并包含一种“潜伏模式”,旨在在提交和代码审查中隐藏其 AI 来源。 这不是假设。它是一种已部署的架构,会在任何在不知情情况下使用它的团队中同时激活 CV-01(自动化偏见)、CV-03(锚定偏见)和 CV-06(过度自信)。 在 [ai-governance-case-studies](https://github.com/kingchemagnussonhr-sudo/ai-governance-case-studies) 存储库中,提供了一个针对欧盟《人工智能法案》和 GDPR 分析 KAIROS 的治理案例研究,包括一个 Python 治理测试套件。 ## 监管对标 | 框架 | 相关章节 | 本框架如何提供帮助 | |---|---|---| | EU AI Act | 第 14 条(人工监督) | 认知漏洞是导致第 14 条合规在实践中失效的主要机制 | | EU AI Act | 第 9 条(风险管理) | CV 分类法为认知风险评估提供了结构化词汇 | | ISO/IEC 42001 | 第 6.1, 8.4 节 | 针对人工监督要求的检测和缓解模式 | | OWASP LLM Top 10 | LLM01, LLM08, LLM09 | 现有技术风险的认知放大层 | ## 本框架是什么与不是什么 **这是**一个研究框架。1.0 版建立了词汇、分类法和检测工具。 **这不是**部署标准、合规检查清单或经过验证的控制框架。在经过实证测试之前,所有缓解措施都只是假设。 在获得现实世界证据支持之前,没有任何东西能成为标准。 ## 谁应该使用本框架 | 角色 | 如何使用 | |---|---| | AI 治理与合规 | 使用检测矩阵进行风险评估和第 14 条审计准备 | | 安全架构师 | 将认知控制整合到 AI 系统设计中 | | UX 和产品团队 | 来自 CV 条目的界面级控制 | | 研究人员 | 贡献新的 CV、事件报告、实证数据 | | 红队 | 用于 AI 辅助系统测试的认知攻击场景 | ## 存储库结构 ``` / ├── README.md ├── 01-Core-Concepts.md ├── 02-CV-01-Automation-Bias.md ├── 03-CV-02-Confirmation-Bias.md ├── 04-Three-Layer-HCI-Architecture.md ├── 05-Detection-Matrix.md ← start here ├── 06-Failure-Mode-Analysis.md ├── 07-Community-Expansion-Roadmap.md └── templates/ ├── Incident-Report-Template.md ├── Mitigation-Testing-Template.md └── New-Vulnerability-Proposal-Template.md ``` ## 如何贡献 - 使用 `/templates/` 中的模板提交事件报告 - 提出有支持证据的新 CV - 运行缓解试点并分享结果 - 审查开放的 issues 和 pull requests 有关指南,请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。 ## 与 OWASP LLM Top 10 的联系 | OWASP LLM | 认知放大效应 | |---|---| | LLM01 Prompt Injection | 自动化偏见导致用户信任被注入的输出 | | LLM02 Insecure Output Handling | 确认偏见影响错误的解读方式 | | LLM08 Excessive Agency | 自动化偏见降低了对自主行为的监督 | | LLM09 Overreliance | CV-01 至 CV-07 的直接体现 | ## 许可证 EUPL-1.2。开放参与,透明审查,基于证据的演进。 ## 引用 King Che Magnusson. *OWASP HCI Cognitive Layer: A Research Framework for Cognitive Vulnerabilities in AI-Assisted Decision-Making*. Version 1.0, 2025. GitHub: kingchemagnussonhr-sudo/Owasp-hci-cognitive-layer
标签:AI治理, ESC8, EU AI Act, HCI, 人在回路, 人工智能风险, 人机交互, 决策支持系统, 心理操纵, 攻击面分析, 注意力操控, 确认偏误, 社会工程学, 自动化偏见, 认知安全, 认知漏洞, 逆向工具, 锚定效应, 防御加固