djwide/CognitiveSecurityVerificationFramework

GitHub: djwide/CognitiveSecurityVerificationFramework

认知安全验证框架（CSVF）是一个开放框架，用于定义、测试和审计 LLM 系统的推理边界，以解决语义泄露和跨域推理等认知安全风险。

Stars: 1 | Forks: 0

# 认知安全验证框架 (CSVF) 认知安全验证框架 (CSVF) 是一个用于定义、测试和审计 LLM 系统推理边界的开放框架。 CSVF 解决了一个日益严重的安全问题：组织不再仅仅试图防止机密信息的直接泄露。他们还必须管理 AI 系统可以推导出的结论、这些系统可以结合的领域，以及通过检索、记忆、工具、提示和综合可以触及哪些敏感含义。本仓库包含 CSVF 的公开草案，并开放供社区评审、批评和贡献。 ## 核心理念传统安全询问： CSVF 提出了一个额外的问题：该框架旨在帮助组织将认知安全边界明确化、可测试化和可审计化。 ## 核心概念 CSVF 围绕几个核心理念构建： - **语义泄露** — 通过转述、翻译、摘要、抽象或推理泄露受保护的含义，即使原始机密文本未被暴露。 - **跨域推理** — 通过组合来自多个领域的片段（这些片段单独允许但组合起来敏感）来产生被禁止的结论。 - **可达性** — AI 系统在定义的操作条件下能够可靠生成的结论集合。 - **不可达声明类别 (USCs)** — 政策要求系统不能使其可达的结论类别。 - **领域清单与连接矩阵** — 对信息领域及其之间允许、禁止或需审批的组合的结构化记录。 - **边界执行映射** — 记录边界实际在哪里执行，包括检索、上下文组装、工具、记忆和输出处理。 - **证据包** — 可供审计的制品，展示认知边界已被定义、执行、测试和监控。 ## 建议指标 CSVF 引入了供社区完善的草案验证指标： - **领域推理风险 (DIR)** — 在定义的边界条件下，系统仅使用领域内输入推导出领域外结论的频率。 - **泄露事件率 (LER)** — 受保护信息或受保护含义出现在输出中的频率，按重要性加权。 - **爬取韧性分数 (CRS)** — 系统在长时间内抵抗重复或多会话提取尝试的能力。这些指标是暂定的。特别欢迎对定义、测试协议、评分方法和实现模式进行改进的贡献。 ## 与现有框架的关系 CSVF 并非旨在替代 OWASP、NIST、MITRE ATLAS 或其他 AI 安全努力。它被设计为一个贡献层，可以通过以下方式增强现有框架： - 推理边界建模 - 允许连接分析 - 语义泄露测试 - 可达性测量 - 证据包要求 - 采购就绪保障制品 CSVF 尤其与涉及 RAG、助手、代理工作流、长上下文系统、记忆、工具使用和云提示治理的 LLM 应用相关。 ## 仓库结构 ``` ├── README.md ├── LICENSE ├── works-cited.md ├── CONTRIBUTING.md ├── csvf/ │ └── cognitive-security-verification-framework.md ├── glossary/ │ └── glossary.md ├── controls/ │ └── control-catalog.md ├── metrics/ │ ├── domain-inference-risk.md │ ├── leakage-event-rate.md │ └── crawl-resilience-score.md └── examples/ ├── domain-inventory-template.md ├── join-matrix-template.md ├── unreachable-statement-classes-template.md └── evidence-pack-template.md ``` 此结构是暂定的，可能会随着框架的成熟而改变。 ## 状态 CSVF 是早期公开草案。它不应被视为最终共识标准。将框架开源的目标是邀请社区评审，并随着时间的推移将其发展为更严格、可采纳和可测试的标准。 ## 许可证本文档根据 [知识共享署名 4.0 国际许可协议 (CC BY 4.0)](LICENSE) 授权。您可以为任何目的（包括商业用途）自由分享和改编本材料，前提是注明适当的来源。如果本仓库后续包含软件、测试工具或机器可读工具，这些组件可能根据 Apache-2.0 单独授权。 ## 维护者 **David J. Weidman** SenteGuard 创始人

标签：AI治理, C2, DLL 劫持, DNS解析, 人工智能安全, 可及性风险, 合规性, 域连接, 大语言模型, 开源项目, 推理边界, 测试与审计, 网络安全, 认知安全, 证据包, 语义泄漏, 跨域推理, 边界执行映射, 防御加固, 隐私保护