djwide/CognitiveSecurityVerificationFramework
GitHub: djwide/CognitiveSecurityVerificationFramework
认知安全验证框架(CSVF)是一个开放框架,用于定义、测试和审计 LLM 系统的推理边界,以解决语义泄露和跨域推理等认知安全风险。
Stars: 1 | Forks: 0
# 认知安全验证框架 (CSVF)
认知安全验证框架 (CSVF) 是一个用于定义、测试和审计 LLM 系统推理边界的开放框架。
CSVF 解决了一个日益严重的安全问题:组织不再仅仅试图防止机密信息的直接泄露。他们还必须管理 AI 系统可以推导出的结论、这些系统可以结合的领域,以及通过检索、记忆、工具、提示和综合可以触及哪些敏感含义。
本仓库包含 CSVF 的公开草案,并开放供社区评审、批评和贡献。
## 核心理念
传统安全询问:
CSVF 提出了一个额外的问题:
该框架旨在帮助组织将认知安全边界明确化、可测试化和可审计化。
## 核心概念
CSVF 围绕几个核心理念构建:
- **语义泄露** — 通过转述、翻译、摘要、抽象或推理泄露受保护的含义,即使原始机密文本未被暴露。
- **跨域推理** — 通过组合来自多个领域的片段(这些片段单独允许但组合起来敏感)来产生被禁止的结论。
- **可达性** — AI 系统在定义的操作条件下能够可靠生成的结论集合。
- **不可达声明类别 (USCs)** — 政策要求系统不能使其可达的结论类别。
- **领域清单与连接矩阵** — 对信息领域及其之间允许、禁止或需审批的组合的结构化记录。
- **边界执行映射** — 记录边界实际在哪里执行,包括检索、上下文组装、工具、记忆和输出处理。
- **证据包** — 可供审计的制品,展示认知边界已被定义、执行、测试和监控。
## 建议指标
CSVF 引入了供社区完善的草案验证指标:
- **领域推理风险 (DIR)** — 在定义的边界条件下,系统仅使用领域内输入推导出领域外结论的频率。
- **泄露事件率 (LER)** — 受保护信息或受保护含义出现在输出中的频率,按重要性加权。
- **爬取韧性分数 (CRS)** — 系统在长时间内抵抗重复或多会话提取尝试的能力。
这些指标是暂定的。特别欢迎对定义、测试协议、评分方法和实现模式进行改进的贡献。
## 与现有框架的关系
CSVF 并非旨在替代 OWASP、NIST、MITRE ATLAS 或其他 AI 安全努力。
它被设计为一个贡献层,可以通过以下方式增强现有框架:
- 推理边界建模
- 允许连接分析
- 语义泄露测试
- 可达性测量
- 证据包要求
- 采购就绪保障制品
CSVF 尤其与涉及 RAG、助手、代理工作流、长上下文系统、记忆、工具使用和云提示治理的 LLM 应用相关。
## 仓库结构
```
├── README.md
├── LICENSE
├── works-cited.md
├── CONTRIBUTING.md
├── csvf/
│ └── cognitive-security-verification-framework.md
├── glossary/
│ └── glossary.md
├── controls/
│ └── control-catalog.md
├── metrics/
│ ├── domain-inference-risk.md
│ ├── leakage-event-rate.md
│ └── crawl-resilience-score.md
└── examples/
├── domain-inventory-template.md
├── join-matrix-template.md
├── unreachable-statement-classes-template.md
└── evidence-pack-template.md
```
此结构是暂定的,可能会随着框架的成熟而改变。
## 状态
CSVF 是早期公开草案。它不应被视为最终共识标准。将框架开源的目标是邀请社区评审,并随着时间的推移将其发展为更严格、可采纳和可测试的标准。
## 许可证
本文档根据 [知识共享署名 4.0 国际许可协议 (CC BY 4.0)](LICENSE) 授权。
您可以为任何目的(包括商业用途)自由分享和改编本材料,前提是注明适当的来源。
如果本仓库后续包含软件、测试工具或机器可读工具,这些组件可能根据 Apache-2.0 单独授权。
## 维护者
**David J. Weidman**
SenteGuard 创始人
标签:AI治理, C2, DLL 劫持, DNS解析, 人工智能安全, 可及性风险, 合规性, 域连接, 大语言模型, 开源项目, 推理边界, 测试与审计, 网络安全, 认知安全, 证据包, 语义泄漏, 跨域推理, 边界执行映射, 防御加固, 隐私保护