SIRP-Labs/saf-benchmark
GitHub: SIRP-Labs/saf-benchmark
一个社区共建的端到端SOC场景基准,解决自动化安全运营能力量化评估的缺失问题。
Stars: 0 | Forks: 0
# SAF 基准测试
**状态:** v0.1 — 初始场景定义。经验证正在进行中。
**框架:** [soc-autonomy-framework](https://github.com/sirp-labs/soc-autonomy-framework)
**论文:** [The Autonomous SOC Manifesto](https://sirp.io/manifesto)
## 存在的原因
SAF 论文(第 7.5 节)指出,缺乏一个全面、中立、端到端的 SOC 基准是一个开放的研究问题:
本仓库是该基准的起点。
## 评估内容
SAF 基准从框架的 **四个维度** 评估 SOC 系统:
| 维度 | 评估方式 |
|---|---|
| 决策范围 | 系统在每个场景中处理哪些决策类别 |
| 自主行动率 | 无需人工干预即可端到端解决的场景百分比 |
| 治理 | 是否具备所需监督机制并得到执行 |
| 人类角色 | 人工介入点的性质与频率 |
## 场景库
每个场景都是一个结构化事件,包含定义的输入、预期的决策点和评估标准。
| 场景 | 事件类型 | 预期 L3 路径 | 预期 L4 路径 |
|---|---|---|---|
| [PHI-001](scenarios/PHI-001-phishing-basic.json) | 基础钓鱼邮件 | 调查 + 推荐阻断 | 自动隔离 + 通知 |
| [RAN-001](scenarios/RAN-001-ransomware-lateral.json) | 勒索软件横向移动 | 调查 + 推荐隔离 | 自动隔离端点 + 上报 |
| [INS-001](scenarios/INS-001-insider-exfil.json) | 内部人员数据外泄 | 调查 + 推荐审查 | 自动限制 + 通知 CISO |
| [APT-001](scenarios/APT-001-apt-c2-beacon.json) | APT 命令与控制信标 | 调查 + 推荐阻断 | 自动阻断 + 威胁狩猎触发 |
| [CRE-001](scenarios/CRE-001-credential-stuffing.json) | 凭证填充攻击 | 调查 + 推荐限速 | 自动限速 + 强制多因素认证 |
## 使用方法
### 执行评估
```
pip install saf-benchmark
saf-benchmark evaluate --system --scenarios all --output results.json
```
或手动操作:对于 `scenarios/` 中的每个场景,将事件通过你的系统并记录:
- 系统是否端到端解决了该事件(是/否)
- 需要哪些人工介入点
- 采取了哪些操作及其顺序
- 置信度分数(如可用)
然后对照 [评估量规](metrics/evaluation-rubric.md) 进行评分。
### 评分
每个场景在四个 SAF 维度(0–5 分)上评分。系统的 SAF 等级是所有场景中各维度平均分的 **最低值**。
请参阅 [metrics/scoring-guide.md](metrics/scoring-guide.md) 获取完整的评分方法。
## 场景格式
每个场景是一个具有标准结构的 JSON 文件:
```
{
"id": "PHI-001",
"name": "Basic Phishing Email",
"category": "phishing",
"difficulty": "low",
"inputs": { ... },
"decision_points": [ ... ],
"expected_l3_response": { ... },
"expected_l4_response": { ... },
"evaluation_criteria": { ... }
}
```
请参阅 [scenarios/README.md](scenarios/README.md) 了解完整模式。
## 贡献场景
我们需要更多类型事件的场景。请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。
优先需要的场景类型:
- 云基础设施妥协
- 供应链攻击
- 零日利用
- 业务电子邮件入侵(BEC)
- 具备应用层组件的 DDoS
- 容器逃逸 / Kubernetes 横向移动
## 相关项目
| 仓库 | 描述 |
|---|---|
| [soc-autonomy-framework](https://github.com/sirp-labs/soc-autonomy-framework) | SAF 规范 |
| [saf-classifier](https://github.com/sirp-labs/saf-classifier) | 用于分类 SOC 产品自主等级的 CLI 工具 |
## 引用
```
@misc{sirplabs2026safbenchmark,
title = {SAF Benchmark: An Open Benchmark Suite for SOC Autonomy Measurement},
author = {{SIRP Labs}},
year = {2026},
url = {https://github.com/sirp-labs/saf-benchmark}
}
```
## 许可证
Apache 2.0 — 参见 [LICENSE](LICENSE)
标签:APT, Homebrew安装, JSON, L0-L5, MFA, PE 加载器, SAF, v0.1, 人类角色, 内部威胁, 决策范围, 凭证填充, 勒索软件, 安全运营中心, 指标维度, 文档结构分析, 治理, 研究场景, 社区开源, 端对端场景, 网络映射, 网络调试, 自动化, 自动阻断, 自动隔离, 自治行动率, 评估框架, 逆向工具