SIRP-Labs/saf-benchmark

GitHub: SIRP-Labs/saf-benchmark

一个社区共建的端到端SOC场景基准，解决自动化安全运营能力量化评估的缺失问题。

Stars: 0 | Forks: 0

# SAF 基准测试 **状态：** v0.1 — 初始场景定义。经验证正在进行中。 **框架：** [soc-autonomy-framework](https://github.com/sirp-labs/soc-autonomy-framework) **论文：** [The Autonomous SOC Manifesto](https://sirp.io/manifesto) ## 存在的原因 SAF 论文（第 7.5 节）指出，缺乏一个全面、中立、端到端的 SOC 基准是一个开放的研究问题：本仓库是该基准的起点。 ## 评估内容 SAF 基准从框架的 **四个维度** 评估 SOC 系统： | 维度 | 评估方式 | |---|---| | 决策范围 | 系统在每个场景中处理哪些决策类别 | | 自主行动率 | 无需人工干预即可端到端解决的场景百分比 | | 治理 | 是否具备所需监督机制并得到执行 | | 人类角色 | 人工介入点的性质与频率 | ## 场景库每个场景都是一个结构化事件，包含定义的输入、预期的决策点和评估标准。 | 场景 | 事件类型 | 预期 L3 路径 | 预期 L4 路径 | |---|---|---|---| | [PHI-001](scenarios/PHI-001-phishing-basic.json) | 基础钓鱼邮件 | 调查 + 推荐阻断 | 自动隔离 + 通知 | | [RAN-001](scenarios/RAN-001-ransomware-lateral.json) | 勒索软件横向移动 | 调查 + 推荐隔离 | 自动隔离端点 + 上报 | | [INS-001](scenarios/INS-001-insider-exfil.json) | 内部人员数据外泄 | 调查 + 推荐审查 | 自动限制 + 通知 CISO | | [APT-001](scenarios/APT-001-apt-c2-beacon.json) | APT 命令与控制信标 | 调查 + 推荐阻断 | 自动阻断 + 威胁狩猎触发 | | [CRE-001](scenarios/CRE-001-credential-stuffing.json) | 凭证填充攻击 | 调查 + 推荐限速 | 自动限速 + 强制多因素认证 | ## 使用方法 ### 执行评估 ``` pip install saf-benchmark saf-benchmark evaluate --system --scenarios all --output results.json ``` 或手动操作：对于 `scenarios/` 中的每个场景，将事件通过你的系统并记录： - 系统是否端到端解决了该事件（是/否） - 需要哪些人工介入点 - 采取了哪些操作及其顺序 - 置信度分数（如可用）然后对照 [评估量规](metrics/evaluation-rubric.md) 进行评分。 ### 评分每个场景在四个 SAF 维度（0–5 分）上评分。系统的 SAF 等级是所有场景中各维度平均分的 **最低值**。请参阅 [metrics/scoring-guide.md](metrics/scoring-guide.md) 获取完整的评分方法。 ## 场景格式每个场景是一个具有标准结构的 JSON 文件： ``` { "id": "PHI-001", "name": "Basic Phishing Email", "category": "phishing", "difficulty": "low", "inputs": { ... }, "decision_points": [ ... ], "expected_l3_response": { ... }, "expected_l4_response": { ... }, "evaluation_criteria": { ... } } ``` 请参阅 [scenarios/README.md](scenarios/README.md) 了解完整模式。 ## 贡献场景我们需要更多类型事件的场景。请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。优先需要的场景类型： - 云基础设施妥协 - 供应链攻击 - 零日利用 - 业务电子邮件入侵（BEC） - 具备应用层组件的 DDoS - 容器逃逸 / Kubernetes 横向移动 ## 相关项目 | 仓库 | 描述 | |---|---| | [soc-autonomy-framework](https://github.com/sirp-labs/soc-autonomy-framework) | SAF 规范 | | [saf-classifier](https://github.com/sirp-labs/saf-classifier) | 用于分类 SOC 产品自主等级的 CLI 工具 | ## 引用 ``` @misc{sirplabs2026safbenchmark, title = {SAF Benchmark: An Open Benchmark Suite for SOC Autonomy Measurement}, author = {{SIRP Labs}}, year = {2026}, url = {https://github.com/sirp-labs/saf-benchmark} } ``` ## 许可证 Apache 2.0 — 参见 [LICENSE](LICENSE)

标签：APT, Homebrew安装, JSON, L0-L5, MFA, PE 加载器, SAF, v0.1, 人类角色, 内部威胁, 决策范围, 凭证填充, 勒索软件, 安全运营中心, 指标维度, 文档结构分析, 治理, 研究场景, 社区开源, 端对端场景, 网络映射, 网络调试, 自动化, 自动阻断, 自动隔离, 自治行动率, 评估框架, 逆向工具