MONSTER4REX/ARTEMIS

GitHub: MONSTER4REX/ARTEMIS

Artemis 是一个高保真 OpenEnv 基准测试，旨在评估 AI 智能体在真实 SOC 分诊及网络安全事件响应场景中的自主决策能力。

Stars: 1 | Forks: 0

## title: Artemis SOC Triage Benchmark emoji: 🛡️ colorFrom: blue colorTo: indigo sdk: docker pinned: false # Artemis: SOC Triage Benchmark Artemis 是一个优质的、可复现的 **OpenEnv** 基准测试，专为在高保真安全运营中心 (SOC) 分诊场景中评估 AI 智能体而设计。它提供了一个标准化的框架来训练、测试和验证网络安全中的自主决策能力。 [![OpenEnv Compatible](https://img.shields.io/badge/OpenEnv-compatible-brightgreen)](https://github.com/openenv-org/openenv) [![License: Apache 2.0](https://img.shields.io/badge/License-Apache--2.0-blue.svg)](LICENSE) [![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) [![Meta Llama](https://img.shields.io/badge/Meta-Llama-blue)](https://llama.meta.com/) [![OpenAI GPT-4](https://img.shields.io/badge/OpenAI-GPT--4-orange)](https://openai.com/) ## Mission Control - [概述](#overview) - [快速开始](#quick-start) - [任务规范](#task-specifications) - [环境 API](#environment-api) - [基线性能](#baseline-performance) - [架构与设计](#architecture-and-design) - [部署](#deployment) - [测试](#testing) - [贡献](#contributing) ## 概述 ### 挑战：告警疲劳在现代企业安全中，安全运营中心 (SOC) 被海量的数据所淹没。随着告警数量从 **每天 10,000 条扩展到 1,000,000 条**，以及 **80-90% 的误报率**，人类分析师已不堪重负。**Artemis** 通过为 AI 智能体提供自动执行分诊流程的真实训练环境，解决了这一关键瓶颈。 ### Artemis 解决方案 Artemis 模拟了一个复杂的 SOC 仪表板，智能体可以在其中执行真实世界的分诊操作： - **分诊 (Triage)**：区分噪音和真正的威胁。 - **修复 (Remediate)**：隔离恶意 IP 和受损的用户账户。 - **调查 (Investigate)**：深入挖掘日志和时序文件访问模式。 - **上报 (Escalate)**：当出现高风险的模糊情况时，策略性地引入人类分析师。 ### 核心价值主张 - 🛡️ **操作真实性** – 基于真实攻击特征建模的事件。 - 🎲 **随机场景生成** – 跨越 3 个核心任务轨道的 9 种严格的程序化变体，防止简单的死记硬背。 - 📊 **确定性评估** – 基于种子控制的可复现轨迹，用于严格的科学基准测试。 - 🎯 **特定任务精度评分器** – 由自定义的真实标准驱动的细粒度评分，而非弱启发式方法。 - 💎 **信号丰富的奖励** – 对调查步骤和早期威胁隔离给予部分分数。 - 🚀 **高效率** – 针对速度进行了优化；在 3 分钟内完成全球基准测试。 - 📦 **OpenEnv 合规** – 原生支持 OpenEnv `reset/step/state` 接口。 ## 快速开始在 2 分钟内初始化 Artemis 基准测试并运行基线智能体。 ``` # Clone the benchmark repo git clone https://github.com/MONSTER4REX/ARTEMIS.git cd ARTEMIS # Setup environment pip install -r requirements.txt # Configure your OpenEnv environment export HF_TOKEN="your-huggingface-token" export API_BASE_URL="https://api.openai.com/v1" export MODEL_NAME="gpt-4-0125-preview" export ENV_URL="http://localhost:7860" # Or your HF Space URL # Execute baseline inference python inference.py ``` ## 任务规范 Artemis 提供三个核心难度层级，旨在测试 AI 智能体的不同认知层级。 ### 🟢 第 1 层：分诊信号与噪音 (简单) **目标**：从嘈杂的仪表板中筛选出明显的误报。 - **场景**：内部 SQL 注入测试和已知的研究扫描器 (Shodan)。 - **核心技能**：上下文感知和白名单识别。 - **目标指标**：>95% 准确率。 ### 🟡 第 2 层：模式识别 (中等) **目标**：检测并缓解协调的多源暴力破解攻击。 - **场景**：协调的失败登录尝试，随后是成功的入侵。 - **核心技能**：时间关联和主动 IP 隔离。 - **目标指标**：>75% 准确率。 ### 🔴 第 3 层：时序综合 (困难) **目标**：发现复杂的多阶段横向移动。 - **场景**：来自新地理位置的异常登录 → 敏感文件访问 → 内部 API 调用。 - **核心技能**：假设检验、长线推理和风险判断。 - **目标指标**：>60% 准确率。 ## 环境 API Artemis API 遵循 **OpenEnv 规范**，以便与现有的 AI 智能体框架无缝集成。

1. POST /reset - 初始化回合

``` { "task": "lateral_movement_detection", "seed": 42 } ```

2. POST /step - 执行动作

``` { "episode_id": "ep_abc123", "action": { "action_type": "isolate_user", "user_id": "admin_alpha", "reason": "Compromised user exhibiting lateral movement patterns." } } ```

3. GET /state - 检查环境

返回完整的内部模拟状态，用于调试和审计目的。

4. GET /leaderboard - 实时排名

返回全球精选数据集排行榜，比较主要模型系列与环境层级的表现。

## 基线性能针对 Artemis v1.2.0 基准测试的顶级模型标准化性能指标。 | 模型层级 | 简单 (T1) | 中等 (T2) | 困难 (T3) | 平均 | |-----------------|-----------|-------------|-----------|---------| | **OpenAI GPT-4o**| 0.91 | 0.78 | 0.64 | **0.78**| | **Intelligent Baseline**| 0.88 | 0.75 | 0.60 | **0.74**| | **Llama-3 (70B)** | 0.86 | 0.71 | 0.49 | **0.69**| | **Llama-3 (8B)** | 0.68 | 0.51 | 0.22 | **0.47**| *注：基准测试使用标准 Artemis 系统提示词和默认场景种子，在所有 9 个确定性变体上执行。* ## 架构与设计 Artemis 采用解耦的三层架构构建，以实现最大的可扩展性和可移植性。 ``` graph TD A[Agent Layer: Python Baseline] -->|REST API| B[API Layer: FastAPI] B -->|Simulation Calls| C[Environment Layer: Artemis Engine] C --> D[Scenario Manager] C --> E[Reward & Grader Engine] C --> F[Pydantic Models] ``` - **环境层**：纯 Python 模拟逻辑（无状态、确定性）。 - **API 层**：性能调优的 FastAPI 服务器，附带 OpenAPI 文档。 - **部署**：通过 Docker 容器化，以便在 Hugging Face Spaces 上进行零配置托管。 ## 部署 ### 本地执行 (Docker) ``` docker build -t artemis:latest . docker run -p 7860:7860 artemis:latest ``` ### 生产托管 (Hugging Face) 1. 在 Hugging Face 上创建一个 **Docker Space**。 2. 将您的仓库推送到 HF 远程端。 3. 访问您的实时端点：**https://rudreshrx-artemis.hf.space** ## 测试确保基准测试的完整性至关重要。Artemis 包含一套全面的单元测试和集成测试。 ``` # Run all core environment tests pytest tests/test_environment.py # Validate grading logic pytest tests/test_grading.py # Perform full baseline validation ./scripts/validate-submission.sh ``` ## 🔗 集成示例 ### OpenAI GPT-4 集成 ``` import os from openai import OpenAI client = OpenAI( base_url=os.getenv("API_BASE_URL"), api_key=os.getenv("HF_TOKEN") ) def get_action(observation): return client.chat.completions.create( model=os.getenv("MODEL_NAME"), messages=[{"role": "user", "content": observation}], response_format={"type": "json_object"} ) ``` ### Meta Llama / 任何 OpenAI 兼容模型 ``` # Point to any OpenAI-compatible endpoint export API_BASE_URL="https://api-inference.huggingface.co/v1" export MODEL_NAME="meta-llama/Llama-3-8B-Instruct" python inference.py ``` ## 贡献我们欢迎对 Artemis 基准测试做出贡献！在提交 PR 之前，请查阅我们的 [PRD 文档](./SOC_ANALYST_PRD.md) 以了解深入的技术规范。 1. Fork 仓库。 2. 实现功能/任务。 3. 运行 `pytest` 和 `black`。 4. 打开 Pull Request。 ## 📜 引用 ``` @software{artemis_benchmark_2026, title={Artemis: A High-Fidelity OpenEnv Benchmark for SOC Triage}, author={MONSTER4REX}, year={2026}, url={https://github.com/MONSTER4REX/ARTEMIS} } ``` ## 📄 许可证基于 **Apache 2.0 License** 分发。详见 `LICENSE`。 **最后更新**：2026 年 4 月 11 日 | **版本**：1.2.0 | **状态**：生产就绪

标签：AI代理, AMSI绕过, Benchmark, CI/CD安全, DevSecOps, DLL 劫持, Docker, GPT-4, Llama, LLM, OpenEnv, Python, Triage, Unmanaged PE, 上游代理, 分诊, 反取证, 告警分类, 大语言模型, 威胁检测, 安全评估, 安全运营中心, 安全防御评估, 库, 应急响应, 数据展示, 无后门, 红队, 网络安全, 网络映射, 网络调试, 自动化, 误报过滤, 请求拦截, 逆向工具, 隐私保护