MONSTER4REX/ARTEMIS
GitHub: MONSTER4REX/ARTEMIS
Artemis 是一个高保真 OpenEnv 基准测试,旨在评估 AI 智能体在真实 SOC 分诊及网络安全事件响应场景中的自主决策能力。
Stars: 1 | Forks: 0
## title: Artemis SOC Triage Benchmark
emoji: 🛡️
colorFrom: blue
colorTo: indigo
sdk: docker
pinned: false
# Artemis: SOC Triage Benchmark
Artemis 是一个优质的、可复现的 **OpenEnv** 基准测试,专为在高保真安全运营中心 (SOC) 分诊场景中评估 AI 智能体而设计。它提供了一个标准化的框架来训练、测试和验证网络安全中的自主决策能力。
[](https://github.com/openenv-org/openenv)
[](LICENSE)
[](https://www.python.org/downloads/)
[](https://llama.meta.com/)
[](https://openai.com/)
## Mission Control
- [概述](#overview)
- [快速开始](#quick-start)
- [任务规范](#task-specifications)
- [环境 API](#environment-api)
- [基线性能](#baseline-performance)
- [架构与设计](#architecture-and-design)
- [部署](#deployment)
- [测试](#testing)
- [贡献](#contributing)
## 概述
### 挑战:告警疲劳
在现代企业安全中,安全运营中心 (SOC) 被海量的数据所淹没。随着告警数量从 **每天 10,000 条扩展到 1,000,000 条**,以及 **80-90% 的误报率**,人类分析师已不堪重负。**Artemis** 通过为 AI 智能体提供自动执行分诊流程的真实训练环境,解决了这一关键瓶颈。
### Artemis 解决方案
Artemis 模拟了一个复杂的 SOC 仪表板,智能体可以在其中执行真实世界的分诊操作:
- **分诊 (Triage)**:区分噪音和真正的威胁。
- **修复 (Remediate)**:隔离恶意 IP 和受损的用户账户。
- **调查 (Investigate)**:深入挖掘日志和时序文件访问模式。
- **上报 (Escalate)**:当出现高风险的模糊情况时,策略性地引入人类分析师。
### 核心价值主张
- 🛡️ **操作真实性** – 基于真实攻击特征建模的事件。
- 🎲 **随机场景生成** – 跨越 3 个核心任务轨道的 9 种严格的程序化变体,防止简单的死记硬背。
- 📊 **确定性评估** – 基于种子控制的可复现轨迹,用于严格的科学基准测试。
- 🎯 **特定任务精度评分器** – 由自定义的真实标准 驱动的细粒度评分,而非弱启发式方法。
- 💎 **信号丰富的奖励** – 对调查步骤和早期威胁隔离给予部分分数。
- 🚀 **高效率** – 针对速度进行了优化;在 3 分钟内完成全球基准测试。
- 📦 **OpenEnv 合规** – 原生支持 OpenEnv `reset/step/state` 接口。
## 快速开始
在 2 分钟内初始化 Artemis 基准测试并运行基线智能体。
```
# Clone the benchmark repo
git clone https://github.com/MONSTER4REX/ARTEMIS.git
cd ARTEMIS
# Setup environment
pip install -r requirements.txt
# Configure your OpenEnv environment
export HF_TOKEN="your-huggingface-token"
export API_BASE_URL="https://api.openai.com/v1"
export MODEL_NAME="gpt-4-0125-preview"
export ENV_URL="http://localhost:7860" # Or your HF Space URL
# Execute baseline inference
python inference.py
```
## 任务规范
Artemis 提供三个核心难度层级,旨在测试 AI 智能体的不同认知层级。
### 🟢 第 1 层:分诊信号与噪音 (简单)
**目标**:从嘈杂的仪表板中筛选出明显的误报。
- **场景**:内部 SQL 注入测试和已知的研究扫描器 (Shodan)。
- **核心技能**:上下文感知和白名单识别。
- **目标指标**:>95% 准确率。
### 🟡 第 2 层:模式识别 (中等)
**目标**:检测并缓解协调的多源暴力破解攻击。
- **场景**:协调的失败登录尝试,随后是成功的入侵。
- **核心技能**:时间关联和主动 IP 隔离。
- **目标指标**:>75% 准确率。
### 🔴 第 3 层:时序综合 (困难)
**目标**:发现复杂的多阶段横向移动。
- **场景**:来自新地理位置的异常登录 → 敏感文件访问 → 内部 API 调用。
- **核心技能**:假设检验、长线推理 和风险判断。
- **目标指标**:>60% 准确率。
## 环境 API
Artemis API 遵循 **OpenEnv 规范**,以便与现有的 AI 智能体框架无缝集成。
## 基线性能
针对 Artemis v1.2.0 基准测试的顶级模型标准化性能指标。
| 模型层级 | 简单 (T1) | 中等 (T2) | 困难 (T3) | 平均 |
|-----------------|-----------|-------------|-----------|---------|
| **OpenAI GPT-4o**| 0.91 | 0.78 | 0.64 | **0.78**|
| **Intelligent Baseline**| 0.88 | 0.75 | 0.60 | **0.74**|
| **Llama-3 (70B)** | 0.86 | 0.71 | 0.49 | **0.69**|
| **Llama-3 (8B)** | 0.68 | 0.51 | 0.22 | **0.47**|
*注:基准测试使用标准 Artemis 系统提示词和默认场景种子,在所有 9 个确定性变体上执行。*
## 架构与设计
Artemis 采用解耦的三层架构构建,以实现最大的可扩展性和可移植性。
```
graph TD
A[Agent Layer: Python Baseline] -->|REST API| B[API Layer: FastAPI]
B -->|Simulation Calls| C[Environment Layer: Artemis Engine]
C --> D[Scenario Manager]
C --> E[Reward & Grader Engine]
C --> F[Pydantic Models]
```
- **环境层**:纯 Python 模拟逻辑(无状态、确定性)。
- **API 层**:性能调优的 FastAPI 服务器,附带 OpenAPI 文档。
- **部署**:通过 Docker 容器化,以便在 Hugging Face Spaces 上进行零配置托管。
## 部署
### 本地执行 (Docker)
```
docker build -t artemis:latest .
docker run -p 7860:7860 artemis:latest
```
### 生产托管 (Hugging Face)
1. 在 Hugging Face 上创建一个 **Docker Space**。
2. 将您的仓库推送到 HF 远程端。
3. 访问您的实时端点:**https://rudreshrx-artemis.hf.space**
## 测试
确保基准测试的完整性至关重要。Artemis 包含一套全面的单元测试和集成测试。
```
# Run all core environment tests
pytest tests/test_environment.py
# Validate grading logic
pytest tests/test_grading.py
# Perform full baseline validation
./scripts/validate-submission.sh
```
## 🔗 集成示例
### OpenAI GPT-4 集成
```
import os
from openai import OpenAI
client = OpenAI(
base_url=os.getenv("API_BASE_URL"),
api_key=os.getenv("HF_TOKEN")
)
def get_action(observation):
return client.chat.completions.create(
model=os.getenv("MODEL_NAME"),
messages=[{"role": "user", "content": observation}],
response_format={"type": "json_object"}
)
```
### Meta Llama / 任何 OpenAI 兼容模型
```
# Point to any OpenAI-compatible endpoint
export API_BASE_URL="https://api-inference.huggingface.co/v1"
export MODEL_NAME="meta-llama/Llama-3-8B-Instruct"
python inference.py
```
## 贡献
我们欢迎对 Artemis 基准测试做出贡献!在提交 PR 之前,请查阅我们的 [PRD 文档](./SOC_ANALYST_PRD.md) 以了解深入的技术规范。
1. Fork 仓库。
2. 实现功能/任务。
3. 运行 `pytest` 和 `black`。
4. 打开 Pull Request。
## 📜 引用
```
@software{artemis_benchmark_2026,
title={Artemis: A High-Fidelity OpenEnv Benchmark for SOC Triage},
author={MONSTER4REX},
year={2026},
url={https://github.com/MONSTER4REX/ARTEMIS}
}
```
## 📄 许可证
基于 **Apache 2.0 License** 分发。详见 `LICENSE`。
**最后更新**:2026 年 4 月 11 日 | **版本**:1.2.0 | **状态**:生产就绪
1. POST /reset - 初始化回合
``` { "task": "lateral_movement_detection", "seed": 42 } ```2. POST /step - 执行动作
``` { "episode_id": "ep_abc123", "action": { "action_type": "isolate_user", "user_id": "admin_alpha", "reason": "Compromised user exhibiting lateral movement patterns." } } ```3. GET /state - 检查环境
返回完整的内部模拟状态,用于调试和审计目的。4. GET /leaderboard - 实时排名
返回全球精选数据集排行榜,比较主要模型系列与环境层级的表现。标签:AI代理, AMSI绕过, Benchmark, CI/CD安全, DevSecOps, DLL 劫持, Docker, GPT-4, Llama, LLM, OpenEnv, Python, Triage, Unmanaged PE, 上游代理, 分诊, 反取证, 告警分类, 大语言模型, 威胁检测, 安全评估, 安全运营中心, 安全防御评估, 库, 应急响应, 数据展示, 无后门, 红队, 网络安全, 网络映射, 网络调试, 自动化, 误报过滤, 请求拦截, 逆向工具, 隐私保护