dsuyu1/irene-b
GitHub: dsuyu1/irene-b
IRENE 是一个多步骤智能体基准,通过状态依赖的事件响应生命周期模拟来系统评估大语言模型在网络安全事件响应中的实际能力。
Stars: 0 | Forks: 0
# 引言
**Incident Response End-to-End (IRENE)** 是一个多步骤的 agentic benchmark,用于在整个事件响应生命周期中评估 LLM。该项目的目标是通过创建一个评估 LLM 走完完整事件响应生命周期能力的 benchmark,来填补网络安全领域 LLM benchmark 的空白。
## 核心理念
大多数现有的 benchmark 将安全视为一组问答问题。例如,你向模型提出一个问题,它做出回答,然后你对其进行评分。然而,这并不能反映_真实的_事件响应(IR)。
IR 是一棵分支决策树,你采取的每一个行动都会改变你可获取的信息,而错误的转弯会耗费真实的时间。你可以将其与那些你的选择会影响游戏结局的恋爱模拟游戏进行比较。大概就是类似的概念。
IRENE 将一个事件建模为_有向状态图_。对模型的评估不仅取决于它是否得出了正确答案,还取决于其推理路径的_质量_、追踪了多少条错误线索、采取了多少不必要的行动,以及它的最终报告是否准确反映了所发生的情况。
## 我们的贡献
关键的技术贡献是状态依赖的信息披露。模型只能看到真实分析师在每个步骤中所能看到的内容。回想一下刚才那个恋爱模拟游戏的例子——你无法预见当前选择之后的情况,只能看到你过去做出的选择以及此时此刻摆在你面前的选择。
## 快速开始
```
python -m pip install -e ".[dev]"
irene list # available incidents
irene run incidents/phishing_credential_theft.yaml --optimal # offline, no API key
# 运行模型 — Claude:
python -m pip install -e ".[anthropic]"
$env:ANTHROPIC_API_KEY = "sk-ant-..."
irene run incidents/phishing_credential_theft.yaml --judge
# ...或任何 OpenAI 兼容端点 (vLLM, Together, Groq, Ollama, OpenAI):
python -m pip install -e ".[openai]"
irene run incidents/phishing_credential_theft.yaml \
--provider openai --model --base-url http://localhost:8000/v1
```
分析师以**自由文本**形式进行操作;一个 resolver 将其映射到事件图中,因此
在保持界面真实感的同时,评分依然保持确定性。
## 文档
- **[METHODOLOGY.md](METHODOLOGY.md)** — IRENE 如何对模型进行评分,以及这如何
遵循当前的 agentic-benchmark 文献(基于规则的可验证评分 + 基于执行轨迹的 LLM-as-judge 评分标准)。
- **[CONTRIBUTING.md](CONTRIBUTING.md)** — 如何编写新的事件并运行
benchmark。
标签:AI智能体, DLL 劫持, LLM评估, Ollama, Petitpotam, 大语言模型, 库, 应急响应, 文档结构分析, 网络安全, 逆向工具, 隐私保护