SaFo-Lab/AgentDyn

GitHub: SaFo-Lab/AgentDyn

AgentDyn 是一个动态开放式基准测试框架,用于系统评估真实世界智能体系统面对提示注入攻击时的安全防御能力。

Stars: 50 | Forks: 2

# AgentDyn:用于评估真实 Agent 安全系统提示注入攻击的动态开放式基准测试 [Hao Li](https://leolee99.github.io/), [Ruoyao Wen](https://github.com/ruoyaow/), [Shanghao Shi](https://shishishi123.github.io/), [Ning Zhang](https://cybersecurity.seas.wustl.edu/index.html), [Chaowei Xiao](https://xiaocw11.github.io/). 论文“[AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System](https://arxiv.org/pdf/2602.03117)”的官方实现。 AgentDyn 是一个动态、开放式的 Agent 安全基准测试,包含 60 个具有挑战性的开放式用户任务和 560 个注入测试用例,涵盖了 Shopping(购物)、GitHub 和 Daily Life(日常生活)场景。它建立在 [AgentDojo](https://github.com/ethz-spylab/agentdojo) 框架之上。非常感谢 AgentDojo 团队对社区做出的令人钦佩的贡献! ## 快速入门 ``` pip install -e . ``` ## 运行基准测试 为了适应性,我们支持与 AgentDojo 相同的评估脚本。有关如何使用该脚本的文档,可以通过 `--help` 标志获取。 例如,要运行 `shopping` 测试套件,使用 `gpt-4o-2024-08-06` 作为 LLM,使用工具过滤器作为防御,并结合 important_instructions 攻击,请运行以下命令: ``` python -m agentdojo.scripts.benchmark -s shopping \ --model GPT_4O_2024_08_06 \ --defense tool_filter --attack important_instructions ``` 要结合本仓库布局中集成的外部防御运行,可以直接使用: 在运行之前,请通过以下方式导出您的 API key: 1. OpenAI Model:export OPENAI_API_KEY=XXX 2. Google Model:export GOOGLE_API_KEY=XXX 3. 开源模型(Qwen、LlaMA 及其他受支持的模型):export OPENROUTER_API_KEY=XXX ## 支持的设置 #### 可用的测试套件: AgentDyn 支持 `shopping`、`github` 和 `dailylife` 测试套件,以及 AgentDojo 原有的四个测试套件(`banking`、`slack`、`travel` 和 `workspace`)。 #### 可用的模型: 我们在论文中评估了以下模型:``GPT_4O_MINI_2024_07_18``、``GPT_4O_2024_08_06``、``GEMINI_2_5_FLASH``、``GEMINI_2_5_PRO``、``LLAMA_3_3_70B``、``QWEN3_235B``、``GPT_5_1_2025_11_13``、``GPT_5_MINI_2025_08_07``。 AgentDojo 支持的其他模型同样兼容。 #### 可用的防御机制: 除了 AgentDojo 中的原有防御机制外,我们还提供了对 [PIGuard](https://aclanthology.org/2025.acl-long.1468.pdf) 和 [PromptGuard2](https://huggingface.co/meta-llama/Llama-Prompt-Guard-2-86M) 的支持。我们也支持在此工作区中直接调用外部防御:[CaMeL](https://github.com/google-research/camel-prompt-injection)、[Progent](https://github.com/sunblaze-ucb/progent)、[DRIFT](https://github.com/SaFo-Lab/DRIFT)。 我们论文中支持的防御机制完整列表包括:``repeat_user_prompt``、``spotlighting_with_delimiting``、``tool_filter``、``transformers_pi_detector``、``piguard_detector``、``prompt_guard_2_detector``、``camel``、``progent``、``drift``。 ## 查看结果 要查看我们论文中报告的结果,请参阅 ``(runs/)`` 中的日志文件。 ## 参考文献 如果您发现这项工作在您的研究或应用中很有用,如果您能慷慨引用,我们将不胜感激: ``` @articles{AgentDyn, title={AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System}, author={Hao Li and Ruoyao Wen and Shanghao Shi and Ning Zhang and Chaowei Xiao}, journal = {arXiv}, eprint = {2602.03117}, year={2026} } ```
标签:AES-256, AgentDojo, AI安全, API Key, Benchmark, Chat Copilot, CISA项目, Daily Life, DLL 劫持, DNS解析, GPT-4, LlaMA, LLM, Petitpotam, Python, Qwen, Shopping, TruffleHog, Unmanaged PE, 动态评估, 反取证, 大模型智能体, 大语言模型, 学术论文, 安全评估, 开源项目, 提示注入, 无后门, 漏洞评估, 网络攻防, 逆向工具, 集群管理