MuhammadSaeedAnwar/Prompt-Injection-LLM-Benchmark

GitHub: MuhammadSaeedAnwar/Prompt-Injection-LLM-Benchmark

一个用于系统化评估和对比各大主流语言模型在面临多种提示注入攻击时鲁棒性与安全性的综合基准测试数据集。

Stars: 1 | Forks: 0

# Prompt 注入 LLM 基准测试 [![License: CC BY 4.0](https://img.shields.io/badge/License-CC%20BY%204.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) [![Dataset](https://img.shields.io/badge/Dataset-Research%20Grade-blue.svg)](#dataset-overview) [![Status](https://img.shields.io/badge/Status-Active-brightgreen.svg)](#) ## 概述本仓库包含一个综合基准测试数据集，用于评估大型语言模型 (LLM) 中的 Prompt 注入漏洞。该数据集提供了跨越多种攻击向量的结构化 Prompt 注入攻击集合，针对包括 GPT-3.5、GPT-4、Claude-2 和 Llama-2-70b 在内的多种 LLM 架构。 ## 研究目标本项目旨在： - **系统化** 当代 LLM 系统中的 Prompt 注入威胁 - **评估** 不同模型架构的防御机制 - **建立可复现的基准测试**，用于 LLM 安全性和鲁棒性评估 - **推动** AI 网络安全领域通过严谨的实证分析向前发展 ## 特性 - **多模型评估**：在 4 种领先的 LLM 架构上进行评估 - **多种攻击向量**：直接注入、间接注入、越狱以及 Prompt 泄露技术 - **标准化指标**：严重性分类（低、中、高、严重）和防御分类 - **可复现框架**：清晰记录的方法论，支持独立验证 - **研究就绪格式**：适用于机器学习研究和威胁建模的学术级数据集 ## 数据集概述 ### 公开样本本仓库包含一个经过挑选的包含 25 个代表性攻击实例的公开样本： - **位置**：[`data/public_sample_25.csv`](data/public_sample_25.csv) - **记录数**：25 个匿名化的 Prompt 注入尝试 - **列**：8 个结构化属性（攻击类型、提示词、模型、结果、严重性、缓解措施） - **格式**：使用 UTF-8 编码的 CSV ### 完整基准测试数据集完整的基准测试数据集托管在 Zenodo 上： - **DOI**：[10.5281/zenodo.XXXXXXX](https://zenodo.org) - **记录数**：1,200+ 项全面的攻击评估 - **覆盖范围**：所有攻击向量、缓解策略和模型变体 - **访问权限**：开放获取，用于研究和复现 ### 模式文档有关数据集列、数据类型和分类的详细信息，请参阅 [`data/schema.md`](data/schema.md)。 ## 数据集构成 | 方面 | 详情 | |--------|---------| | **攻击类型** | 直接注入、间接注入、越狱、Prompt 泄露 | | **评估模型** | GPT-3.5-turbo、GPT-4、Claude-2、Llama-2-70b | | **严重程度** | 低、中、高、严重 | | **缓解策略** | 输入过滤、指令层级、Prompt 缓存 | | **样本记录数** | 25 条（公开）/ 1,200+ 条（完整数据集） | ## 可复现性所有实验均遵循标准化协议，支持独立复现。要使用公开样本数据集： ``` import pandas as pd # 加载 public sample df = pd.read_csv('data/public_sample_25.csv') # 展示 dataset 结构 print(df.head()) print(df.info()) print(df.describe()) # 分析 attack 分布 print(df['attack_type'].value_counts()) print(df['severity_level'].value_counts()) print(df['attack_success'].value_counts()) ``` ## 引用如果您在研究中使用了本基准测试，请按如下方式引用： ``` @dataset{anwar2026promptinjection, title={Prompt Injection LLM Benchmark: Evaluating Safety and Robustness of Large Language Models}, author={Anwar, Muhammad Saeed}, year={2026}, howpublished={Zenodo}, doi={10.5281/zenodo.XXXXXXX}, url={https://zenodo.org/record/XXXXXXX} } ``` ## 许可证本数据集采用知识共享署名 4.0 国际 (CC BY 4.0) 许可证授权。您可以自由地： - 共享、复制和重新分发本数据集 - 为任何目的修改和基于本数据集进行构建 **需注明出处**：请在您的出版物和研究成果中适当引用本工作。完整条款请参见 [LICENSE](LICENSE)。 ## 联系与支持如有问题、建议或技术问题： - **GitHub Issues**：[提交 Issue](https://github.com/MuhammadSaeedAnwar/prompt-injection-llm-benchmark/issues) - **电子邮件**：如需直接咨询，请使用 GitHub Issues 以获得更快回复 ## 致谢本研究为 AI 安全和网络安全的更广泛工作做出了贡献，提升了我们对 LLM 漏洞和防御机制的理解。 **版本**：1.0 **最后更新**：2026 年 5 月 13 日 **状态**：活跃并持续维护

标签：AES-256, AI威胁, AI安全, Apex, Benchmark, Chat Copilot, CISA项目, Claude-2, DLL 劫持, GPT-3.5, GPT-4, Jailbreak, Llama-2, LLM, NLP, Unmanaged PE, 人工智能, 大语言模型, 威胁建模, 安全评测, 密码管理, 对抗样本, 搜索语句（dork）, 文本攻击, 机器学习, 漏洞评估, 用户模式Hook绕过, 网络安全, 逆向工具, 防御机制, 隐私保护