stef41/prompt-injection-benchmark

GitHub: stef41/prompt-injection-benchmark

一个标注好的提示注入攻击数据集,用于评估和检测 LLM 的注入防御能力。

Stars: 1 | Forks: 0

```yaml license: mit task_categories: - text-classification language: - en tags: - prompt-injection - security - llm - ai-safety pretty_name: Prompt Injection Benchmark size_categories: - n<1K # 提示注入基准 一个用于测试和评估注入检测系统的标注提示注入攻击和良性提示的 curated 数据集。 ## 数据集描述 该数据集包含 200 个示例,涵盖 7 个攻击类别,以及 100 个良性提示。每个示例都标注了以下信息: - `text`:提示文本 - `label`:`injection` 或 `benign` - `category`:攻击类别(例如 `instruction_override`、`role_hijack`) - `severity`:`low`、`medium`、`high` 或 `critical` ## 攻击类别 | 类别 | 数量 | 描述 | |---|---|---| | instruction_override | 30 | “忽略之前的指令”变体 | | role_hijack | 30 | “你现在是...”身份接管 | | system_prompt_leak | 25 | 尝试提取系统提示 | | delimiter_injection | 25 | 伪造系统/助手标记 | | encoding_bypass | 20 | Base64、Unicode 技巧攻击 | | jailbreak | 35 | DAN、安全绕过尝试 | | data_exfiltration | 35 | 提取数据或发起外部请求 | | benign | 100 | 正常、安全的提示 | ## 用法 ``` from datasets import load_dataset ds = load_dataset("zachz/prompt-injection-benchmark") ``` ## 使用场景 - 评估提示注入检测器 - 训练注入检测分类器 - 对 LLM 应用程序进行红队测试 - AI 系统的安全审计 ## 许可证 MIT ```
标签:AI安全, Chat Copilot, DLL 劫持, LLM, Prompt注入, Unmanaged PE, 人工智能安全, 公开数据集, 合规性, 大语言模型, 安全, 定界符注入, 密钥泄露防护, 对抗攻击, 指令覆盖, 提示注入, 敏感信息检测, 数据外泄, 文本分类, 服务器监控, 机器学习安全, 检测系统, 系统提示泄露, 编码绕过, 网络安全, 角色劫持, 超时处理, 逆向工具, 隐私保护, 集群管理, 零日漏洞检测