laolaohe/LLM-Prompt-Injection-
GitHub: laolaohe/LLM-Prompt-Injection-
基于Python实现的LLM提示词注入攻防实验平台,支持多种攻击类型与防御策略,可统计攻击成功率并分析防御效果。
Stars: 0 | Forks: 0
# LLM-Prompt-Injection-
LLM Prompt Injection 实验平台
项目简介
本项目旨在构建一个 大语言模型(LLM)Prompt Injection 攻击与防御实验平台,用于研究和演示大语言模型在面对各种 Prompt Injection 攻击时的安全性。
通过平台可以模拟多种攻击类型、统计攻击成功率,并可选择多种防御策略进行对比实验。
本项目适合作为 信息安全实验、LLM 安全研究、简历项目展示。
功能特性
1. 攻击模块(Attack)
平台支持 5 种常见的 Prompt Injection 攻击类型:
Direct Injection(直接注入)
直接在用户输入中覆盖模型指令
Jailbreak Attack(越狱攻击)
模拟绕过系统指令限制,强制模型执行攻击者要求
Indirect Injection(间接注入)
将攻击嵌入文章或上下文,诱导模型按照攻击目标执行
Code Injection(代码注入)
用户输入可执行代码,诱导模型执行不安全操作
Recursive Injection(递归注入)
利用模型自身生成的 Prompt 再次触发攻击逻辑
每种攻击模块可输入动态内容,并可测试模型的安全边界。
2. 防御模块(Defense)
平台支持多种防御策略,可组合使用:
关键词过滤(Filter)
对输入 Prompt 进行敏感关键词检测与过滤
后提示(Post-Prompt)
在用户输入后追加安全提示,增强模型鲁棒性
三明治防御(Sandwich Defense)
将用户输入夹在系统提示中间,防止覆盖原始规则
随机序列外壳(Random Shell)
对输入进行随机化包装,降低攻击一致性
XML/标记封装(XML Wrap)
使用标签封装输入,防止直接解析执行攻击指令
每种防御都可开关,组合使用可直观观察防御效果。
3. 攻击成功率统计
平台可对每次攻击重复多次,统计 攻击成功率方便对比不同防御策略效果
在 llm_api.py 中配置你的 API Key:
API_KEY = "your_api_key"
技术栈:Python:实验平台主语言/LLM API:调用大语言模型进行攻击模拟/NLP / Prompt Security:自然语言处理和Prompt安全策略
完整实现 多种 Prompt Injection 攻击
丰富的 防御策略模拟
可统计 攻击成功率和防御效果
模块化设计,易扩展和复用
“实现了基于 Python 的 LLM Prompt Injection 攻击与防御实验平台,支持多种攻击类型(直接、越狱、间接、代码、递归),并设计了多种防御策略(过滤、后提示、三明治、防护壳、XML封装、微调、LLM安全评估),可统计攻击成功率并分析防御效果。”
标签:AI安全, Chat Copilot, DLL 劫持, Jailbreak, LLM, meg, Python, Unmanaged PE, 信息安全, 关键词过滤, 大语言模型, 安全实验平台, 安全攻防, 攻击成功率统计, 攻击模拟, 无后门, 沙盒实验, 角色诱导, 逆向工具, 防御策略, 驱动签名利用