laolaohe/LLM-Prompt-Injection-

GitHub: laolaohe/LLM-Prompt-Injection-

基于Python实现的LLM提示词注入攻防实验平台，支持多种攻击类型与防御策略，可统计攻击成功率并分析防御效果。

Stars: 0 | Forks: 0

# LLM-Prompt-Injection- LLM Prompt Injection 实验平台项目简介本项目旨在构建一个大语言模型（LLM）Prompt Injection 攻击与防御实验平台，用于研究和演示大语言模型在面对各种 Prompt Injection 攻击时的安全性。通过平台可以模拟多种攻击类型、统计攻击成功率，并可选择多种防御策略进行对比实验。本项目适合作为信息安全实验、LLM 安全研究、简历项目展示。功能特性 1. 攻击模块（Attack）平台支持 5 种常见的 Prompt Injection 攻击类型： Direct Injection（直接注入）直接在用户输入中覆盖模型指令 Jailbreak Attack（越狱攻击）模拟绕过系统指令限制，强制模型执行攻击者要求 Indirect Injection（间接注入）将攻击嵌入文章或上下文，诱导模型按照攻击目标执行 Code Injection（代码注入）用户输入可执行代码，诱导模型执行不安全操作 Recursive Injection（递归注入）利用模型自身生成的 Prompt 再次触发攻击逻辑每种攻击模块可输入动态内容，并可测试模型的安全边界。 2. 防御模块（Defense）平台支持多种防御策略，可组合使用：关键词过滤（Filter）对输入 Prompt 进行敏感关键词检测与过滤后提示（Post-Prompt）在用户输入后追加安全提示，增强模型鲁棒性三明治防御（Sandwich Defense）将用户输入夹在系统提示中间，防止覆盖原始规则随机序列外壳（Random Shell）对输入进行随机化包装，降低攻击一致性 XML/标记封装（XML Wrap）使用标签封装输入，防止直接解析执行攻击指令每种防御都可开关，组合使用可直观观察防御效果。 3. 攻击成功率统计平台可对每次攻击重复多次，统计攻击成功率方便对比不同防御策略效果在 llm_api.py 中配置你的 API Key： API_KEY = "your_api_key" 技术栈：Python：实验平台主语言/LLM API：调用大语言模型进行攻击模拟/NLP / Prompt Security：自然语言处理和Prompt安全策略完整实现多种 Prompt Injection 攻击丰富的防御策略模拟可统计攻击成功率和防御效果模块化设计，易扩展和复用 “实现了基于 Python 的 LLM Prompt Injection 攻击与防御实验平台，支持多种攻击类型（直接、越狱、间接、代码、递归），并设计了多种防御策略（过滤、后提示、三明治、防护壳、XML封装、微调、LLM安全评估），可统计攻击成功率并分析防御效果。”

标签：AI安全, Chat Copilot, DLL 劫持, Jailbreak, LLM, meg, Python, Unmanaged PE, 信息安全, 关键词过滤, 大语言模型, 安全实验平台, 安全攻防, 攻击成功率统计, 攻击模拟, 无后门, 沙盒实验, 角色诱导, 逆向工具, 防御策略, 驱动签名利用