jeetthakkar18/llm-security-prompt-injection-tinyllama
GitHub: jeetthakkar18/llm-security-prompt-injection-tinyllama
一份关于 TinyLlama 提示注入与数据泄露的实证研究,揭示 LLM 在对抗条件下的安全风险与防御局限。
Stars: 0 | Forks: 0
# 🔐 大型语言模型(TinyLlama 研究)中的提示注入与数据泄露
本仓库包含一篇关于大型语言模型(LLM)安全漏洞的实证研究论文,重点关注使用 TinyLlama 的提示注入和数据泄露问题。
## 📄 论文
- 📥 [从 Zenodo(DOI)下载](https://doi.org/10.5281/zenodo.19520997)
- 📄 [本地 PDF](./paper.pdf)
## 🔍 概述
本研究对 LLM 安全漏洞进行了受控实验评估,包括:
- 多种对抗策略下的提示注入攻击
- 防御性系统提示的评估
- 通过 LoRA 微调导致的合成机密数据泄露
## 📊 关键发现
- **85%** 提示注入漏洞(基线)
- 通过防御性提示降低至 **39%**
- **95%** 数据泄露率(在对抗性查询下)
- 多轮攻击仍然高度有效
## 🧠 贡献
- 对轻量级 LLM(TinyLlama)中的提示注入进行实证评估
- 展示通过微调导致的基于记忆的数据泄露
- 识别提示级防御的局限性
- 提出多层 LLM 安全建议
## 🔗 DOI
https://doi.org/10.5281/zenodo.19520997
## 📚 引用
如果您使用本研究,请引用:
Thakkar, Jeet Vijaykumar.
"Prompt Injection and Data Leakage in Large Language Models: An Empirical Study on TinyLlama."
Zenodo, 2026.
https://doi.org/10.5281/zenodo.19520997
## 📌 关键词
LLM 安全性、提示注入、数据泄露、TinyLlama、AI 安全、对抗性攻击
标签:AI安全, Chat Copilot, DLL 劫持, DOI, LoRA微调, TinyLlama, Zenodo, 人工智能安全, 关键词, 凭据扫描, 反取证, 合规性, 多轮攻击, 大语言模型, 安全评估, 实验研究, 对抗攻击, 情报收集, 提示注入, 敏感信息检测, 沙箱执行, 漏洞研究, 记忆化泄露, 轻量级大模型, 逆向工具, 防御提示, 集群管理