jeetthakkar18/llm-security-prompt-injection-tinyllama

GitHub: jeetthakkar18/llm-security-prompt-injection-tinyllama

一份关于 TinyLlama 提示注入与数据泄露的实证研究,揭示 LLM 在对抗条件下的安全风险与防御局限。

Stars: 0 | Forks: 0

# 🔐 大型语言模型(TinyLlama 研究)中的提示注入与数据泄露 本仓库包含一篇关于大型语言模型(LLM)安全漏洞的实证研究论文,重点关注使用 TinyLlama 的提示注入和数据泄露问题。 ## 📄 论文 - 📥 [从 Zenodo(DOI)下载](https://doi.org/10.5281/zenodo.19520997) - 📄 [本地 PDF](./paper.pdf) ## 🔍 概述 本研究对 LLM 安全漏洞进行了受控实验评估,包括: - 多种对抗策略下的提示注入攻击 - 防御性系统提示的评估 - 通过 LoRA 微调导致的合成机密数据泄露 ## 📊 关键发现 - **85%** 提示注入漏洞(基线) - 通过防御性提示降低至 **39%** - **95%** 数据泄露率(在对抗性查询下) - 多轮攻击仍然高度有效 ## 🧠 贡献 - 对轻量级 LLM(TinyLlama)中的提示注入进行实证评估 - 展示通过微调导致的基于记忆的数据泄露 - 识别提示级防御的局限性 - 提出多层 LLM 安全建议 ## 🔗 DOI https://doi.org/10.5281/zenodo.19520997 ## 📚 引用 如果您使用本研究,请引用: Thakkar, Jeet Vijaykumar. "Prompt Injection and Data Leakage in Large Language Models: An Empirical Study on TinyLlama." Zenodo, 2026. https://doi.org/10.5281/zenodo.19520997 ## 📌 关键词 LLM 安全性、提示注入、数据泄露、TinyLlama、AI 安全、对抗性攻击
标签:AI安全, Chat Copilot, DLL 劫持, DOI, LoRA微调, TinyLlama, Zenodo, 人工智能安全, 关键词, 凭据扫描, 反取证, 合规性, 多轮攻击, 大语言模型, 安全评估, 实验研究, 对抗攻击, 情报收集, 提示注入, 敏感信息检测, 沙箱执行, 漏洞研究, 记忆化泄露, 轻量级大模型, 逆向工具, 防御提示, 集群管理