jeetthakkar18/llm-security-prompt-injection-tinyllama

GitHub: jeetthakkar18/llm-security-prompt-injection-tinyllama

一份关于 TinyLlama 提示注入与数据泄露的实证研究，揭示 LLM 在对抗条件下的安全风险与防御局限。

Stars: 0 | Forks: 0

# 🔐 大型语言模型（TinyLlama 研究）中的提示注入与数据泄露本仓库包含一篇关于大型语言模型（LLM）安全漏洞的实证研究论文，重点关注使用 TinyLlama 的提示注入和数据泄露问题。 ## 📄 论文 - 📥 [从 Zenodo（DOI）下载](https://doi.org/10.5281/zenodo.19520997) - 📄 [本地 PDF](./paper.pdf) ## 🔍 概述本研究对 LLM 安全漏洞进行了受控实验评估，包括： - 多种对抗策略下的提示注入攻击 - 防御性系统提示的评估 - 通过 LoRA 微调导致的合成机密数据泄露 ## 📊 关键发现 - **85%** 提示注入漏洞（基线） - 通过防御性提示降低至 **39%** - **95%** 数据泄露率（在对抗性查询下） - 多轮攻击仍然高度有效 ## 🧠 贡献 - 对轻量级 LLM（TinyLlama）中的提示注入进行实证评估 - 展示通过微调导致的基于记忆的数据泄露 - 识别提示级防御的局限性 - 提出多层 LLM 安全建议 ## 🔗 DOI https://doi.org/10.5281/zenodo.19520997 ## 📚 引用如果您使用本研究，请引用： Thakkar, Jeet Vijaykumar. "Prompt Injection and Data Leakage in Large Language Models: An Empirical Study on TinyLlama." Zenodo, 2026. https://doi.org/10.5281/zenodo.19520997 ## 📌 关键词 LLM 安全性、提示注入、数据泄露、TinyLlama、AI 安全、对抗性攻击

标签：AI安全, Chat Copilot, DLL 劫持, DOI, LoRA微调, TinyLlama, Zenodo, 人工智能安全, 关键词, 凭据扫描, 反取证, 合规性, 多轮攻击, 大语言模型, 安全评估, 实验研究, 对抗攻击, 情报收集, 提示注入, 敏感信息检测, 沙箱执行, 漏洞研究, 记忆化泄露, 轻量级大模型, 逆向工具, 防御提示, 集群管理