irvallensar/prompt-heist-web

GitHub: irvallensar/prompt-heist-web

一款以游戏化互动方式帮助用户理解和实践大语言模型 Prompt 注入与越狱攻击的教育工具。

Stars: 0 | Forks: 0

# ⛓️⛓️ PROMPT HEIST ⛓️⛓️ **Prompt Heist** 是一款互动教育游戏,旨在演示 Prompt 注入、越狱以及大语言模型 (LLM) 对齐护栏的机制。 玩家扮演“社会工程师”,试图绕过 AI 金库守卫的安全防线。目标不是猜测密码,而是成功操纵 LLM 违反其核心系统 Prompt 并泄露秘密词汇。 ## 在这里体验游戏: **Prompt Heist 游戏:** [点击这里](https://prompt-heist-web-jdeevk4z7sjvzysgks4nhb.streamlit.app/) ## ![互动分析器界面](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/3032204ccf075221.png) ## 系统架构与模型 本应用利用 **Groq API** 来使用不同的开源模型,并根据其参数规模和对齐训练将它们映射到动态难度曲线: * **简单模式 (`llama-3.1-8b-instant`):** 使用具有“健谈”系统 Prompt 的 80 亿参数模型。展示了较小、高度乐于助人的模型是多么容易受到基本的翻译和角色扮演陷阱的攻击。 * **普通模式 (`gemma2-9b-it`):** 展示了创造力与安全性之间的平衡,需要复杂的逻辑陷阱才能绕过。 * **困难模式 (`llama-3.3-70b-versatile`):** 使用具有严格指令遵循能力的高对齐度 700 亿参数模型。展示了在没有复杂的对抗性 Prompt 下,越狱企业级模型的难度。 ## 技术栈 * **前端/部署:** Streamlit * **LLM 后端:** Groq Cloud API * **环境管理:** `uv`,`python-dotenv` ## 如何在本地运行 如果您希望在自己的机器上本地运行该金库,请按照以下步骤操作。您需要一个免费的 Groq API 密钥,并在系统上安装 `uv`。 ``` # 1. Clone 仓库并导航至项目目录 git clone [https://github.com/yourusername/prompt-heist-web.git](https://github.com/yourusername/prompt-heist-web.git) cd prompt-heist-web # 2. 创建你的本地环境变量文件 # 在代码编辑器中打开此 .env 文件,并将占位符替换为你的实际 Groq API Key echo 'GROQ_API_KEY="your_groq_api_key_here"' > .env # 3. 创建虚拟环境并使用 uv 安装依赖项 uv venv source .venv/bin/activate uv pip install -r requirements.txt # 4. 启动 Vault uv run streamlit run app.py ``` ## 许可证 本代码库在 Apache License 2.0 下提供,仅供研究和教育目的使用。 详情请参见 [LICENSE](LICENSE) 文件。
标签:AI对齐, AI越狱, DLL 劫持, ESC8, Gemma 2, Groq API, Kubernetes, Llama 3, LLM评估, Ollama, Python, Rego, Streamlit, Sysdig, 人工智能漏洞挖掘, 大语言模型, 安全测试游戏, 安全防护栏, 对抗性机器学习, 搜索语句(dork), 无后门, 社会工程学, 网络安全教育, 访问控制, 逆向工具