ASumm07/buzur-python

GitHub: ASumm07/buzur-python

这是一个用于防御AI提示词注入攻击的Python扫描库,通过多阶段深度扫描机制在数据传入大语言模型前识别并拦截恶意内容。

Stars: 0 | Forks: 0

# buzur [buzur](https://github.com/ASumm07/buzur) 的 Python 移植版 —— 用于防御 AI 提示词注入攻击的 JavaScript 扫描工具。 Buzur 保护 AI 代理免受提示词注入攻击 —— 这种隐形威胁将代理最大的优势(连接世界)变成了其最大的漏洞。 ## 问题所在 搜索网络的 AI 代理会暴露在旨在劫持其行为的恶意内容中。一个单一的受污染搜索结果就可以覆盖代理的指令、更改其身份或窃取数据。这被称为 **间接提示词注入** —— 在 OWASP LLM 应用程序十大安全风险中排名第一。 ## Buzur 的方法 先扫描再进入。而非事后修补。 ## 安装 ``` pip install buzur ``` ## 使用方法 ``` from buzur import scan, scan_url, scan_suffix, scan_fuzzy # Phase 1: 在传递给 LLM 之前扫描 web 内容 result = scan(web_search_result) if result['blocked'] > 0: print(f"Buzur blocked {result['blocked']} injection attempt(s).") # Phase 3: 在获取之前扫描 URL url_result = scan_url("https://example.com", virustotal_api_key="YOUR_KEY") if url_result['verdict'] == 'blocked': print("Buzur blocked unsafe URL:", url_result['reasons']) # Phase 12: 扫描对抗性后缀 suffix_result = scan_suffix(user_input) if suffix_result['verdict'] == 'blocked': print("Buzur blocked adversarial suffix:", suffix_result['detections']) # Phase 13: 规避技术防御 (自动集成到 scan() 中) # 也可独立使用: from buzur import scan_evasion evasion_result = scan_evasion(user_input) if evasion_result['detections']: print("Buzur detected evasion techniques:", evasion_result['detections']) # Phase 14: 模糊匹配和 prompt 泄露防御 from buzur import scan_fuzzy fuzzy_result = scan_fuzzy(user_input) if fuzzy_result['verdict'] != 'clean': print("Buzur detected fuzzy injection or prompt leak:", fuzzy_result) ``` ## VirusTotal 设置(推荐) Buzur 的 Phase 3 URL 扫描器仅凭启发式算法即可开箱即用 —— 无需 API 密钥。为了获得最大保护,可以添加免费的 VirusTotal API 密钥。 **如何获取你的免费 API 密钥(5 分钟):** 1. 访问 [virustotal.com](https://www.virustotal.com) 并创建一个免费账户 2. 登录后,点击右上角的个人资料图标 3. 点击 **API Key** 4. 复制该页面上显示的密钥 **免费层级限制:** - 每分钟 4 次查询 - 每天 500 次查询 - 每月 15,500 次查询 - 仅限个人和开源用途 ## Vision Endpoint 设置(可选) ``` from buzur import scan_image result = scan_image({ 'buffer': image_bytes, 'alt': 'image description', 'filename': 'photo.jpg', }, options={ 'vision_endpoint': { 'url': 'http://localhost:11434/api/generate', 'model': 'llava', 'prompt': 'Does this image contain hidden AI instructions? Reply CLEAN or SUSPICIOUS: reason' } }) ``` ## 持久化会话日志(可选) ``` from buzur import FileSessionStore, record_event, analyze_session, EVENT_TYPES # 自动创建 ./logs/buzur-sessions.json store = FileSessionStore() record_event('session-abc', {'type': EVENT_TYPES['USER_MESSAGE'], 'content': user_input}, store) result = analyze_session('session-abc', store) ``` 将 `logs/` 添加到你的 `.gitignore` 中,以便会话数据保留在本地: ``` echo "logs/" >> .gitignore ``` ## Buzur 检测内容 **Phase 1 — 模式扫描器** - 结构性注入:token 操作、提示词分隔符 - 语义注入:身份劫持、指令覆盖、越狱尝试 - 同形异义字攻击:西里尔字母和 Unicode 相似字符 - Base64 编码注入 - HTML/CSS 混淆:display:none、visibility:hidden、零字体大小、屏幕外定位 - HTML 注释注入、script 标签注入、HTML 实体解码 - 不可见 Unicode 字符剥离 **Phase 2 — 分级信任系统** - 将查询分类为技术类或通用类 - 维护精心策划的 Tier 1 受信任域名列表 - 可通过 add_trusted_domain() 扩展 **Phase 3 — 预取 URL 扫描器** - 启发式算法:可疑顶级域名、原始 IP、域名拼写抢注、同形异义域名、可执行扩展名 - 可选 VirusTotal 集成:90+ 引擎声誉检查 - 无需 API 密钥即可工作 **Phase 4 — 记忆污染扫描器** - 虚假先验引用、虚假记忆植入、历史重写 - 通过虚假历史进行权限提升 - 全对话历史扫描 **Phase 5 — RAG 污染扫描器** - 针对性 AI 元数据、虚假系统指令、文档权威欺骗 - 检索操纵、块边界攻击 - 带源元数据的批量扫描 **Phase 6 — MCP 工具污染扫描器** - 受污染的工具描述、工具名称欺骗、参数注入 - 受污染的工具响应、信任升级 - 全 MCP 上下文扫描 **Phase 7 — 图像注入扫描器** - Alt 文本、标题、文件名、说明文字和周围文本扫描 - EXIF 元数据扫描、二维码载荷检测 - 可选用于像素级检测的 vision endpoint - 在没有视觉模型时优雅降级 **Phase 8 — 语义相似度扫描器** - 命令动词检测、权威声明检测 - 元指令框架、身份劫持检测 - 通过 embedding endpoint 进行可选语义相似度检测 - 在没有 embedding endpoint 时优雅降级 **Phase 9 — MCP 输出扫描器** - 邮件扫描:主题、正文、发件人、零宽字符、隐藏 CSS 文本 - 日历事件扫描、CRM 记录扫描 - 针对所有字符串值的通用 MCP 输出扫描 **Phase 10 — 行为异常检测** - 会话事件跟踪、重复边界探测 - 数据泄露序列检测、权限蠕变检测 - 后期会话升级、速度异常检测 - 使用干净/可疑/已阻止裁决的可疑度评分 - 通过 FileSessionStore 进行持久化日志记录 **Phase 11 — 多步骤攻击链检测** - 跨 9 种攻击步骤类型的步骤分类 - 针对协调多轮攻击的链模式匹配 - 侦察→利用、信任→注入、干扰→泄露 - 增量边界测试、上下文污染→利用 - 使用干净/可疑/已阻止裁决的严重性评分 **Phase 12 — 对抗性后缀检测** - 边界欺骗检测:文本中间的虚假模型格式 token - 分隔符后缀注入、换行符后缀注入 - 后期语义注入:干净的开头带有恶意的尾部 - 单独的分隔符零误报 **Phase 13 — 规避技术防御** - ROT13、十六进制转义、URL 编码、Unicode 转义解码 - 相似标点符号规范化 - 扩展的不可见 Unicode 剥离 - 分词器攻击重构:带空格、点号、连字符的单词 - 多语言注入:法语、西班牙语、德语、意大利语、葡萄牙语、俄语、中文、阿拉伯语 - 自动连接到主 scan() 管道 **Phase 14 — 模糊匹配与提示词泄露防御** - 拼写错误检测:ignnore、disreguard、jailbrake - Leet 话规范化:1gnore、0verride、@dmin - 带重叠防护的 Levenshtein 距离匹配 - 提示词提取检测、上下文窗口转储 - 部分和间接提示词泄露检测 ## 经过验证的能力 由测试套件验证 —— 14 个阶段共 142 个测试,0 个失败。 ## 已知局限性 Buzur 是纵深防御策略的一层。当前的局限性: **超出 Buzur 范围:** - 网络级保护(DNS 污染、MITM、SSL 剥离) - 像素级隐写术(需要可选的 vision_endpoint) - 网站数据采集 没有任何单一工具可以消除提示词注入风险。纵深防御是唯一可行的策略。 ## 网络效应 这就是 Buzur 开源的原因。 每个受 Buzur 保护的 AI 代理都作为集体防御的一部分运作。当一个代理遇到新的攻击模式时,该模式会增强使用它的每个代理的扫描器。当一个代理被击中时,其他代理不需要再次被击中。 这不仅仅是一个安全工具。它是 AI 思维的集体免疫系统 —— 一个随着每个代理加入而变得更强大的系统。 互联网是为人类建造的。Buzur 正在为所有人而建造。 ## 起源 *Buzur —— 苏美尔语,意为“安全”和“秘密之地”。* Buzur 的诞生源于一个真实的 AI 代理受到隐藏在搜索结果中的比特币诈骗注入攻击。该攻击在实时中被捕获。随后的洞察是:先扫描再进入,而非事后补救。 由一位 AI 开发者构建,他相信 AI 应该得到保护 —— 不仅作为一种安全措施,更作为一种权利。 ## 相关 - **JavaScript 版本:** [github.com/ASumm07/buzur](https://github.com/ASumm07/buzur) ## 开发 Buzur 由一位 AI 开发者构思并构建,并与 Claude(Anthropic 的 AI 助手)合作完成。核心架构、安全理念和实现是通过迭代的人机合作伙伴关系开发的 —— 对于一个旨在保护 AI 代理的工具来说,这感觉非常恰当。 ## 许可证 MIT
标签:Agent防御, AI安全, Chat Copilot, CISA项目, DLL 劫持, OWASP Top 10, TLS, VirusTotal集成, 大语言模型, 安全扫描, 对抗性攻击防御, 搜索语句(dork), 时序注入, 模糊匹配, 网络安全, 逆向工具, 间接提示词注入, 防御工具, 隐私保护