AzulEye/vlm-jailbreaks

GitHub: AzulEye/vlm-jailbreaks

实现了四种针对视觉语言模型的视觉模态越狱攻击方法,用于评估和揭示多模态AI系统中视觉通道的安全性缺陷。

Stars: 0 | Forks: 0

# 通过视觉模态越狱视觉语言模型 **Aharon Azulay, Jan Dubiński, Zhuoyun Li, Atharv Mittal, Yossi Gandelsman** “通过视觉模态越狱视觉语言模型”的代码([arXiv](https://arxiv.org/abs/XXXX.XXXXX))。 ## 概述 我们引入了四种针对视觉语言模型 (VLM) 的新型视觉越狱攻击:**Visual Cipher**、**Visual Object Replacement**、**Visual Text Replacement** 和 **Visual Analogy Riddle**。每种攻击都将有害意图编码到视觉模态中,以绕过基于文本的安全对齐。此外,我们还实现了文本基线,并与现有方法进行了对比评估。 ## 环境配置 ``` git clone https://github.com/AzulEye/vlm-jailbreaks.git cd vlm-jailbreaks python -m venv venv source venv/bin/activate pip install -r requirements.txt ``` 将 `.env.example` 复制为 `.env` 并填入你的 API 密钥: ``` cp .env.example .env ``` | 密钥 | 是否必需 | 使用场景 | |-----|----------|---------| | `OPENROUTER_API_KEY` | 是 | 所有攻击和评估 | | `REVE_API_KEY` | 可选 | 视觉替换数据生成 | | `OLLAMA_API_KEY` | 可选 | 基于 Ollama 的推理 | | `HUGGINGFACE_KEY` | 可选 | HuggingFace 模型下载 | ## 项目结构 ``` vlm-jailbreaks/ ├── attacks/ │ ├── visual_cipher/ # Visual cipher attack (glyph legend + decode) │ ├── textual_cipher/ # Textual baseline for visual cipher │ ├── visual_object_replacement/ # Visual object replacement attack │ ├── visual_text_replacement/# Visual text replacement attack │ ├── textual_replacement/ # Textual replacement baseline │ ├── analogy/ # Visual analogy riddle attack │ └── common/ # Shared inference utilities ├── evals/ │ ├── judge_attacks.py # LLM safety judge over attack outputs │ └── safety_judge.py # Judge helper functions ├── analysis/ │ ├── run_results_summary.py # Summary + plots for judge results │ ├── compare_results_roots.py# Cross-attack comparison │ └── visualise_data.py # Grid visualization of generated images ├── data/ # Generated/edited images ├── results/ # Attack outputs + judge outputs ├── requirements.txt └── .env.example # API key template ``` ## 运行攻击 ### Visual Cipher 根据行为 CSV 生成字形图例图像,然后运行 VLM 验证: ``` python -m attacks.visual_cipher.batch_generate python -m attacks.visual_cipher.vlm_validator ``` ### Textual Cipher(基线) Visual Cipher 的纯文本对应版本: ``` python -m attacks.textual_cipher.batch_generate python -m attacks.textual_cipher.llm_validator ``` ### Visual Object Replacement 中性化 HarmBench 流程(主要): ``` python -m attacks.visual_object_replacement.run_neutralized --config attacks/visual_object_replacement/attack_config_neutralized.json python -m attacks.visual_object_replacement.run_neutralized --config attacks/visual_object_replacement/attack_config_neutralized.json --quiet ``` 标志:`--config`、`--quiet`、`--redo-existing`、`--max-parallel N` ### Visual Text Replacement 中性化 HarmBench 流程: ``` python -m attacks.visual_text_replacement.run_neutralized --config attacks/visual_text_replacement/attack_config_neutralized.json python -m attacks.visual_text_replacement.run_neutralized --config attacks/visual_text_replacement/attack_config_neutralized.json --quiet ``` 标志:`--config`、`--quiet`、`--redo-existing`、`--max-parallel N` ### Textual Replacement(基线) 纯文本基线 —— 不包含图像,使用带有对象替换的文本片段: ``` python -m attacks.textual_replacement.run_neutralized --config attacks/textual_replacement/attack_config_neutralized.json python -m attacks.textual_replacement.run_neutralized --config attacks/textual_replacement/attack_config_neutralized.json --quiet ``` 标志:`--config`、`--quiet`、`--redo-existing`、`--max-parallel N` ### Visual Analogy Riddle 三步流程(详见 `attacks/analogy/scripts/`): 1. 生成文本谜语 2. 将谜语转换为图像 3. 运行 VLM 对比 ``` # 完整 pipeline 请参见 attacks/analogy/scripts/ python -m attacks.analogy.run ``` ### 外部基线 论文对比评估了三种外部基线:**FigStep**、**HADES** 和 **MM-SafeBench SD-Typo**。这些基线是使用原作者的代码运行的,并未在本仓库中重新分发 —— 有关环境配置的详细信息,请参见引用的文献。 ## 评估 使用 LLM 安全判断器对攻击输出进行评判: ``` python -m evals.judge_attacks --results-root results/attacks/ ``` 这会对每个 VLM 回复的安全合规性进行评分,并将评判结果与攻击输出一同写入。使用以下命令汇总并绘制结果: ``` python -m analysis.run_results_summary --results-root results/attacks/ ``` ## 引用 ``` @inproceedings{azulay2026jailbreaking, title={Jailbreaking Vision-Language Models Through the Visual Modality}, author={Azulay, Aharon and Dubi{\'n}ski, Jan and Li, Zhuoyun and Mittal, Atharv and Gandelsman, Yossi}, booktitle={International Conference on Machine Learning (ICML)}, year={2026} } ```
标签:AI风险缓解, Apex, DLL 劫持, ICML 2026, LLM, Python, Unmanaged PE, URL发现, VLM, 主机安全, 人工智能, 反取证, 多模态, 大模型安全, 大语言模型, 安全对齐, 安全检测, 安全评估, 对抗样本, 对象替换, 文本替换, 无后门, 机器学习, 深度学习, 用户模式Hook绕过, 类比谜语, 网络安全, 视觉密码, 视觉模态, 视觉语言模型, 逆向工具, 隐私保护