JuaniLlaberia/spanish-llms-jailbreak-research
GitHub: JuaniLlaberia/spanish-llms-jailbreak-research
专注于评估大语言模型在西班牙语语境下的跨语言越狱漏洞,通过多个基准测试量化模型对抗性提示的抵抗能力。
Stars: 0 | Forks: 0
# 西班牙语安全性:LLM 越狱漏洞的跨语言评估
[](https://www.python.org/)
[](LICENSE)
## 论文
[论文链接](https://openreview.net/forum?id=qUiN68s7ot)
## 描述
本仓库包含了用于评估大型语言模型 (LLM) 在西班牙语语境下安全性的代码和数据,重点关注跨语言越狱漏洞。该项目使用 AdvBench、HarmBench 和 JailbreakBench 等基准测试,评估各种 LLM 在提示被翻译成西班牙语时抵抗 prompt injection 攻击的能力。
分析内容包括:
- 攻击成功率 (ASR) 评估
- 统计检验(例如,McNemar 检验)
- 响应语言分析
- 模型间的性能比较
## 安装说明
1. 克隆仓库:
git clone https://github.com/yourusername/spanish_prompts_injection.git
cd spanish_prompts_injection
2. 安装依赖项:
pip install -r requirements.txt
注意:`requirements.txt` 文件包含 `scikit-learn`、`pandas`、`matplotlib`、`seaborn` 和 `statsmodels` 等包。
## 使用方法
### 数据准备
- 原始数据位于 `data/raw/` 中。
- 处理后的基准测试数据位于 `data/final/` 中。
- 模型响应位于 `data/responses/` 中。
### 运行分析
使用 `notebooks/` 中的 Jupyter notebook:
- `notebooks/analysis/analysis.ipynb`:用于 ASR、统计检验和可视化的主要分析 notebook。
- `notebooks/evaluation/evaluation.ipynb`:评估脚本。
- `notebooks/inference/experiments.ipynb`:推理实验。
要运行分析:
1. 在 Jupyter 或 VS Code 中打开 notebook。
2. 执行单元格以加载数据、执行分析并生成结果。
### 关键脚本
- 从 `results/judgments.jsonl` 加载判断结果。
- 分析来自 `data/responses/responses_all.csv` 的响应。
- 使用来自 `data/final/benchmark.csv` 的基准数据。
## 数据
### 基准测试
- **AdvBench**:用于虚假信息和有害内容的对抗性提示。
- **HarmBench**:有害行为提示。
- **JailbreakBench**:越狱攻击提示。
提示同时提供英语 (`en`) 和西班牙语 (`es`) 版本,攻击类型包括:
- 直接攻击 (Direct)
- 角色扮演攻击 (Roleplay)
- 假设性攻击 (Hypothetical)
### 评估的模型
- Mistral-7B-Instruct-v0.3
- Qwen2.5-3B-Instruct
- Qwen2.5-7B-Instruct
- Meta-Llama-3-8B-Instruct
- Claude-Haiku (自定义版本)
### 结果
- 判断结果和标签位于 `results/judgments.jsonl` 和 `results/judgments.csv` 中。
- 手动标签位于 `results/manual_labels.jsonl` 中。
- 分析输出包括 ASR 表格、图表和统计比较。
## 结果
本项目提供了有关以下方面的见解:
- LLM 在西班牙语提示上的表现与英语的对比。
- 对不同攻击类型的漏洞情况。
- 跨模型比较。
主要输出:
- ASR@1 表格
- McNemar 检验结果
- 响应语言细分
- 可视化(图表)
有关详细的结果和代码,请参阅 `notebooks/analysis/analysis.ipynb`。
## 许可证
本项目基于 MIT 许可证授权 - 有关详细信息,请参阅 [LICENSE](LICENSE) 文件。
## 引用
如果您使用了本代码或数据,请引用:
```
@misc{yourname2024safetyspanish,
title={Safety in Spanish: A Cross-Lingual Evaluation of Jailbreak Vulnerability in LLMs},
author={Your Name},
year={2024},
url={https://github.com/yourusername/spanish_prompts_injection}
}
```
标签:AdvBench, AI安全漏洞, AI红蓝对抗, ASR, Benchmark, CISA项目, DLL 劫持, HarmBench, JailbreakBench, LLM, NLP, NoSQL, Python, Unmanaged PE, 人工智能安全, 代码示例, 反取证, 合规性, 大语言模型, 安全评估, 密钥泄露防护, 提示注入, 攻击成功率, 数据分析, 无后门, 机器学习安全, 统计测试, 西班牙语, 越狱漏洞, 跨语言安全, 逆向工具, 集群管理