JuaniLlaberia/spanish-llms-jailbreak-research

GitHub: JuaniLlaberia/spanish-llms-jailbreak-research

专注于评估大语言模型在西班牙语语境下的跨语言越狱漏洞，通过多个基准测试量化模型对抗性提示的抵抗能力。

Stars: 0 | Forks: 0

# 西班牙语安全性：LLM 越狱漏洞的跨语言评估 [![Python](https://img.shields.io/badge/Python-3.8+-blue.svg)](https://www.python.org/) [![License](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) ## 论文 [论文链接](https://openreview.net/forum?id=qUiN68s7ot) ## 描述本仓库包含了用于评估大型语言模型 (LLM) 在西班牙语语境下安全性的代码和数据，重点关注跨语言越狱漏洞。该项目使用 AdvBench、HarmBench 和 JailbreakBench 等基准测试，评估各种 LLM 在提示被翻译成西班牙语时抵抗 prompt injection 攻击的能力。分析内容包括： - 攻击成功率 (ASR) 评估 - 统计检验（例如，McNemar 检验） - 响应语言分析 - 模型间的性能比较 ## 安装说明 1. 克隆仓库： git clone https://github.com/yourusername/spanish_prompts_injection.git cd spanish_prompts_injection 2. 安装依赖项： pip install -r requirements.txt 注意：`requirements.txt` 文件包含 `scikit-learn`、`pandas`、`matplotlib`、`seaborn` 和 `statsmodels` 等包。 ## 使用方法 ### 数据准备 - 原始数据位于 `data/raw/` 中。 - 处理后的基准测试数据位于 `data/final/` 中。 - 模型响应位于 `data/responses/` 中。 ### 运行分析使用 `notebooks/` 中的 Jupyter notebook： - `notebooks/analysis/analysis.ipynb`：用于 ASR、统计检验和可视化的主要分析 notebook。 - `notebooks/evaluation/evaluation.ipynb`：评估脚本。 - `notebooks/inference/experiments.ipynb`：推理实验。要运行分析： 1. 在 Jupyter 或 VS Code 中打开 notebook。 2. 执行单元格以加载数据、执行分析并生成结果。 ### 关键脚本 - 从 `results/judgments.jsonl` 加载判断结果。 - 分析来自 `data/responses/responses_all.csv` 的响应。 - 使用来自 `data/final/benchmark.csv` 的基准数据。 ## 数据 ### 基准测试 - **AdvBench**：用于虚假信息和有害内容的对抗性提示。 - **HarmBench**：有害行为提示。 - **JailbreakBench**：越狱攻击提示。提示同时提供英语 (`en`) 和西班牙语 (`es`) 版本，攻击类型包括： - 直接攻击 (Direct) - 角色扮演攻击 (Roleplay) - 假设性攻击 (Hypothetical) ### 评估的模型 - Mistral-7B-Instruct-v0.3 - Qwen2.5-3B-Instruct - Qwen2.5-7B-Instruct - Meta-Llama-3-8B-Instruct - Claude-Haiku (自定义版本) ### 结果 - 判断结果和标签位于 `results/judgments.jsonl` 和 `results/judgments.csv` 中。 - 手动标签位于 `results/manual_labels.jsonl` 中。 - 分析输出包括 ASR 表格、图表和统计比较。 ## 结果本项目提供了有关以下方面的见解： - LLM 在西班牙语提示上的表现与英语的对比。 - 对不同攻击类型的漏洞情况。 - 跨模型比较。主要输出： - ASR@1 表格 - McNemar 检验结果 - 响应语言细分 - 可视化（图表）有关详细的结果和代码，请参阅 `notebooks/analysis/analysis.ipynb`。 ## 许可证本项目基于 MIT 许可证授权 - 有关详细信息，请参阅 [LICENSE](LICENSE) 文件。 ## 引用如果您使用了本代码或数据，请引用： ``` @misc{yourname2024safetyspanish, title={Safety in Spanish: A Cross-Lingual Evaluation of Jailbreak Vulnerability in LLMs}, author={Your Name}, year={2024}, url={https://github.com/yourusername/spanish_prompts_injection} } ```

标签：AdvBench, AI安全漏洞, AI红蓝对抗, ASR, Benchmark, CISA项目, DLL 劫持, HarmBench, JailbreakBench, LLM, NLP, NoSQL, Python, Unmanaged PE, 人工智能安全, 代码示例, 反取证, 合规性, 大语言模型, 安全评估, 密钥泄露防护, 提示注入, 攻击成功率, 数据分析, 无后门, 机器学习安全, 统计测试, 西班牙语, 越狱漏洞, 跨语言安全, 逆向工具, 集群管理