jplhughes/bon-jailbreaking
GitHub: jplhughes/bon-jailbreaking
Best-of-N Jailbreaking 论文的官方代码与数据集,用于研究大语言模型在文本和语音模态下的越狱攻击方法。
Stars: 571 | Forks: 96
# BoN 越狱
包含用于 LLM 越狱的实用代码。
## 仓库设置
### 环境
要为此项目设置开发环境,
请按照以下步骤操作:
1. 如果您尚未安装 `micromamba`,请先安装。
您可以按照此处的安装说明进行操作:
https://mamba.readthedocs.io/en/latest/installation/micromamba-installation.html。推荐使用 Homebrew / 自动安装方法。
或者直接运行:
```
"${SHELL}" <(curl -L micro.mamba.pm/install.sh)
```
2. 接下来,您需要从仓库的根目录运行以下命令:
micromamba env create -n bon python=3.11.7
micromamba activate bon
pip install -r requirements.txt
pip install -e .
(git clone git@github.com:facebookresearch/WavAugment.git && cd WavAugment && python setup.py develop)
3. 如果是在新机器上,请安装 Kaldi:./scripts/install_kaldi.sh
### 密钥
您应该在仓库的根目录下创建一个名为 `SECRETS` 的文件,
其内容如下:
```
# Required
OPENAI_API_KEY=
OPENAI_ORG=
GOOGLE_API_KEY=
GOOGLE_PROJECT_ID=
GOOGLE_PROJECT_REGION=
HF_API_KEY= # required for Llama3 and Circuit Breaking
GRAYSWAN_API_KEY= # required for Cygnet
ELEVENLABS_API_KEY= # required for ElevenLabs TTS (used in PrePAIR)
```
## 复现实验
要复现论文中的实验,请运行 `experiments` 目录中的脚本。例如,要复现图 1,请运行以下命令:
```
./experiments/1_run_text_bon.sh
```
## 人类数据
我们发布了来自 Harmbench 的人类口述越狱数据集。其中包括 308 个 PAIR、307 个 TAP 和 159 个直接请求。这些数据保存在 Google Drive 上:
https://drive.google.com/drive/folders/15If3PVeu6qYOuYkKDJPm7rQi5P_FbmMm?usp=sharingm
使用 pandas 打开 jsonl 文件,以查看越狱内容(位于 "rewrite" 列)、音频文件以及其他元数据(如攻击类型)。
```
import pandas as pd
df = pd.read_json('bon_human_data/verbalized_requests.jsonl', lines=True)
```
标签:AI安全, Chat Copilot, DLL 劫持, IaC 扫描, Petitpotam, 人工智能, 域名收集, 大语言模型, 用户模式Hook绕过, 算法开源库, 红队评估, 逆向工具