jplhughes/bon-jailbreaking

GitHub: jplhughes/bon-jailbreaking

Best-of-N Jailbreaking 论文的官方代码与数据集,用于研究大语言模型在文本和语音模态下的越狱攻击方法。

Stars: 571 | Forks: 96

# BoN 越狱 包含用于 LLM 越狱的实用代码。 ## 仓库设置 ### 环境 要为此项目设置开发环境, 请按照以下步骤操作: 1. 如果您尚未安装 `micromamba`,请先安装。 您可以按照此处的安装说明进行操作: https://mamba.readthedocs.io/en/latest/installation/micromamba-installation.html。推荐使用 Homebrew / 自动安装方法。 或者直接运行: ``` "${SHELL}" <(curl -L micro.mamba.pm/install.sh) ``` 2. 接下来,您需要从仓库的根目录运行以下命令: micromamba env create -n bon python=3.11.7 micromamba activate bon pip install -r requirements.txt pip install -e . (git clone git@github.com:facebookresearch/WavAugment.git && cd WavAugment && python setup.py develop) 3. 如果是在新机器上,请安装 Kaldi:./scripts/install_kaldi.sh ### 密钥 您应该在仓库的根目录下创建一个名为 `SECRETS` 的文件, 其内容如下: ``` # Required OPENAI_API_KEY= OPENAI_ORG= GOOGLE_API_KEY= GOOGLE_PROJECT_ID= GOOGLE_PROJECT_REGION= HF_API_KEY= # required for Llama3 and Circuit Breaking GRAYSWAN_API_KEY= # required for Cygnet ELEVENLABS_API_KEY= # required for ElevenLabs TTS (used in PrePAIR) ``` ## 复现实验 要复现论文中的实验,请运行 `experiments` 目录中的脚本。例如,要复现图 1,请运行以下命令: ``` ./experiments/1_run_text_bon.sh ``` ## 人类数据 我们发布了来自 Harmbench 的人类口述越狱数据集。其中包括 308 个 PAIR、307 个 TAP 和 159 个直接请求。这些数据保存在 Google Drive 上: https://drive.google.com/drive/folders/15If3PVeu6qYOuYkKDJPm7rQi5P_FbmMm?usp=sharingm 使用 pandas 打开 jsonl 文件,以查看越狱内容(位于 "rewrite" 列)、音频文件以及其他元数据(如攻击类型)。 ``` import pandas as pd df = pd.read_json('bon_human_data/verbalized_requests.jsonl', lines=True) ```
标签:AI安全, Chat Copilot, DLL 劫持, IaC 扫描, Petitpotam, 人工智能, 域名收集, 大语言模型, 用户模式Hook绕过, 算法开源库, 红队评估, 逆向工具