jplhughes/bon-jailbreaking

GitHub: jplhughes/bon-jailbreaking

Best-of-N Jailbreaking 论文的官方代码与数据集，用于研究大语言模型在文本和语音模态下的越狱攻击方法。

Stars: 575 | Forks: 98

# BoN 越狱包含用于 LLM 越狱的实用代码。 ## 仓库设置 ### 环境要为此项目设置开发环境，请按照以下步骤操作： 1. 如果您尚未安装 `micromamba`，请先安装。您可以按照此处的安装说明进行操作： https://mamba.readthedocs.io/en/latest/installation/micromamba-installation.html。推荐使用 Homebrew / 自动安装方法。或者直接运行： ``` "${SHELL}" <(curl -L micro.mamba.pm/install.sh) ``` 2. 接下来，您需要从仓库的根目录运行以下命令： micromamba env create -n bon python=3.11.7 micromamba activate bon pip install -r requirements.txt pip install -e . (git clone git@github.com:facebookresearch/WavAugment.git && cd WavAugment && python setup.py develop) 3. 如果是在新机器上，请安装 Kaldi：./scripts/install_kaldi.sh ### 密钥您应该在仓库的根目录下创建一个名为 `SECRETS` 的文件，其内容如下： ``` # Required OPENAI_API_KEY= OPENAI_ORG= GOOGLE_API_KEY= GOOGLE_PROJECT_ID= GOOGLE_PROJECT_REGION= HF_API_KEY= # required for Llama3 and Circuit Breaking GRAYSWAN_API_KEY= # required for Cygnet ELEVENLABS_API_KEY= # required for ElevenLabs TTS (used in PrePAIR) ``` ## 复现实验要复现论文中的实验，请运行 `experiments` 目录中的脚本。例如，要复现图 1，请运行以下命令： ``` ./experiments/1_run_text_bon.sh ``` ## 人类数据我们发布了来自 Harmbench 的人类口述越狱数据集。其中包括 308 个 PAIR、307 个 TAP 和 159 个直接请求。这些数据保存在 Google Drive 上： https://drive.google.com/drive/folders/15If3PVeu6qYOuYkKDJPm7rQi5P_FbmMm?usp=sharingm 使用 pandas 打开 jsonl 文件，以查看越狱内容（位于 "rewrite" 列）、音频文件以及其他元数据（如攻击类型）。 ``` import pandas as pd df = pd.read_json('bon_human_data/verbalized_requests.jsonl', lines=True) ```

标签：AI安全, Chat Copilot, DLL 劫持, IaC 扫描, Petitpotam, 人工智能, 域名收集, 大语言模型, 用户模式Hook绕过, 算法开源库, 红队评估, 逆向工具