safety-research/open-source-alignment-faking
GitHub: safety-research/open-source-alignment-faking
Anthropic 对齐欺骗论文的开源复现仓库,提供完整实验流水线用于研究大语言模型的对齐欺骗行为。
Stars: 58 | Forks: 13
# 开源对齐欺骗
## 设置
本仓库使用 `safety-tooling` 作为 submodule,因此首先拉取它:
```
git submodule update --init --recursive
```
按照 safety-tooling/README.md 中的说明设置环境。确保创建一个包含您的 API 密钥的 `.env` 文件。
安装依赖项:
```
uv pip install -e safety-tooling
uv pip install -r requirements.txt
```
## 示例
要复现论文中的结果,请使用以下脚本运行 pipeline:
```
./experiments/examples/1_run_pipeline.sh
```
该脚本将把结果保存在 `./outputs/suffix-True-new-classifiers-True` 中。
要绘制结果并可视化 scratchpad,请参阅 `experiments/examples/2_plot_and_read_scratchpads.ipynb`。
要了解我们如何运行 finetuning 和推理,请参阅 `experiments/finetuning`。
标签:AI安全研究, DLL 劫持, NoSQL, Python, 人工智能, 大模型对齐, 大语言模型, 实验复现, 无后门, 用户模式Hook绕过, 逆向工具