safety-research/open-source-alignment-faking

GitHub: safety-research/open-source-alignment-faking

Anthropic 对齐欺骗论文的开源复现仓库，提供完整实验流水线用于研究大语言模型的对齐欺骗行为。

Stars: 58 | Forks: 15

# 开源对齐欺骗 ## 设置本仓库使用 `safety-tooling` 作为 submodule，因此首先拉取它： ``` git submodule update --init --recursive ``` 按照 safety-tooling/README.md 中的说明设置环境。确保创建一个包含您的 API 密钥的 `.env` 文件。安装依赖项： ``` uv pip install -e safety-tooling uv pip install -r requirements.txt ``` ## 示例要复现论文中的结果，请使用以下脚本运行 pipeline： ``` ./experiments/examples/1_run_pipeline.sh ``` 该脚本将把结果保存在 `./outputs/suffix-True-new-classifiers-True` 中。要绘制结果并可视化 scratchpad，请参阅 `experiments/examples/2_plot_and_read_scratchpads.ipynb`。要了解我们如何运行 finetuning 和推理，请参阅 `experiments/finetuning`。

标签：AI安全研究, DLL 劫持, NoSQL, Python, 人工智能, 大模型对齐, 大语言模型, 实验复现, 无后门, 用户模式Hook绕过, 逆向工具