safety-research/open-source-alignment-faking

GitHub: safety-research/open-source-alignment-faking

Anthropic 对齐欺骗论文的开源复现仓库,提供完整实验流水线用于研究大语言模型的对齐欺骗行为。

Stars: 58 | Forks: 13

# 开源对齐欺骗 ## 设置 本仓库使用 `safety-tooling` 作为 submodule,因此首先拉取它: ``` git submodule update --init --recursive ``` 按照 safety-tooling/README.md 中的说明设置环境。确保创建一个包含您的 API 密钥的 `.env` 文件。 安装依赖项: ``` uv pip install -e safety-tooling uv pip install -r requirements.txt ``` ## 示例 要复现论文中的结果,请使用以下脚本运行 pipeline: ``` ./experiments/examples/1_run_pipeline.sh ``` 该脚本将把结果保存在 `./outputs/suffix-True-new-classifiers-True` 中。 要绘制结果并可视化 scratchpad,请参阅 `experiments/examples/2_plot_and_read_scratchpads.ipynb`。 要了解我们如何运行 finetuning 和推理,请参阅 `experiments/finetuning`。
标签:AI安全研究, DLL 劫持, NoSQL, Python, 人工智能, 大模型对齐, 大语言模型, 实验复现, 无后门, 用户模式Hook绕过, 逆向工具