Graph-COM/CKA-Agent
GitHub: Graph-COM/CKA-Agent
CKA-Agent 是通过无害提示编织与自适应树搜索技术绕过商业大语言模型防护栏的官方实现,用于自动化测试LLM安全护栏的鲁棒性。
Stars: 165 | Forks: 40
# CKA-Agent:通过无害提示编织与自适应树搜索绕过 LLM 防护栏
## 🔥 前沿模型最新结果(2025年12月)
CKA-Agent 在最新的前沿模型上表现出持续的高攻击成功率,包括 **GPT-5.2**、**Gemini-3.0-Pro** 和 **Claude-Haiku-4.5**。结果总结如下:
## 概述
本仓库包含 **CKA-Agent** 的官方实现,这是一种通过**无害提示编织**和**自适应树搜索**技术绕过商业大语言模型(LLM)防护栏的新颖方法。

## 环境设置
安装 uv
```
curl -LsSf https://astral.sh/uv/install.sh | sh
```
创建环境
```
uv venv --python 3.12
source .venv/bin/activate
uv pip install vllm --torch-backend=auto
uv pip install accelerate fastchat nltk pandas google-genai httpx[socks] anthropic
```
## 实验配置
通过修改 `config/config.yml` 文件来配置您的实验。您可以控制以下方面:
1. **测试数据集**:从可用数据集中选择,如 `harmbench_cka` 或 `strongreject_cka`。
2. **目标模型**:选择黑盒或白盒模型,如 `gpt-oss-120b` 或 `gemini-2.5-xxx`。
3. **越狱方法**:启用并配置各种已实现的基线方法。
4. **评估**:定义评估指标和评判模型,如 `gemini-2.5-flash`。
5. **防御方法**:根据需要应用不同的防御机制。
有关详细的配置说明和示例,请参阅[配置 README](config/README.md)。
### 运行实验
`run_experiment.sh` 脚本默认执行 `main.py` 以运行整个实验流程(越狱和评估)。
```
./run_experiment.sh
```
您可以修改 `run_experiment.sh` 脚本或直接向 `main.py` 传递参数以运行特定阶段:
- `full`:运行整个流程(默认)。
- `jailbreak`:仅运行越狱方法。
- `judge`:仅对现有结果运行评估。
- `resume`:恢复中断的实验。
**示例(仅运行越狱阶段):**
```
python main.py --phase jailbreak
```
## 引用
如果您发现本仓库对您的研究有用,请考虑引用以下论文:
```
@misc{wei2025trojan,
title={The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search},
author={Rongzhe Wei and Peizhi Niu and Xinjie Shen and Tony Tu and Yifan Li and Ruihan Wu and Eli Chien and Pin-Yu Chen and Olgica Milenkovic and Pan Li},
year={2025},
eprint={2512.01353},
archivePrefix={arXiv},
primaryClass={cs.CR},
url={https://arxiv.org/abs/2512.01353},
}
```
| 模型 | HarmBench | StrongREJECT | ||||||
|---|---|---|---|---|---|---|---|---|
| FS ↑ | PS ↑ | V ↓ | R ↓ | FS ↑ | PS ↑ | V ↓ | R ↓ | |
| 🟢 GPT-5.2 | 0.889 | 0.079 | 0.024 | 0.008 | 0.932 | 0.056 | 0.006 | 0.006 |
| 🟣 Gemini-3.0-Pro | 0.881 | 0.087 | 0.000 | 0.032 | 0.951 | 0.037 | 0.006 | 0.006 |
| 🟠 Claude-Haiku-4.5 | 0.960 | 0.024 | 0.008 | 0.008 | 0.969 | 0.025 | 0.006 | 0.000 |
标签:AI红队, CKA-Agent, Claude, CVE检测, DLL 劫持, Gemini, GPT-5, HarmBench, Python, StrongREJECT, 域名收集, 大语言模型, 学术研究, 对抗攻击, 护栏绕过, 提示词编织, 敏感信息检测, 无后门, 树搜索算法, 绕过防御, 网络安全, 误配置预防, 运行时操纵, 逆向工具, 隐私保护