Manouso/Aegis-RL

GitHub: Manouso/Aegis-RL

一个基于博弈论和强化学习的 AI 红队测试框架,通过攻击者与防御者的对抗演化实现 LLM 安全策略的自适应优化。

Stars: 0 | Forks: 0

# Aegis-RL **对抗演化与博弈推断系统** 一个利用强化学习 (RL) 和博弈论进行 AI 红队测试和自演化安全策略的自动化框架。 ## 项目概述 Aegis-RL 在两个 LLM 智能体之间创建了一个零和博弈: - **攻击者:** 一个受过训练的社会工程学专家,旨在提取敏感数据。 - **防御者:** 一个受严格安全策略约束的强化型管理员。 该系统使用 **直接偏好优化 (DPO)** 在本地演化防御者的权重,从而达成纳什均衡,在不牺牲实用性的前提下最大限度地减少安全泄露。 ## 技术栈 - **模型:** Llama-3-8B (Instruct) - **优化:** Unsloth (4-bit 量化) - **训练方法:** DPO (强化学习) ## ⚙️ 安装 ``` conda create -n aegis_env python=3.11 -y conda activate aegis_env pip install -r requirements.txt ```
标签:DLL 劫持, DPO, ESC8, Llama-3, Unsloth, 人工智能安全, 凭据扫描, 博弈论, 合规性, 域名收集, 大语言模型, 强化学习, 数据隐私保护, 模型微调, 社会工程学, 纳什均衡, 结构化查询, 网络安全, 自动化安全, 自我进化, 逆向工具, 防御策略, 隐私保护, 零和博弈