abedalrhman007/JAPE-GPT
GitHub: abedalrhman007/JAPE-GPT
一个面向 LLM 安全的对抗数据集与机器学习框架,用于检测 prompt injection、越狱攻击等恶意 prompt。
Stars: 0 | Forks: 0
# JAPE-GPT:针对 LLM 安全的对抗数据集与检测框架
## 概述
JAPE-GPT 是一个专注于安全的数据集和机器学习框架,旨在检测大型语言模型 (LLM) 中的 **prompt injection** 和 **越狱攻击 (jailbreak attacks)**。
本项目通过建模对抗行为并使用特征工程数据实现鲁棒检测,从而解决了现代 AI 系统中的关键漏洞。
## 目标
* 构建 **大规模对抗数据集**
* 对以下攻击进行建模:
* Prompt Injection
* 越狱攻击
* 混淆攻击
* 社会工程学 prompt
* 设计 **32+ 个安全感知特征**
* 训练 ML 模型用于:
* 恶意 prompt 检测
* 越狱成功预测
* 风险评分
## 数据集
* 规模:**10,263 个样本**
* 类别:
* 越狱攻击
* Prompt Injection
* 混淆攻击
* 对抗样本
* 良性样本
每个样本包含:
* Prompt + 响应
* 语言特征
* 行为信号
* 结构性攻击指标
* 结果标签(风险、成功)
## 方法论
### 1. 数据集生成
* 场景驱动的 prompt 工程
* 基于自动化 LLM 的生成
* 多轮对抗链
### 2. 特征工程
* 文本特征 (TF-IDF + PCA)
* 结构特征 (零宽度字符, 同形字)
* 行为特征 (意图, 语气)
### 3. 使用模型
* 随机森林
* XGBoost
* SVM
* 神经网络
## 结果
* 在多个模型上表现优异
* 对抗检测的高精确率/召回率
* 对混淆攻击具有鲁棒的处理能力
## 未来工作
* 实时检测 API
* 与 LLM pipeline 集成
* 基于 Transformer 的模型(BERT, LLM fine-tuning)
标签:AI安全, AI红蓝对抗, Chat Copilot, ESC8, NLP, PCA, SVM, TF-IDF, XGBoost, 人工智能, 合规风控, 大语言模型安全, 对抗性机器学习, 恶意提示检测, 提示注入, 文本分类, 机器学习框架, 机密管理, 混淆攻击, 特征工程, 用户模式Hook绕过, 社会工程学, 神经网络, 网络安全, 足迹探测, 逆向工具, 随机森林, 隐私保护, 集群管理, 风险评分