abedalrhman007/JAPE-GPT

GitHub: abedalrhman007/JAPE-GPT

一个面向 LLM 安全的对抗数据集与机器学习框架，用于检测 prompt injection、越狱攻击等恶意 prompt。

Stars: 0 | Forks: 0

# JAPE-GPT：针对 LLM 安全的对抗数据集与检测框架 ## 概述 JAPE-GPT 是一个专注于安全的数据集和机器学习框架，旨在检测大型语言模型 (LLM) 中的 **prompt injection** 和 **越狱攻击 (jailbreak attacks)**。本项目通过建模对抗行为并使用特征工程数据实现鲁棒检测，从而解决了现代 AI 系统中的关键漏洞。 ## 目标 * 构建 **大规模对抗数据集** * 对以下攻击进行建模： * Prompt Injection * 越狱攻击 * 混淆攻击 * 社会工程学 prompt * 设计 **32+ 个安全感知特征** * 训练 ML 模型用于： * 恶意 prompt 检测 * 越狱成功预测 * 风险评分 ## 数据集 * 规模：**10,263 个样本** * 类别： * 越狱攻击 * Prompt Injection * 混淆攻击 * 对抗样本 * 良性样本每个样本包含： * Prompt + 响应 * 语言特征 * 行为信号 * 结构性攻击指标 * 结果标签（风险、成功） ## 方法论 ### 1. 数据集生成 * 场景驱动的 prompt 工程 * 基于自动化 LLM 的生成 * 多轮对抗链 ### 2. 特征工程 * 文本特征 (TF-IDF + PCA) * 结构特征 (零宽度字符, 同形字) * 行为特征 (意图, 语气) ### 3. 使用模型 * 随机森林 * XGBoost * SVM * 神经网络 ## 结果 * 在多个模型上表现优异 * 对抗检测的高精确率/召回率 * 对混淆攻击具有鲁棒的处理能力 ## 未来工作 * 实时检测 API * 与 LLM pipeline 集成 * 基于 Transformer 的模型（BERT, LLM fine-tuning）

标签：AI安全, AI红蓝对抗, Chat Copilot, ESC8, NLP, PCA, SVM, TF-IDF, XGBoost, 人工智能, 合规风控, 大语言模型安全, 对抗性机器学习, 恶意提示检测, 提示注入, 文本分类, 机器学习框架, 机密管理, 混淆攻击, 特征工程, 用户模式Hook绕过, 社会工程学, 神经网络, 网络安全, 足迹探测, 逆向工具, 随机森林, 隐私保护, 集群管理, 风险评分