Aryan-20-04/prompt-injection-safeguard

GitHub: Aryan-20-04/prompt-injection-safeguard

基于DistilBERT的多标签提示词注入攻击检测模型训练框架,支持识别越狱、指令覆盖、角色劫持和数据窃取等攻击类型。

Stars: 1 | Forks: 0

# 使用 Transformers 进行提示词注入检测 此仓库包含用于在 Hugging Face 数据集上训练的**多标签提示词注入检测模型**的完整训练流程。 ## 特性 - 提示词攻击的多标签分类 - 检测类型: - BENIGN - JAILBREAK - INSTRUCTION_OVERRIDE - ROLE_HIJACK - DATA_EXFILTRATION - 使用 Hugging Face `Trainer` - 支持 GPU / Colab 训练 - 使用 Micro & Macro F1 进行评估 ## 模型 - 主干网络:DistilBERT - 任务:多标签文本分类 - 损失函数:BCEWithLogitsLoss (通过 Trainer) ## 结果 在验证集上取得了高性能表现: - Micro F1 ≈ 0.98 - Macro F1 ≈ 0.95 ## 训练 ``` python train_prompt_injection_model.py ```
标签:Apex, Atomic Red Team, DistilBERT, Hugging Face, IaC 扫描, NLP, PFX证书, Python, Transformer, 二分类, 凭据扫描, 多标签分类, 大模型安全, 指令覆盖, 攻击检测, 数据泄露检测, 文本分类, 无后门, 机器学习, 模型训练, 深度学习, 系统调用监控, 网络安全, 角色劫持, 越狱检测, 逆向工具, 隐私保护