black-leg-nameko/iwsec-direct-pi-triage
GitHub: black-leg-nameko/iwsec-direct-pi-triage
IWSEC直接提示注入检测与分级实验框架
Stars: 0 | Forks: 0
# 直接提示注入分类
本存储库包含 IWSEC 直接提示注入检测项目的实现框架。
预期的流程是:
1. 将源代码、配置和实验脚本保存在此存储库中。
2. 使用 Google Colab Pro+ 作为计算/运行环境。
3. 保持笔记本简洁:克隆/安装存储库,如有需要,挂载 Drive,并调用脚本。
4. 使用版本化的路径将原始数据、生成的嵌入和结果工件保存在笔记本之外。
Colab 入口点:
- `notebooks/build_directpi_hardbench_v0_colab.ipynb`:从手动种子行和公开候选者构建面向论文的 `directpi_hardbench_v0.csv`。
- `notebooks/iwsec_direct_pi_colab_pro_plus.ipynb`:在 CSV 存在后运行保留家族的分级实验。
核心研究方向:
- 仅检测直接提示注入。
- 校准轻量级分类器作为第一阶段检测器。
- 仅对不确定或高影响案例使用 LLM 判决。
- 主要在低 FPR 和低成本约束下进行评估。
标签:Apex, DLL 劫持, Google Colab, NoSQL, URL发现, 低误报率, 分类器, 大语言模型, 安全检测, 实验脚本, 成本效益, 数据版本控制, 机器学习, 直接提示注入, 轻量级模型, 逆向工具