black-leg-nameko/iwsec-direct-pi-triage

GitHub: black-leg-nameko/iwsec-direct-pi-triage

IWSEC直接提示注入检测与分级实验框架

Stars: 0 | Forks: 0

# 直接提示注入分类 本存储库包含 IWSEC 直接提示注入检测项目的实现框架。 预期的流程是: 1. 将源代码、配置和实验脚本保存在此存储库中。 2. 使用 Google Colab Pro+ 作为计算/运行环境。 3. 保持笔记本简洁:克隆/安装存储库,如有需要,挂载 Drive,并调用脚本。 4. 使用版本化的路径将原始数据、生成的嵌入和结果工件保存在笔记本之外。 Colab 入口点: - `notebooks/build_directpi_hardbench_v0_colab.ipynb`:从手动种子行和公开候选者构建面向论文的 `directpi_hardbench_v0.csv`。 - `notebooks/iwsec_direct_pi_colab_pro_plus.ipynb`:在 CSV 存在后运行保留家族的分级实验。 核心研究方向: - 仅检测直接提示注入。 - 校准轻量级分类器作为第一阶段检测器。 - 仅对不确定或高影响案例使用 LLM 判决。 - 主要在低 FPR 和低成本约束下进行评估。
标签:Apex, DLL 劫持, Google Colab, NoSQL, URL发现, 低误报率, 分类器, 大语言模型, 安全检测, 实验脚本, 成本效益, 数据版本控制, 机器学习, 直接提示注入, 轻量级模型, 逆向工具