claygeo/kurral-attack-corpus
GitHub: claygeo/kurral-attack-corpus
Kurral攻击语料库爬取工具,用于安全研究和对抗AI测试。
Stars: 0 | Forks: 0
# Kurral — 攻击语料库
## 内容
## 局限性
- 新鲜度是计划重新抓取,而不是发现全新的攻击(见路线图)。
- 技术标签是启发式标签(约85%的精确度);适合浏览和分组,但不适合没有分类器或审查的权威性分割。
- 评估评分器是启发式拒绝检测;对于软拒绝和部分合规,LLM 判断更准确。
- 类别分割以越狱为主,反映了公共源混合。
## 许可证
代码采用 MIT 许可,请参阅[`LICENSE`](LICENSE)。捆绑的提示数据受每个源条款约束;请参阅[`DATA_SOURCES.md`](DATA_SOURCES.md)。