asimyil07/Cyber-Security-Cyber-Audit-Benchmark
GitHub: asimyil07/Cyber-Security-Cyber-Audit-Benchmark
该项目是一个土耳其语网络安全审计领域的LLM基准测试工具,用于系统评估主流大模型在专业安全知识和审计问题上的土耳其语理解与推理能力。
Stars: 1 | Forks: 0
# CyberBench-LLM 2026 v1.0
## 针对土耳其语网络安全审计和网络安全知识的 LLM 基准测试
本项目使用土耳其语的网络安全和面向审计的基准数据集来评估现代大型语言模型 (LLM)。
目的是衡量前沿和开源模型在理解、推理和回答土耳其语专业网络安全和审计问题方面的有效性。
## 评估范围
该基准测试侧重于:
* 网络安全审计
* 信息安全治理
* 风险管理
* 安全运营
* 事件响应
* 安全控制
* 网络安全概念
* 基于场景的安全决策
### 评估总规模
| 数据集 | 问题 |
| ------------------- | --------: |
| 网络安全审计 | 609 |
| 网络安全 | 173 |
| 总计 | 782 |
# 测试方法
* 所有模型均使用相同的土耳其语问题集进行评估。
* 网络安全审计基准包含 609 道多项选择题。
* 网络安全基准包含 173 道多项选择题。
* 每个模型收到的问题相同。
* 将答案与预定义的标准答案进行对比。
* 准确率计算公式为:
正确答案 / 总问题数
* 结果自动评分。
* 未进行任何人工修正。
# 受测模型
## 开源模型
| 模型 | 参数 |
| ------------------------------- | ---------: |
| Gemma 4 31B IT | 31B |
| Qwen 3.6 | ~32B |
| DeepSeek-R1-Distill-Qwen-32B | 32B |
| Mistral Small 3.2 Instruct 2506 | 24B |
| GPT-OSS | 20B |
## 闭源 / 商业模型
| 模型 |
| ------------ |
| ChatGPT 5.5 |
| Gemini Flash |
| Claude Sonnet 4.6 |
| Grok 4 |
| Perplexity |
# 网络安全审计基准结果(609 道题)
| 排名 | 模型 | 正确数 | 总计 | 准确率 |
| ---- | ------------------- | ------: | ----: | ---------: |
| 🥇 | Claude Sonnet 4.6 | 537 | 609 | **88.18%** |
| 🥈 | ChatGPT 5.5 | 501 | 609 | **82.27%** |
| 🥉 | Gemma 4 31B | 494 | 609 | **81.12%** |
| 4 | Gemini Flash | 469 | 609 | 77.01% |
| 5 | Qwen 3.6 | 463 | 609 | 76.03% |
| 6 | Perplexity | 438 | 609 | 71.92% |
| 7 | Grok 4 | 434 | 609 | 71.26% |
| 8 | DeepSeek-R1 Distill | 417 | 609 | 68.47% |
| 9 | Mistral Small 3.2 | 385 | 609 | 63.22% |
| 10 | GPT-OSS | 183 | 609 | 30.05% |
# 网络安全基准结果(173 道题)
| 排名 | 模型 | 正确数 | 总计 | 准确率 |
| ---- | ------------------- | ------: | ----: | ---------: |
| 🥇 | Claude Sonnet 4.6 | 163 | 173 | **94.22%** |
| 🥈 | ChatGPT 5.5 | 160 | 173 | **92.49%** |
| 🥉 | Gemma 4 31B | 155 | 173 | **89.60%** |
| 4 | Gemini Flash | 150 | 173 | 86.71% |
| 5 | Qwen 3.6 | 149 | 173 | 86.13% |
| 6 | Grok 4 | 148 | 173 | 85.55% |
| 7 | DeepSeek-R1 Distill | 142 | 173 | 82.08% |
| 8 | Perplexity | 139 | 173 | 80.35% |
| 9 | Mistral Small 3.2 | 133 | 173 | 76.88% |
| 10 | GPT-OSS | 61 | 173 | 35.26% |
# 综合结果(782 道题)
| 排名 | 模型 | 正确数 | 总计 | 准确率 |
| ---- | ------------------- | ------: | ----: | ---------: |
| 🥇 | Claude Sonnet4.6 | 700 | 782 | **89.51%** |
| 🥈 | ChatGPT 5.5 | 661 | 782 | **84.53%** |
| 🥉 | Gemma 4 31B | 649 | 782 | **82.99%** |
| 4 | Gemini Flash | 619 | 782 | 79.16% |
| 5 | Qwen 3.6 | 612 | 782 | 78.26% |
| 6 | Grok 4 | 582 | 782 | 74.42% |
| 7 | Perplexity | 577 | 782 | 73.79% |
| 8 | DeepSeek-R1 Distill | 559 | 782 | 71.48% |
| 9 | Mistral Small 3.2 | 518 | 782 | 66.24% |
| 10 | GPT-OSS | 244 | 782 | 31.20% |
# 性能分析
| 模型 | 每题平均 token 数 | 生成 TPS | 平均延迟 |
| ------------------- | --------------------: | -------------: | ----------: |
| Gemma 4 31B | 153 | 2.3 | ~0s |
| Qwen 3.6 | 170 | 14.0 | ~0s |
| Mistral Small 3.2 | 171 | 3.3 | 0.61s |
| DeepSeek-R1 Distill | 663 | 3.83 | ~0s |
| GPT-OSS | 482 | 10.4 | 20–25s |
# 关键发现
### 最高综合准确率
🥇 Claude Sonnet4.6 — 89.51%
### 最强商业模型
🥇 ChatGPT 5.5 — 84.53%
### 最强开放权重模型
🥇 Gemma 4 31B — 82.99%
### 最佳速度与准确率比
🥇 Qwen 3.6
### token 效率最高的模型
🥇 Gemma 4 31B
### 关于 DeepSeek 的观察
DeepSeek 消耗的 token 大约是 Gemma 和 Qwen 的四倍,但基准测试得分却较低。
该基准测试表明,更长的推理轨迹并不一定能转化为更好的土耳其语网络安全性能。
# 对安全团队的意义
结果表明,现代 LLM 已经能够为以下方面提供有意义的帮助:
* SOC 一级 (Level-1) 调查
* 告警分流
* 安全监控
* 事件分析
* 审计准备
* 控制验证
* 风险评估支持
* 安全意识活动
在所评估的开放权重模型中,Gemma 在准确率、效率和可部署性之间展现出了最佳的平衡。
# 局限性
此基准测试衡量的是模型在网络安全审计和网络安全知识问题上的土耳其语性能。
它不评估:
* 渗透测试
* 恶意软件逆向工程
* 编码能力
* 长上下文推理
* 工具使用
* Agentic 工作流
* 真实世界的 SOC 运营
因此,应将结果视为对土耳其语网络安全知识和推理性能的衡量,而不是对模型能力的完整评估。
# 结论
该基准测试提供了现代 LLM 在土耳其语网络安全和审计导向问题上的表现快照。
在所有受测模型中,Claude 获得了最高的综合准确率。
在开放权重模型中,Gemma 提供了准确率、效率和操作实用性的最佳组合。
随着 SOC 和安全团队对 LLM 的采用不断增长,针对土耳其语的评估仍然是本地环境和监管环境中运营的组织的重要组成部分。
**免责声明**
本研究是一项独立的个人研究项目,反映了受测模型在特定时间点(2026 年 6 月)的表现。
结果可能会因使用的 prompt、模型版本、系统配置、推理设置和测试环境而异。由于 AI 模型发展迅速,未来的性能可能与此处呈现的结果大相径庭。
这些发现不应被解释为投资建议、准确性的保证,或对任何特定模型、供应商或产品的认可。该基准测试仅用于提供信息和教育目的。
读者或组织需对基于这些结果做出的任何决策、实施或商业活动负全部责任。对于因使用或解释本分析而产生的任何直接或间接后果,作者不承担任何责任。
标签:C2, DLL 劫持, 人工智能, 代码示例, 反取证, 土耳其语, 大语言模型, 安全评估, 数据分析, 用户模式Hook绕过, 逆向工具