huhusmang/Awesome-LLMs-for-Vulnerability-Detection

GitHub: huhusmang/Awesome-LLMs-for-Vulnerability-Detection

一个持续更新的综合性资源库，系统收录大语言模型在软件漏洞检测方向的研究论文、数据集与基准测试。

Stars: 1201 | Forks: 107

# 漏洞检测大语言模型精选 | 标题 | 会议 | 年份 | 论文 | Github | | :----------------------------------------------------------: | :----------: | :--: | :----------------------------------------------------------: | :----------------------------------------------------------: | | VulnGym: 面向白盒漏洞挖掘 Agent 的真实世界项目级漏洞基准 | | 2026 | | [链接](https://github.com/Tencent/VulnGym) | | VulTriage: 基于 LLM 的漏洞检测三路上下文增强 | | 2026 | [链接](https://arxiv.org/abs/2605.09461) | [链接](https://github.com/vinsontang1/VulTriage) | | 面向漏洞发现的多 Agent 挂钩合成 | | 2026 | [链接](https://arxiv.org/abs/2604.20801) | [链接](https://github.com/berabuddies/agentflow) | | QRS: 用于自动化漏洞发现的规则合成神经符号三元组 | | 2026 | [链接](https://arxiv.org/abs/2602.09774) | | | SecLens: 基于 5 个利益相关者视角和 406 个真实世界 CVE 的 LLM 漏洞检测基准测试 | | 2026 | [链接](https://arxiv.org/abs/2604.01637) | [链接](https://github.com/mattersec-labs/seclens) | | 语义陷阱：微调 LLMs 学到的是漏洞根本原因还是仅仅是功能模式？ | | 2026 | [链接](https://arxiv.org/abs/2601.22655) | | | 过滤噪声：LLM Agent 在漏洞误报过滤中的比较研究 | | 2026 | [链接](https://arxiv.org/abs/2601.22952) | | | AgenticSCR: 用于不成熟漏洞检测的自主性 Agent 安全代码审查 | | 2026 | [链接](https://arxiv.org/abs/2601.19138) | | | 项目规模下基于 LLM 的漏洞检测：一项实证研究 | | 2026 | [链接](https://arxiv.org/abs/2601.19239) | | | MulVul: 基于跨模型 Prompt 演进的检索增强多 Agent 代码漏洞检测 | | 2026 | [链接](https://arxiv.org/abs/2601.18847) | | | VulnLLM-R: 用于漏洞检测的带有 Agent 脚手架的专用推理 LLM | | 2025 | [链接](https://arxiv.org/abs/2512.07533) | | | VULPO: 通过在策略 LLM 优化实现上下文感知的漏洞检测 | | 2025 | [链接](https://arxiv.org/abs/2511.11896) | | | 基于 LLM 的规范引导漏洞检测 | | 2025 | [链接](https://arxiv.org/abs/2511.04014) | | | 从 Large 到 Mammoth：大语言模型在漏洞检测中的比较评估 | NDSS | 2025 | [链接](https://www.ndss-symposium.org/ndss-paper/from-large-to-mammoth-a-comparative-evaluation-of-large-language-models-in-vulnerability-detection/) | | | 在代码仓库的实用漏洞检测中对 LLMs 和基于 LLM 的 Agent 进行基准测试 | ACL | 2025 | [链接](https://aclanthology.org/2025.acl-long.1490/) | [链接](https://github.com/alperen21/JitVul) | | 关于使用大语言模型检测软件漏洞的系统性文献综述 | | 2025 | [链接](https://arxiv.org/abs/2507.22659) | [链接](https://github.com/hs-esslingen-it-security/Awesome-LLM4SVD) | | LLMxCPG: 通过 Code Property Graph 引导的 LLM 实现上下文感知的漏洞检测 | Usenix | 2025 | [链接](https://arxiv.org/abs/2507.16585) | [链接](https://github.com/qcri/llmxcpg) | | CLeVeR: 用于漏洞代码表示的多模态对比学习 | ACL Findings | 2025 | [链接](https://aclanthology.org/2025.findings-acl.414/) | [链接](https://github.com/yoimiya-nlp/CLeVeR) | | Mono: 你的“干净”漏洞数据集真的可解吗？暴露并捕获不可判定的补丁及更多内容 | | 2025 | [链接](https://arxiv.org/abs/2506.03651) | [链接](https://github.com/vul337/mono) | | 学习聚焦：使用语言模型进行高效代码漏洞检测的上下文提取 | | 2025 | [链接](https://arxiv.org/abs/2505.17460) | | | SV-TrustEval-C: 评估 LLM 在源代码漏洞分析中的结构和语义推理能力 | SP | 2025 | [链接](https://arxiv.org/abs/2505.20630) | [链接](https://github.com/Jackline97/SV-TrustEval-C) | | SecVulEval: 针对真实世界 C/C++ 漏洞检测的 LLM 基准测试 | | 2025 | [链接](https://arxiv.org/abs/2505.19828) | [链接](https://github.com/basimbd/secvuleval) | | CVE-Bench: 对基于 LLM 的软件工程 Agent 修复真实世界 CVE 漏洞能力的基准测试 | NAACL | 2025 | [链接](https://aclanthology.org/2025.naacl-long.212/) | [链接](https://github.com/WhileBug/CVEBench) | | R2Vul: 通过强化学习和结构化推理蒸馏学习推理软件漏洞 | | 2025 | [链接](https://arxiv.org/abs/2504.04699) | [链接](https://github.com/martin-wey/R2Vul) | | 通过整体神经符号方法进行自动化静态漏洞检测 | | 2025 | [链接](https://arxiv.org/abs/2504.16057) | | | 基于 LLM 的上下文增强漏洞检测 | | 2025 | [链接](https://arxiv.org/abs/2504.16877) | | | 关于基于 LLM 的漏洞检测你想知道的一切（但又不敢问） | | 2025 | [链接](https://arxiv.org/abs/2504.13474) | [链接](https://anonymous.4open.science/r/CORRECT/README.md) | | MOS: 通过大语言模型的 Mixture-of-Experts 微调实现有效的智能合约漏洞检测 | | 2025 | [链接](https://arxiv.org/abs/2504.12234) | | | 丰富的模态提供更多养分：基于多模态的函数级漏洞检测 | TOSEM | 2025 | [链接](https://dl.acm.org/doi/10.1145/3731557) | [链接](https://github.com/vinci-grape/MVulD) | | 生成式大语言模型在智能合约漏洞检测中的应用 | | 2025 | [链接](https://arxiv.org/abs/2504.04685) | | | 消除差距：关于在 IDE 中使用 AI 驱动的漏洞检测和修复的真实世界实用性用户研究 | ICSE | 2025 | [链接](https://www.arxiv.org/abs/2412.14306) | [链接](https://doi.org/10.6084/m9.figshare.26367139) | | 代码语言模型漏洞检测：我们还有多远？ | ICSE | 2025 | [链接](https://arxiv.org/abs/2403.18624) | [链接](https://github.com/DLVulDet/PrimeVul) | | 结合微调和基于 LLM 的 Agent 进行直观的智能合约审计与论证 | ICSE | 2025 | [链接](https://arxiv.org/abs/2403.16073) | | | LAMD: 基于 LLM 的上下文驱动的 Android 恶意软件检测与分类 | | 2025 | [链接](http://arxiv.org/abs/2502.13055) | | | 软件安全中的 LLMs：漏洞检测技术与洞察综述 | | 2025 | [链接](https://arxiv.org/abs/2502.07049) | [链接](https://github.com/OwenSanzas/LLM-For-Software-Security) | | One-for-All 并不奏效！通过 Mixture-of-Experts (MoE) 增强漏洞检测 | | 2025 | [链接](https://arxiv.org/abs/2501.16454) | | | 利用代码和数据中的语义关系增强嵌入式系统的污点分析 | Usenix | 2024 | [链接](https://www.usenix.org/system/files/usenixsecurity24-zhao.pdf) | [链接](https://sites.google.com/view/lara-data) | | 基于大语言模型赋能的 CVE 描述进行有效易受攻击函数识别 | ASE | 2024 | [链接](https://doi.org/10.1145/3691620.3695013) | [链接](https://github.com/CGCL-codes/VFFinder) | | SCALE: 为软件漏洞检测构建结构化自然语言注释树 | ISSTA | 2024 | [链接](https://doi.org/10.1145/3650212.3652124) | [链接](https://github.com/Xin-Cheng-Wen/Comment4Vul) | | LLMDFA: 使用大语言模型分析代码中的数据流 | NeurIPS | 2024 | [链接](https://chengpeng-wang.github.io/publications/LLMDFA_NeurIPS2024.pdf) | [链接](https://github.com/chengpeng-wang/LLMDFA) | | 学习检测和定位多语言 Bug | FSE | 2024 | [链接](https://doi.org/10.1145/3660804) | | | GPTScan: 通过结合 GPT 和程序分析检测智能合约中的逻辑漏洞 | ICSE | 2024 | [链接](https://doi.org/10.1145/3597503.3639117) | | | 使用数据流在 Bug 检测中净化大语言模型 | EMNLP | 2024 | [链接](https://aclanthology.org/2024.findings-emnlp.217/) | [链接](https://github.com/chengpeng-wang/LLMSAN) | | RealVul: 我们能用 LLM 检测 Web 应用中的漏洞吗？ | EMNLP | 2024 | [链接](https://aclanthology.org/2024.emnlp-main.472) | | | 它在哪里？从漏洞报告中追踪与漏洞相关的文件 | ICSE | 2024 | [链接](https://doi.org/10.1145/3597503.3639202) | [链接](https://github.com/anonymous-77400046/vulnerability_file_trace) | | 数据流分析启发的深度学习用于高效漏洞检测 | ICSE | 2024 | [链接](https://doi.org/10.1145/3597503.3623345) | [链接](https://doi.org/10.6084/m9.figshare.21225413) | | 通过预测程序依赖关系进行漏洞分析任务的预训练 | ICSE | 2024 | [链接](https://doi.org/10.1145/3597503.3639142) | [链接](https://github.com/ZJU-CTAG/PDBERT) | | 探究大语言模型在代码漏洞检测中的应用：一项实验性研究 | | 2024 | [链接](https://arxiv.org/abs/2412.18260) | [链接](https://github.com/SakiRinn/LLM4CVD) | | CleanVul: 使用 LLM 启发式在代码提交中进行自动化的函数级漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2411.17274) | [链接](https://github.com/yikun-li/CleanVul) | | 使用联邦学习进行漏洞检测的实证研究 | | 2024 | [链接](https://arxiv.org/abs/2411.16099) | | | LLM-SmartAudit: 高级智能合约漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2410.09381) | [链接](https://github.com/LLMAudit/LLMSmartAuditTool) | | 通过大语言模型驱动的单元测试生成推进 Fastjson2 中的 Bug 检测 | | 2024 | [链接](https://arxiv.org/abs/2410.09414) | | | 用于漏洞检测和修复的大语言模型：文献综述与未来之路 | | 2024 | [链接](https://arxiv.org/abs/2404.02525) | | | StagedVulBERT: 基于新型预训练代码模型的多粒度漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2410.05766) | [链接](https://github.com/YuanJiangGit/StagedVulBERT) | | LLM4Vuln: 用于解耦和增强 LLMs 漏洞推理的统一评估框架 | | 2024 | [链接](https://arxiv.org/abs/2401.16185) | | | 使用 LLMs 增强源代码安全性：揭开挑战并生成可靠的修复 | | 2024 | [链接](https://arxiv.org/abs/2409.00571) | | | 舒适区之外：分析 LLMs 在软件漏洞检测中的能力 | | 2024 | [链接](https://arxiv.org/abs/2408.16400) | | | ANVIL: 无需标记训练数据的基于异常的漏洞识别 | | 2024 | [链接](https://arxiv.org/abs/2408.16028) | | | 在错误的考试中得最高分：关于机器学习漏洞检测的基准测试 | | 2024 | [链接](https://arxiv.org/abs/2408.12986) | | | 静态应用安全测试工具与大语言模型在仓库级漏洞检测中的比较 | | 2024 | [链接](https://arxiv.org/abs/2407.16235) | | | Vul-RAG: 通过知识级 RAG 增强基于 LLM 的漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2406.11147) | | | 通过大语言模型的多任务自指导微调进行安全漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2406.05892) | | | 通过多任务指令微调实现泛化增强的代码漏洞检测 | ACL Findings | 2024 | [链接](https://aclanthology.org/2024.findings-acl.625/) | [链接](https://github.com/CGCL-codes/VulLLM) | | M2CVD: 通过多模型协作增强漏洞语义以进行代码漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2406.05940) | [链接](https://github.com/HotFrom/M2CVD) | | VulDetectBench: 评估大语言模型在漏洞检测方面的深度能力 | | 2024 | [链接](https://arxiv.org/abs/2406.07595) | [链接](https://github.com/Sweetaroo/VulDetectBench) | | 用于检测安全漏洞的 LLM 辅助静态分析 | | 2024 | [链接](https://arxiv.org/abs/2405.17238) | | | 通过 LLMs 讨论实现多角色共识以进行漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2403.14274) | [链接](https://github.com/rockmao45/llmvulndetection) | | LLMs（目前还）不能可靠地识别和推理安全漏洞：一项综合评估、框架与基准测试 | IEEE S&P | 2024 | [链接](https://www.computer.org/csdl/proceedings-article/sp/2024/313000a019/1RjE9Wb4Wze) | [链接](https://github.com/ai4cloudops/secllmholmes) | | 用于漏洞检测的大语言模型：最新成果与未来方向 | ICSE | 2024 | [链接](https://dl.acm.org/doi/abs/10.1145/3639476.3639762) | | | 使用 ChatGPT 的 Prompt 增强软件漏洞检测 | ICSE | 2024 | [链接](https://dl.acm.org/doi/10.1145/3639478.3643065) | | | DLAP: 用于软件漏洞检测的深度学习增强 LLM Prompt 框架 | 2024 | [链接](https://arxiv.org/abs/2405.01202) | | | 利用大语言模型进行软件漏洞检测：一项综合基准研究 | | 2024 | [链接](https://arxiv.org/abs/2405.15614) | | | 增强静态分析以进行实用 Bug 检测：一种 LLM 集成方法 | OOPSLA | 2024 | [链接](https://dl.acm.org/doi/10.1145/3649828) | [链接](https://github.com/seclab-ucr/LLift) | | 源代码漏洞检测：结合代码语言模型和 Code Property Graph | | 2024 | [链接](https://arxiv.org/abs/2404.14719) | [链接](https://github.com/vul-lmgnn/vul-lmggnn) | | 通过保留漏洞的数据增强增强代码漏洞检测 | LCTES | 2024 | [链接](https://dl.acm.org/doi/10.1145/3652032.3657564) | | | VulEval: 迈向软件漏洞检测的仓库级评估 | | 2024 | [链接](https://arxiv.org/abs/2404.15596) | | | 用于漏洞检测和修复的大语言模型：文献综述与未来之路 | | 2024 | [链接](https://arxiv.org/abs/2404.02525) | | | 关于大语言模型漏洞检测能力的综合研究 | | 2024 | [链接](https://arxiv.org/abs/2403.17218) | | | 大语言模型的思维链 Prompt 用于发现和修复软件漏洞 | | 2024 | [链接](https://arxiv.org/abs/2402.17230) | | | 微调大语言模型以进行漏洞检测 | | 2024 | [链接](https://arxiv.org/abs/2401.17010) | [链接](https://github.com/rmusab/vul-llm-finetune) | | 在使用大语言模型进行漏洞检测方面我们走了多远 | | 2023 | [链接](https://arxiv.org/abs/2311.12420) | [链接](https://github.com/Hustcw/VulBench) | | 编辑时基于 Transformer 的代码漏洞检测：Zero-shot、Few-shot 还是 Fine-tuning？ | | 2023 | [链接](https://arxiv.org/abs/2306.01754) | | | 使用大语言模型进行软件漏洞检测 | IEEE | 2023 | [链接](https://ieeexplore.ieee.org/abstract/document/10301302) | | | DiverseVul: 用于基于深度学习的漏洞检测的新型易受攻击源代码数据集 | RAID | 2023 | [链接](https://dl.acm.org/doi/abs/10.1145/3607199.3607242) | | | VulBERTa: 用于漏洞检测的简化源代码预训练 | IEEE | 2022 | [链接](https://ieeexplore.ieee.org/abstract/document/9892280) | | | 基于深度学习的漏洞检测：我们抵达终点了吗？ | IEEE | 2022 | [链接](https://ieeexplore.ieee.org/abstract/document/9448435) | | | 用于软件漏洞检测的基于 Transformer 的语言模型 | ACSAC | 2022 | [链接](https://dl.acm.org/doi/abs/10.1145/3564625.3567985) | | | 使用深度神经网络进行软件漏洞检测：一项综述 | IEEE | 2020 | [链接](https://ieeexplore.ieee.org/abstract/document/9108283) | | | Devign: 通过图神经网络学习综合程序语义进行有效的漏洞识别 | NeurIPS | 2019 | [链接](https://dl.acm.org/doi/abs/10.5555/3454287.3455202) | | | μμVulDeePecker: 用于多类漏洞检测的基于深度学习的系统 | IEEE | 2019 | [链接](https://ieeexplore.ieee.org/abstract/document/8846081) | | | VulDeePecker: 用于漏洞检测的基于深度学习的系统 | NDSS | 2018 | [链接](https://www.ndss-symposium.org/wp-content/uploads/2018/02/ndss2018_03A-2_Li_paper.pdf) | | # arxiv.md 通过工作流实现对指定关键词的 Arxiv 论文每日自动捕获和更新。 # 致谢本项目的“每日 Arxiv 论文更新”工作流借鉴了 [LLM4SE](https://github.com/gai4se/LLM4SE) 项目。我通过使用 [arxiv](https://github.com/lukasschwab/arxiv.py) 库重构了其原始代码。

标签：Apex, DLL 劫持, 大语言模型, 学术资源, 机器学习