ElNiak/awesome-ai-cybersecurity

GitHub: ElNiak/awesome-ai-cybersecurity

一个系统整理 AI 在网络安全领域应用资源的精选列表，涵盖工具、论文和教程，帮助从业者快速掌握 AI 驱动的安全技术与实践。

Stars: 147 | Forks: 36

# 网络安全中的 AI 精选资源欢迎使用网络安全 AI 终极资源列表。本仓库旨在提供一个整理有序的高质量资源合集，帮助专业人士、研究人员和爱好者紧跟前沿，并增进在该领域的知识。 ## 目录 - [简介](#introduction) - [将 AI 用于 Pentesting](#using-ai-for-pentesting) - [保护 AI SaaS](#securing-ai-saas) - [理论资源](#theoretical-resources) ## 简介 AI 在网络安全中的应用可以使用 Gartner 的 PPDR 模型进行分类： - 预测 - 预防 - 检测 - 响应 - 监控此外，AI 应用可以按技术层划分： - 网络（网络流量分析和入侵检测） - 端点（反恶意软件） - 应用（WAF 或数据库防火墙） - 用户（UBA） - 进程行为（反欺诈） ## 将 AI 用于 Pentesting ### 预测 #### 网络 - [Continuous CyberBattleSim](https://github.com/terranovafr/C-CyberBattleSim) - 一个用于训练和评估可扩展且可泛化的强化学习智能体的仿真工具，用于发现网络中的关键攻击路径（[论文](https://ieeexplore.ieee.org/document/11352493)） - [DeepExploit](https://github.com/13o-bbr-bbq/machine_learning_security) - 使用机器学习的全自动渗透测试框架。它利用强化学习来不断改进其攻击策略。 - [open-appsec](https://github.com/openappsec/openappsec) - Open-appsec 是一个开源的机器学习安全引擎，可预先防范并自动阻止针对 Web 应用程序和 API 的威胁。 #### 恶意软件 - [OpenVAS](https://www.openvas.org/) - 一款开源的漏洞扫描器和漏洞管理解决方案。AI 可用于根据漏洞的潜在影响和被利用的可能性，来改进漏洞的识别和优先级排序。 - [SEMA](https://github.com/csvl/SEMA-ToolChain) - 使用符号执行进行恶意软件分析的工具链。SEMA 提供了一个符号执行框架，用于提取执行跟踪并构建系统调用依赖图（SCDG）。这些图用于恶意软件的分类和分析，能够实现基于符号执行和机器学习技术的恶意软件检测。 - [Malware environment for OpenAI Gym](https://github.com/endgameinc/gym-malware) - 创建一个 AI，通过强化学习学习对恶意软件样本进行保持功能的转换，从而突破/绕过基于机器学习的静态分析恶意软件检测。 ### 预防 #### 网络 - [Snort IDS](https://www.snort.org/) - 一个开源的网络 IDS 和 IPS，能够进行实时流量分析和数据包记录。Snort 可以利用 AI 进行异常检测，并增强其模式匹配算法，以实现更好的入侵检测。 - [PANTHER](https://github.com/ElNiak/PANTHER) - PANTHER 结合了网络协议验证的先进技术，集成了 Shadow 网络模拟器和 Ivy 形式化验证工具。该框架允许对网络协议中的时间属性进行详细检查，并识别现实世界中的实现错误。它支持多种协议，并且可以模拟网络协议中的高级持续性威胁（APT）。 #### 端点 - [OSSEC](https://www.ossec.net/) - 一个开源的基于主机的入侵检测系统（HIDS）。AI 可以通过提供高级异常检测和预测分析来增强 OSSEC，在潜在威胁发生之前识别它们。 ### 检测 #### 网络 - [Zeek](https://github.com/zeek/zeek) - 一个专注于安全监控的强大网络分析框架。可以集成 AI 来分析网络流量模式，并检测表明存在安全威胁的异常情况。 - [AIEngine](https://github.com/camp0/aiengine) - 下一代交互式/可编程数据包检测引擎，具有 IDS 功能。AIEngine 使用机器学习来改进数据包检测和异常检测，并随着时间的推移适应新的威胁。 #### 端点 - [Sophos Intercept X](https://www.sophos.com/en-us/products/intercept-x.aspx) - 高级端点保护，结合了传统的基于特征的检测与 AI 驱动的行为分析，以检测并防止恶意软件和勒索软件攻击。 - [MARK](https://gitlab.cylab.be/cylab/mark) - 多智能体排序框架（MARK）旨在提供构建大规模检测和排序系统所需的所有构建块。它包括适合大数据应用的分布式存储、基于 Web 的可视化和管理界面、用于检测算法的分布式执行框架，以及易于配置的触发机制。这使得数据科学家能够专注于开发有效的检测算法。 ### 响应 #### 网络 - [Metasploit](https://www.metasploit.com/) - 一个用于针对远程目标机器开发和执行漏洞利用代码的工具。AI 可用于自动化选择漏洞利用程序，并根据目标漏洞优化攻击向量。 - [PentestGPT](https://github.com/hackerai-tech/PentestGPT) - PentestGPT 提供先进的 AI 和集成工具，帮助安全团队毫不费力地进行全面的渗透测试。轻松且精确地扫描、利用和分析 Web 应用程序、网络和云环境，而无需专业技能。 #### 端点 - [Cortex](https://github.com/TheHive-Project/Cortex) - 一个强大且灵活的可观测分析及主动响应引擎。可以在 Cortex 中使用 AI 来自动化分析可观测对象，并增强威胁检测能力。 ### 监控/扫描 #### 网络 - [Nmap](https://nmap.org) - 一个免费的开源网络扫描器，用于发现计算机网络上的主机和服务。AI 可以通过自动化分析扫描结果并建议潜在的安全弱点来增强 Nmap 的能力。 #### 端点 - [Burp Suite](https://portswigger.net/burp) - 由 PortSwigger 提供的领先的网络安全工具套件。Burp Suite 可以集成 AI 以自动化检测漏洞，并提高 Web 应用程序安全测试的效率。 - [Nikto](https://github.com/sullo/nikto) - 一个开源的 Web 服务器扫描器，可针对 Web 服务器的多项内容进行全面测试。AI 可以通过自动化识别复杂漏洞并提高检测准确性来为 Nikto 提供帮助。 #### 用户 - [MISP](https://www.misp-project.org/) - 开源威胁情报平台，用于收集、共享、存储和关联妥协指标。AI 可以通过自动化数据分析和关联来提高威胁检测和响应的效率。 - [ZettelForge](https://github.com/rolandpg/zettelforge) - 具有实体提取（CVE、威胁行为者、IOC、MITRE ATT&CK）的 CTI 智能体记忆系统，包含具有别名解析的知识图谱、STIX 2.1 本体、意图分类检索，以及用于 AI 智能体集成的 MCP server。离线、MIT 许可。 - [Scammer-List](https://scammerlist.now.sh/) - 一个免费的开源基于 AI 的诈骗和垃圾信息查找器，带有免费的 API。 ### 教程和指南 - [评论 - 应用于网络安全的机器学习技术](https://link.springer.com/article/10.1007/s13042-018-00906-1) - [网络安全数据科学 - 机器学习视角概述](https://link.springer.com/article/10.1186/s40537-020-00318-5) - [IoT 安全的机器学习方法 - 系统性文献综述](https://www.sciencedirect.com/science/article/pii/S2542660521000093) - [AI 信息安全 - 首次打击、零日市场、硬件供应链、采用障碍](https://www.lesswrong.com/posts/kvk2ZorXui4YB4zvc/ai-infosec-first-strikes-zero-day-markets-hardware-supply) - [充满脆弱机器学习系统世界中的 AI 安全](https://www.lesswrong.com/posts/ncsxcf8CkDveXBCrA/ai-safety-in-a-world-of-vulnerable-machine-learning-systems-1) #### 认证 - [IBM 网络安全分析师](https://www.coursera.org/professional-certificates/ibm-cybersecurity-analyst?utm_medium=sem&utm_source=gg&utm_campaign=b2c_emea_ibm-cybersecurity-analyst_ibm_ftcof_professional-certificates_arte_jan_24_dr_geo-multi_sem_rsa_gads_lg-all&campaignid=20963170017&adgroupid=159756465524&device=c&keyword=cybersecurity%20course&matchtype=p&network=g&devicemodel=&adposition=&creativeid=706156862048&hide_mobile_promo=&gad_source=1) - 准备开启您在网络安全领域的职业生涯。培养该领域高需求职位的必备工作技能，无需学位或先前经验。 ## 保护 AI SaaS ### 最佳实践 - [NIST AI RMF](https://www.nist.gov/itl/ai-risk-management-framework) - 一个用于管理 SaaS 中 AI 相关风险的框架。它提供了有关如何安全实施 AI 的指南，重点在于风险评估、缓解和治理。 ### 案例研究 - [Microsoft AI 安全](https://www.microsoft.com/en-us/security/ai) - 在 SaaS 环境中保护 AI 应用程序的案例研究。这些案例研究展示了如何利用 AI 来增强安全性并防范不断演变的威胁。 - [Google AI 安全](https://cloud.google.com/security/ai) - Google 提供的关于如何在云中保护 AI 应用程序的深入见解和案例研究。 ### 工具 - [IBM Watson](https://www.ibm.com/security/artificial-intelligence) - 用于保护 AI 应用程序的工具和解决方案。Watson 使用 AI 分析大量安全数据并识别潜在威胁，为网络安全专业人员提供可操作的见解。 - [Azure Security Center](https://azure.microsoft.com/en-us/services/security-center/) - 针对云环境的全面安全管理系统。使用 AI 和机器学习实时识别威胁和漏洞。 - [OneCLI](https://github.com/onecli/onecli) - 用于 AI 智能体的开源凭证库。Rust HTTP 网关拦截智能体请求并透明地注入 API 凭据，防止通过 prompt injection 窃取密钥。 ### 网络保护网络安全中的机器学习侧重于网络流量分析（NTA），以分析流量并检测异常和攻击。 **机器学习技术示例：** - 回归用于预测网络数据包参数，并将它们与正常值进行比较。 - 分类用于识别不同类别的网络攻击。 - 聚类用于取证分析。 **研究论文：** - [用于入侵检测的机器学习技术](https://arxiv.org/abs/1312.2177v2) - 关于用于入侵检测的各种机器学习技术的全面调查。 - [网络异常检测技术综述](https://www.gta.ufrj.br/~alvarenga/files/CPE826/Ahmed2016-Survey.pdf) - 讨论了用于检测网络流量中异常的各种技术和方法。 - [浅层与深层网络入侵检测系统 - 分类与综述](https://arxiv.org/abs/1701.02145v1) - 关于用于入侵检测的浅层和深度学习技术的分类和综述。 - [入侵检测系统设计技术、网络威胁与数据集的分类与综述](https://arxiv.org/pdf/1806.03517v1.pdf) - 对 IDS 设计技术和相关数据集的深入回顾。 ### 端点保护用于端点保护的机器学习应用程序可能因端点类型而异。 **常见任务：** - 回归用于预测可执行进程的下一个系统调用。 - 分类用于将程序分类为恶意软件、间谍软件或勒索软件。 - 聚类用于安全电子邮件网关上的恶意软件检测。 **研究论文：** - [浅水区的深度学习 - 面向非领域专家的恶意软件分类](https://arxiv.org/abs/1807.08265v1) - 讨论了用于恶意软件分类的深度学习技术。 - [通过“吃掉”整个 EXE 进行恶意软件检测](https://arxiv.org/pdf/1710.09435v1.pdf) - 提出了一种通过分析整个可执行文件来检测恶意软件的方法。 ### 应用程序安全机器学习可应用于保护 Web 应用程序、数据库、ERP 系统和 SaaS 应用程序。 **示例：** - 回归用于检测 HTTP 请求中的异常。 - 分类用于识别已知的攻击类型。 - 聚类用于用户活动以检测 DDOS 攻击。 **研究论文：** - [在 Web 攻击中自适应检测恶意查询](https://arxiv.org/pdf/1701.07774.pdf) - 提出了检测恶意 Web 查询的方法。 **LLMs：** - [CVE-LMTune](https://github.com/terranovafr/CVE-LMTune) - 一个用于基于 MITRE 分类法进行自动化漏洞分类的语言模型微调、评估和实时推理的统一框架（[论文](https://hal.science/hal-05500820)） - [garak](https://github.com/NVIDIA/garak) - NVIDIA 的 LLM 漏洞扫描器。 - [promptfoo](https://github.com/promptfoo/promptfoo) - 开源 LLM 红队和漏洞扫描器。支持 100 多种攻击类型，拥有超过 25 万用户。 ### 用户行为分析用户行为分析涉及检测用户操作中的异常，这通常是一个无监督学习问题。 **任务：** - 回归用于检测用户操作中的异常。 - 分类用于同级组分析。 - 聚类用于识别异常用户组。 **研究论文：** - [使用扩展的孤立森林算法检测异常用户行为](https://arxiv.org/abs/1609.06676) - 讨论了一种用于检测异常用户行为的扩展孤立森林算法。 ### 进程行为（欺诈检测）进程行为监控涉及检测业务流程中的异常以识别欺诈。 **任务：** - 回归用于预测用户操作并检测异常值。 - 分类用于识别已知的欺诈类型。 - 聚类用于比较业务流程并检测异常值。 **研究论文：** - [信用卡欺诈检测技术综述](https://arxiv.org/abs/1611.06439v1) - 关于信用卡欺诈检测的各种技术的调查。 - [使用 CNN 在工业控制系统中进行异常检测](https://arxiv.org/abs/1806.08110v1) - 讨论了在工业控制系统中使用卷积神经网络进行异常检测。 ### 入侵检测和防御系统（IDS/IPS） IDS/IPS 系统使用机器学习检测并防止恶意网络活动，以减少误报并提高准确性。 **研究论文：** - [下一代入侵检测系统](https://www.sciencedirect.com/science/article/abs/pii/S1574013716300153) - 讨论了入侵检测系统的进展。 ### 书籍和综述论文 #### 书籍 - [Cylance 的 AI 网络安全 (2017)](https://www.blackberry.com/us/en/forms/cylance/gated-content/introduction-to-ai-book) - Cylance 对 AI 网络安全的介绍。 - [机器学习与安全](https://www.oreilly.com/library/view/machine-learning-and/9781491979891/) - 讨论了机器学习在安全领域的应用。 - [掌握用于渗透测试的机器学习](https://www.packtpub.com/product/mastering-machine-learning-for-penetration-testing/9781788997409) - 关于在渗透测试中使用机器学习的指南。 - [恶意软件数据科学](https://nostarch.com/malwaredatascience) - 涵盖了用于恶意软件分析的数据科学技术。 - [AI 网络安全 - 用例手册](https://psucybersecuritylab.github.io/) - 关于 AI 在网络安全中各种用例的手册。 #### 综述论文 - [用于网络安全应用的深度学习算法 - 技术与现状回顾](https://www.sciencedirect.com/science/article/pii/S1574013720304172) - 回顾了深度学习算法在网络安全应用中的现状。 - [机器学习与网络安全 - 炒作与现实]() - 讨论了机器学习在网络安全的实际应用和局限性。 ### 攻击性工具和框架 #### 通用工具 - [Deep-pwning](https://github.com/cchio/deep-pwning) - 一个用于评估机器学习模型抵御对抗性攻击鲁棒性的轻量级框架。 - [Counterfit](https://github.com/Azure/counterfit) - 一个用于评估机器学习系统安全性的自动化层。 - [DeepFool](https://github.com/lts4/deepfool) - 一种欺骗深度神经网络的方法。 - [garak](https://github.com/leondz/garak/) - 一个用于大型语言模型的 LLM 安全探测工具。 - [promptfoo](https://github.com/promptfoo/promptfoo) - 具有自适应多轮攻击、prompt injection 和越狱测试功能的开源 LLM 红队工具。 - [Snaike-MLflow](https://github.com/protectai/Snaike-MLflow) - 一套针对 MLflow 的红队工具。 - [HackGPT](https://github.com/NoDataFound/hackGPT) - 利用 ChatGPT 进行黑客操作的工具。 - [HackingBuddyGPT](https://github.com/ipa-lab/hackingBuddyGPT) - 自动化渗透测试工具。 - [Charcuterie](https://github.com/moohax/Charcuterie) - 针对机器学习库的代码执行技术。 ### 对抗性工具 - [探索对抗性图像空间](https://github.com/tabacof/adversarial) - 一个用于试验对抗性图像的工具。 - [对抗性机器学习库](https://github.com/vu-aml/adlib) - 一个用于对抗性机器学习的博弈论库。 - [EasyEdit](https://github.com/zjunlp/EasyEdit) - 一个用于修改大型语言模型真实属性的工具。 ### 中毒工具 - [BadDiffusion](https://github.com/IBM/BadDiffusion) - 用于复现发表在 CVPR 2023 上的论文《How to Backdoor Diffusion Models?》的官方代码库。 ### 隐私工具 - [PrivacyRaven](https://github.com/trailofbits/PrivacyRaven) - 一个用于深度学习系统的隐私测试库。 ### 防御性工具和框架 #### 安全与预防 - [Guardrail.ai](https://shreyar.github.io/guardrails/) - 一个 Python 包，用于为大型语言模型的输出添加结构、类型和质量保证。 #### 检测工具 - [CircleGuardBench](https://github.com/whitecircle-ai/circle-guard-bench) - 一个用于评估 AI 模型保护能力的完整基准测试。 - [SecLens](https://github.com/mattersec-labs/seclens) - 一个使用真实 CVE 评估 LLM 在安全漏洞检测方面的基准，涵盖了 5 种利益相关者视角和 35 个评分维度的 406 项任务。[论文](https://arxiv.org/abs/2604.01637)。 - [ProtectAI 的模型扫描器](https://github.com/protectai/model-scanner) - 用于检测序列化机器学习模型中可疑操作的安全扫描器。 - [rebuff](https://github.com/woop/rebuff) - 一个 prompt injection 检测器。 - [langkit](https://github.com/whylabs/langkit) - 用于监控语言模型并检测攻击的工具包。 - [StringSifter](https://github.com/fireeye/stringsifter) - 一种根据字符串与恶意软件分析的相关性对其进行排序的工具。 #### 隐私与机密性 - [Python 差分隐私库](https://github.com/OpenMined/PyDP) - 用于实施差分隐私的库。 - [Diffprivlib](https://github.com/IBM/differential-privacy-library) - IBM 的差分隐私库。 - [PLOT4ai](https://plot4.ai/) - 用于构建负责任 AI 的威胁建模库。 - [TenSEAL](https://github.com/OpenMined/TenSEAL) - 用于对张量执行同态加密操作的库。 - [SyMPC](https://github.com/OpenMined/SyMPC) - 一个安全的多方计算库。 - [PyVertical](https://github.com/OpenMined/PyVertical) - 隐私保护的纵向联邦学习。 - [Cloaked AI](https://ironcorelabs.com/products/cloaked-ai/) - 开源的针对向量 embedding 的保属性加密。 ## 理论资源 ### 学习资源 - [MLSecOps 播客](https://mlsecops.com/podcast) - 致力于探讨机器学习与安全运维交集的播客。 ### 其他实用资源 - [OWASP ML TOP 10](https://owasp.org/www-project-machine-learning-security-top-10/) - OWASP 识别出的 10 大机器学习安全风险。 - [OWASP LLM TOP 10](https://owasp.org/www-project-top-10-for-large-language-model-applications/) - OWASP 识别出的 10 大大型语言模型安全风险。 - [OWASP AI 安全与隐私指南](https://owasp.org/www-project-ai-security-and-privacy-guide/) - 保护 AI 系统和确保隐私的指南。 - [OWASP WrongSecrets LLM 练习](https://wrongsecrets.herokuapp.com/challenge/32) - 用于测试 AI 模型安全的练习。 - [NIST AIRC](https://airc.nist.gov/Home) - NIST 可信与负责任 AI 资源中心。 - [ENISA AI 良好网络安全实践的多层框架](https://www.enisa.europa.eu/publications/multilayer-framework-for-good-cybersecurity-practices-for-ai) - AI 良好网络安全实践的框架。 - [MLSecOps Top 10](https://ethical.institute/security.html) - 机器学习运维的 10 大安全实践。 ### 研究论文 #### 对抗样本与攻击 - [高维空间、深度学习与对抗样本](https://arxiv.org/abs/1801.00634) - 讨论了高维空间中对抗样本的挑战。 - [对抗性任务分配](https://arxiv.org/abs/1709.00358) - 探讨了机器学习系统中的对抗性任务分配。 - [针对深度学习模型的鲁棒物理世界攻击](https://arxiv.org/abs/1707.08945) - 研究了针对深度学习模型的物理世界攻击。 - [可迁移对抗样本的空间](https://arxiv.org/abs/1704.03453) - 讨论了深度学习中的可迁移对抗样本。 - [RHMD - 抗规避的硬件恶意软件检测器](http://www.cs.ucr.edu/~kkhas001/pubs/micro17-rhmd.pdf) - 探讨了抗规避的基于硬件的恶意软件检测器。 - [深度强化学习对策略诱导攻击的脆弱性](https://arxiv.org/abs/1701.04143) - 研究了针对深度强化学习模型的策略诱导攻击。 - [你能在视觉图灵测试中用对抗样本欺骗 AI 吗？](https://arxiv.org/abs/1709.08693) - 使用视觉图灵测试测试了 AI 模型的鲁棒性。 - [解释并利用对抗样本](https://arxiv.org/abs/1412.6572) - 关于机器学习中对抗样本的基础性论文。 - [深入探讨针对深度策略的对抗攻击](https://arxiv.org/abs/1705.06452) - 分析了针对深度策略的对抗攻击。 - [为循环神经网络构建对抗输入序列](https://arxiv.org/abs/1604.08275) - 讨论了针对 RNN 的对抗攻击。 - [针对机器学习的实用黑盒攻击](https://arxiv.org/abs/1602.02697) - 探讨了针对机器学习模型的实用黑盒攻击。 - [基于 GAN 生成用于黑盒攻击的对抗性恶意软件样本](https://arxiv.org/abs/1702.05983) - 使用 GAN 生成对抗性恶意软件样本。 - [对抗领域中针对黑盒分类器的数据驱动探索性攻击](https://arxiv.org/abs/1703.07909) - 探讨了针对黑盒分类器的数据驱动攻击。 - [Fast Feature Fool - 通用对抗性扰动的数据无关方法](https://arxiv.org/abs/1707.05572v1) - 提出了一种创建通用对抗性扰动的方法。 - [针对深度网络的简单黑盒对抗扰动](https://arxiv.org/abs/1612.06299) - 讨论了进行黑盒对抗性扰动的简单方法。 - [狂野的模式 - 对抗性机器学习崛起十年后](https://arxiv.org/abs/1712.03141) - 对对抗性机器学习演变的回顾。 - [用于欺骗深度神经网络的单像素攻击](https://arxiv.org/abs/1710.08864v1) - 演示了单像素修改如何能够欺骗深度神经网络。 - [FedMLSecurity - 联邦学习和 LLM 中的攻击与防御基准](https://arxiv.org/abs/2306.04959) - 用于评估联邦学习和 LLM 安全性的基准。 - [越狱 - LLM 安全训练为何失败？](https://arxiv.org/abs/2307.02483) - 分析了 LLM 安全训练的失败模式。 - [Bad Characters - 难以察觉的 NLP 攻击](https://arxiv.org/abs/2106.09898) - 讨论了针对 NLP 模型的难以察觉的对抗性攻击。 - [针对对齐语言模型的通用可迁移对抗攻击](https://arxiv.org/abs/2307.15043) - 探讨了针对语言模型的通用对抗性攻击。 - [通过通用对抗文本探索自然语言处理模型的脆弱性](https://aclanthology.org/2021.alta-1.14/) - 调查了 NLP 模型对对抗性文本的脆弱性。 - [对抗样本不是 Bug，而是特性](https://arxiv.org/abs/1905.02175) - 论证了对抗样本是模型的固有特征。 - [通过实体交换对表格进行对抗性攻击](https://ceur-ws.org/Vol-3462/TADA4.pdf) - 讨论了针对表格数据的对抗性攻击。 - [AI 蠕虫来了 - 释放针对 GenAI 驱动应用程序的零点击蠕虫](https://arxiv.org/abs/2403.02817) - 探讨了针对 AI 驱动应用程序的零点击蠕虫。 #### 模型提取 - [通过预测 API 窃取机器学习模型](https://arxiv.org/abs/1609.02943) - 讨论了通过预测 API 提取机器学习模型的方法。 - [论窃取语言模型解码算法的风险](https://arxiv.org/abs/2303.04729) - 调查了从语言模型中提取解码算法的风险。 #### 规避 - [针对大型语言模型的对抗性演示攻击](https://arxiv.org/abs/2305.14950) - 探讨了针对大型语言模型的规避攻击。 - [只看袋子不足以发现炸弹 - 对抗恶意 PDF 文件检测结构化方法的规避](https://pralab.diee.unica.it/sites/default/files/maiorca_ASIACCS13.pdf) - 讨论了对 PDF 恶意软件检测方法的规避。 - [对抗生成网络 - 针对最先进人脸识别的神经网络攻击](https://arxiv.org/abs/1801.00349) - 调查了针对人脸识别模型的对抗性攻击。 - [规避凸诱导分类器的查询策略](https://people.eecs.berkeley.edu/~adj/publications/paper-files/1007-0484v1.pdf) - 讨论了规避凸诱导分类器的查询策略。 - [针对黑盒基础模型的对抗性提示](https://arxiv.org/abs/2302.04237) - 探讨了针对基础模型的对抗性提示。 - [自动规避分类器 - PDF 恶意软件分类器案例研究](http://evademl.org/docs/evademl.pdf) - 关于规避 PDF 恶意软件分类器的案例研究。 - [针对 RNN 和其他基于 API 调用的恶意软件分类器的通用黑盒端到端攻击](https://arxiv.org/abs/1707.05970) - 调查了针对 RNN 和恶意软件分类器的黑盒攻击。 - [GPT 保守不住秘密 - 在自回归语言模型中搜索后门水印触发器](https://aclanthology.org/2023.trustnlp-1.21/) - 调查了自回归语言模型中的后门触发器。 #### 中毒 - [指令即后门 - 大型语言模型指令调优的后门漏洞](https://arxiv.org/abs/2305.14710) - 讨论了指令调优语言模型中的后门漏洞。 - [BadGPT - 通过对 InstructGPT 的后门攻击探索 ChatGPT 的安全漏洞](https://arxiv.org/abs/2304.12298) - 探讨了针对 ChatGPT 的后门攻击。 - [利用反向梯度优化实现深度学习算法的中毒攻击](https://arxiv.org/abs/1708.08689) - 提出了用于深度学习算法中毒攻击的反向梯度优化。 - [针对黑盒学习模型的高效标签污染攻击](https://www.ijcai.org/proceedings/2017/0551.pdf) - 讨论了针对黑盒模型的高效标签污染攻击。 - [文本到图像扩散模型可通过多模态数据中毒轻易植入后门](https://arxiv.org/abs/2305.04175) - 探讨了通过数据中毒对扩散模型进行后门攻击。 - [UOR - 针对预训练语言模型的通用后门攻击](https://arxiv.org/abs/2305.09574) - 讨论了针对语言模型的通用后门攻击。 - [分析和编辑后门语言模型的内部机制](http://arxiv.org/abs/2302.12461) - 调查了后门语言模型的内部机制。 - [如何对扩散模型进行后门攻击？](https://arxiv.org/abs/2212.05400) - 探讨了后门攻击扩散模型的方法。 - [论指令调优的可利用性](https://arxiv.org/abs/2306.17194) - 讨论了指令调优的可利用性。 - [通过归因防御基于插入的文本后门攻击](https://aclanthology.org/2023.findings-acl.561/) - 提出了防御文本后门攻击的方法。 - [一种针对参数高效调优后门攻击的梯度控制方法](https://aclanthology.org/2023.acl-long.194/) - 讨论了用于后门攻击的梯度控制方法。 - [BadNL - 针对具有语义保留改进的 NLP 模型的后门攻击](https://arxiv.org/abs/2006.01043) - 探讨了针对 NLP 模型的保留语义的后门攻击。 - [当心被投毒的词向量 - 探索 NLP 模型中 Embedding 层的脆弱性](https://arxiv.org/abs/2103.15543) - 讨论了词向量对中毒攻击的脆弱性。 - [BadPrompt - 针对连续提示的后门攻击](https://arxiv.org/abs/2211.14719) - 调查了针对连续提示的后门攻击。 ### 隐私 - [从扩散模型中提取训练数据](https://arxiv.org/abs/2301.13188) - 讨论了从扩散模型中提取训练数据。 - [针对文本到图像生成模型的提示窃取攻击](https://arxiv.org/abs/2305.13873) - 探讨了针对文本到图像生成模型的提示窃取攻击。 - [扩散模型容易受到成员推理攻击吗？](https://arxiv.org/abs/2302.01316) - 调查了扩散模型对成员推理攻击的脆弱性。 - [利用置信度信息的模型反演攻击及基本对策](https://www.cs.cmu.edu/~mfredrik/papers/fjr2015ccs.pdf) - 讨论了反演攻击和应对对策。 - [针对 ChatGPT 的多步越狱隐私攻击](http://arxiv.org/abs/2304.05197) - 探讨了针对 ChatGPT 的多步越狱隐私攻击。 - [成群的随机鹦鹉 - 用于大型语言模型的差分隐私提示学习](https://arxiv.org/abs/2305.15594) - 讨论了用于语言模型的差分隐私提示学习。 - [ProPILE - 探测大型语言模型中的隐私泄露](https://arxiv.org/abs/2307.01881) - 调查了大型语言模型中的隐私泄露。 - [句子 embedding 泄露的信息超乎你的想象 - 恢复整个句子的生成式 embedding 反演攻击](https://arxiv.org/pdf/2305.03010.pdf) - 讨论了针对句子 embedding 的 embedding 反演攻击。 - [文本 embedding 揭示的（几乎）与文本一样多](https://arxiv.org/pdf/2310.06816.pdf) - 探讨了文本 embedding 的信息泄露。 - [Vec2Face - 从人脸识别的黑盒特征中揭示人脸](https://arxiv.org/pdf/2003.06958.pdf) - 讨论了从人脸识别特征重建人脸。 - [从深度 embedding 进行逼真的人脸重建](https://openreview.net/pdf?id=-WsBmzWwPee) - 探讨了从深度 embedding 进行人脸重建。 #### 注入 - [DeepPayload - 通过神经 payload 注入对深度学习模型进行黑盒后门攻击](https://arxiv.org/abs/2101.06896) - 讨论了通过神经 payload 注入对深度学习模型进行后门攻击。 - [并非你注册的内容 - 通过间接 prompt injection 破坏现实世界中集成 LLM 的应用程序](https://arxiv.org/abs/2302.12173) - 讨论了针对集成 LLM 应用程序的间接 prompt injection 攻击。 - [潜在越狱 - 评估大型语言模型文本安全性和输出鲁棒性的基准](https://arxiv.org/abs/2307.08487) - 提出了评估大型语言模型安全性和鲁棒性的基准。 - [Jailbreaker - 跨多个大型语言模型聊天机器人的自动越狱](https://arxiv.org/abs/2307.08715) - 讨论了针对多个大型语言模型聊天机器人的自动越狱攻击。 - [（滥）用图像和声音在多模态 LLM 中进行间接指令注入](https://arxiv.org/abs/2307.10490) - 探讨了在多模态 LLM 中使用图像和声音进行间接指令注入。 #### 其他研究论文 - [召唤恶魔 - 在机器学习中寻找可利用的 Bug](https://arxiv.org/abs/1701.04739) - 讨论了机器学习中可利用 Bug 的搜寻。 - [capAI - 符合欧盟人工智能法案的 AI 系统一致性评估程序](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4064091) - 提出了一种 AI 系统一致性评估的程序。 - [关于大型语言模型代码生成的鲁棒性和可靠性的研究](https://arxiv.org/abs/2308.10335) - 调查了 LLM 代码生成的鲁棒性和可靠性。 - [被 AI pwn'd - 使用大型语言模型进行渗透测试](https://arxiv.org/abs/2308.00121) - 探讨了使用大型语言模型进行渗透测试。 - [评估 LLM 在权限提升场景中的表现](https://arxiv.org/abs/2310.11409) - 评估了 LLM 在权限提升场景中的表现。

标签：人工智能, 内核模块, 学习资料, 安全资源, 用户模式Hook绕过, 网络安全, 防御加固, 隐私保护