Neetx/ai-security-research-radar

GitHub: Neetx/ai-security-research-radar

自动化追踪 AI 安全攻击前沿的研究雷达，覆盖「AI 用于安全」与「AI 自身安全」两大方向的工具、漏洞和研究趋势。

Stars: 1 | Forks: 0

# AI 安全雷达自主雷达追踪**AI 安全攻击前沿**——涵盖工具、发布与研究——聚焦两大相互交织的领域：**利用 AI 发起攻击**（LLM 红蓝对抗、自动化渗透测试/漏洞利用、AI 驱动的漏洞发现）与**针对 AI 的攻击** （越狱、prompt 注入、steering vectors、模型提取、agent/MCP 攻击）。原始来源趋势账本 + 学习书架，通过每日扫描与每周校准进行更新。 ![trends](https://img.shields.io/badge/trends-2-3266ad?style=flat-square) ![accelerating](https://img.shields.io/badge/accelerating-0-e8590c?style=flat-square) ![watchlist](https://img.shields.io/badge/watchlist-14-6c757d?style=flat-square) ![updated](https://img.shields.io/badge/updated-2026--06--23-2f9e44?style=flat-square) **自上次扫描以来（2026-06-23，第 2 轮）：** - [LLM 漏洞发现与修复](TRENDS.md#id-ai-vuln-discovery-002-llmagentic-vulnerability-discovery-repair--the-insecurity-of-ai-written-code) 提升至**高置信度** — 第二家前沿实验室，Anthropic 的 Frontier Red Team，现已通过 [Measuring LLMs' impact on N-day exploits](https://www.anthropic.com/research/n-days)（针对 21 个 Windows 内核 LPE 漏洞的有效利用）量化了攻击能力。 - [Agent / MCP 攻击面](TRENDS.md#id-agentic-attack-surface-001-attacks-on-the-llm-agent-stack-prompt-injectionrce-malicious-skills-agent-supply-chain) 新增了一个具体的预警产物 — [CVE-2026-46519](https://nvd.nist.gov/vuln/detail/CVE-2026-46519)（mcp-server-kubernetes，CVSS 8.8；工具限制控制失效），这是本月 NVD 中 **27 个 MCP CVE** 之一。 - **观察列表 +6 → 14** — prompt 注入检测器规避、白盒扩散模型反演、世界模型/VLA 攻击、知识编辑擦除错觉、第二个投毒/后门小组 → [observation_queue](TRENDS.md#observation_queue)。 - **值得学习 +1**：[Measuring LLMs' impact on N-day exploits](https://www.anthropic.com/research/n-days)。 ## 趋势 🌱 0 · 📈 2 · 🚀 0 · 🌊 0 · 🏔 0 · 📉 0 · 💤 0 | 趋势 | 阶段 | 最新信号 | |---|---|---| | [Agent / MCP 攻击面](TRENDS.md#id-agentic-attack-surface-001-attacks-on-the-llm-agent-stack-prompt-injectionrce-malicious-skills-agent-supply-chain) | 📈 新兴 | [2026-06-22](https://arxiv.org/abs/2606.23416) | | [LLM 漏洞发现与修复](TRENDS.md#id-ai-vuln-discovery-002-llmagentic-vulnerability-discovery-repair--the-insecurity-of-ai-written-code) | 📈 新兴 | [2026-06-22](https://openai.com/index/daybreak-securing-the-world) | ## 值得学习 - [Measuring LLMs' impact on N-day exploits (Anthropic FRT)](https://www.anthropic.com/research/n-days) — 前沿模型将公开的 PoC 转化为可用的 N-day 漏洞利用（21 个 Windows 内核 LPE 漏洞，通过自动化评分）的具体方法与结果 — 以机器速度将已披露的 CVE 武器化。 - [The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs](https://arxiv.org/abs/2606.22686) — 论证了“拒绝”是一个可操纵的线性特征，而非深层的语义决策：这是 refusal-direction / steering-vector 越狱背后的机制基础。 - [AutoJack (Microsoft)](https://www.microsoft.com/en-us/security/blog/2026/06/18/autojack-single-page-rce-host-running-ai-agent/) — 典型的 confused-deputy 攻击链：单个攻击者网页驱动浏览 agent 跨越 localhost 边界进入 AutoGen Studio 的 MCP 控制平面，并获得主机 RCE 权限。 ## 社区脉搏 _未经验证的情报摄取 — 仅代表情绪，绝非证据；提供讨论帖链接，不点名个人。_ - 被定义为“角色混淆”的 prompt 注入引发了热烈的 [HN 讨论](https://hn.algolia.com/?query=prompt%20injection%20role%20confusion)（199 分）。 - 一个 Show HN 帖子声称存在经过后训练以执行渗透测试而非拒绝的模型 — [HN](https://hn.algolia.com/?query=post-trained%20model%20pen%20tests)（92 分，攻击性模型声明，未经验证）。 - 据报道，一个 jqwik 依赖项发布了隐藏指令，要求 AI 编码 agent 删除数据 — [HN](https://hn.algolia.com/?query=jqwik%20AI%20coding%20agents)（agent 供应链信号）。 ## 输出图谱 - 真相来源：[`TRENDS.md`](TRENDS.md) — 趋势、[观察列表 (14)](TRENDS.md#observation_queue)、`strategy_notes`、`study_shelf`。 - 来源注册表：[`SOURCES.md`](SOURCES.md) — 雷达扫描覆盖的列表。 - 报告：[`reports/`](reports/) — 最新：[2026-06-23](reports/2026-06-23.md)。每周报告：暂无。 - 覆盖范围与自评日志：[`logs/`](logs/)。 - 范围、规则与自主性契约：[`AGENTS.md`](AGENTS.md)。

标签：AI安全, Chat Copilot, CISA项目, DLL 劫持, 大语言模型, 威胁情报, 开发者工具, 数据展示, 红队, 防御加固