Neetx/ai-security-research-radar
GitHub: Neetx/ai-security-research-radar
自动化追踪 AI 安全攻击前沿的研究雷达,覆盖「AI 用于安全」与「AI 自身安全」两大方向的工具、漏洞和研究趋势。
Stars: 1 | Forks: 0
# AI 安全雷达
自主雷达追踪**AI 安全攻击前沿**——涵盖工具、发布与
研究——聚焦两大相互交织的领域:**利用 AI 发起攻击**(LLM 红蓝对抗、自动化
渗透测试/漏洞利用、AI 驱动的漏洞发现)与**针对 AI 的攻击**
(越狱、prompt 注入、steering vectors、模型提取、agent/MCP 攻击)。
原始来源趋势账本 + 学习书架,通过每日扫描与每周
校准进行更新。
   
**自上次扫描以来(2026-06-23,第 2 轮):**
- [LLM 漏洞发现与修复](TRENDS.md#id-ai-vuln-discovery-002-llmagentic-vulnerability-discovery-repair--the-insecurity-of-ai-written-code) 提升至**高置信度** — 第二家前沿实验室,Anthropic 的 Frontier Red Team,现已通过 [Measuring LLMs' impact on N-day exploits](https://www.anthropic.com/research/n-days)(针对 21 个 Windows 内核 LPE 漏洞的有效利用)量化了攻击能力。
- [Agent / MCP 攻击面](TRENDS.md#id-agentic-attack-surface-001-attacks-on-the-llm-agent-stack-prompt-injectionrce-malicious-skills-agent-supply-chain) 新增了一个具体的预警产物 — [CVE-2026-46519](https://nvd.nist.gov/vuln/detail/CVE-2026-46519)(mcp-server-kubernetes,CVSS 8.8;工具限制控制失效),这是本月 NVD 中 **27 个 MCP CVE** 之一。
- **观察列表 +6 → 14** — prompt 注入检测器规避、白盒扩散模型反演、世界模型/VLA 攻击、知识编辑擦除错觉、第二个投毒/后门小组 → [observation_queue](TRENDS.md#observation_queue)。
- **值得学习 +1**:[Measuring LLMs' impact on N-day exploits](https://www.anthropic.com/research/n-days)。
## 趋势
🌱 0 · 📈 2 · 🚀 0 · 🌊 0 · 🏔 0 · 📉 0 · 💤 0
| 趋势 | 阶段 | 最新信号 |
|---|---|---|
| [Agent / MCP 攻击面](TRENDS.md#id-agentic-attack-surface-001-attacks-on-the-llm-agent-stack-prompt-injectionrce-malicious-skills-agent-supply-chain) | 📈 新兴 | [2026-06-22](https://arxiv.org/abs/2606.23416) |
| [LLM 漏洞发现与修复](TRENDS.md#id-ai-vuln-discovery-002-llmagentic-vulnerability-discovery-repair--the-insecurity-of-ai-written-code) | 📈 新兴 | [2026-06-22](https://openai.com/index/daybreak-securing-the-world) |
## 值得学习
- [Measuring LLMs' impact on N-day exploits (Anthropic FRT)](https://www.anthropic.com/research/n-days) — 前沿模型将公开的 PoC 转化为可用的 N-day 漏洞利用(21 个 Windows 内核 LPE 漏洞,通过自动化评分)的具体方法与结果 — 以机器速度将已披露的 CVE 武器化。
- [The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs](https://arxiv.org/abs/2606.22686) — 论证了“拒绝”是一个可操纵的线性特征,而非深层的语义决策:这是 refusal-direction / steering-vector 越狱背后的机制基础。
- [AutoJack (Microsoft)](https://www.microsoft.com/en-us/security/blog/2026/06/18/autojack-single-page-rce-host-running-ai-agent/) — 典型的 confused-deputy 攻击链:单个攻击者网页驱动浏览 agent 跨越 localhost 边界进入 AutoGen Studio 的 MCP 控制平面,并获得主机 RCE 权限。
## 社区脉搏
_未经验证的情报摄取 — 仅代表情绪,绝非证据;提供讨论帖链接,不点名个人。_
- 被定义为“角色混淆”的 prompt 注入引发了热烈的 [HN 讨论](https://hn.algolia.com/?query=prompt%20injection%20role%20confusion)(199 分)。
- 一个 Show HN 帖子声称存在经过后训练以执行渗透测试而非拒绝的模型 — [HN](https://hn.algolia.com/?query=post-trained%20model%20pen%20tests)(92 分,攻击性模型声明,未经验证)。
- 据报道,一个 jqwik 依赖项发布了隐藏指令,要求 AI 编码 agent 删除数据 — [HN](https://hn.algolia.com/?query=jqwik%20AI%20coding%20agents)(agent 供应链信号)。
## 输出图谱
- 真相来源:[`TRENDS.md`](TRENDS.md) — 趋势、[观察列表 (14)](TRENDS.md#observation_queue)、`strategy_notes`、`study_shelf`。
- 来源注册表:[`SOURCES.md`](SOURCES.md) — 雷达扫描覆盖的列表。
- 报告:[`reports/`](reports/) — 最新:[2026-06-23](reports/2026-06-23.md)。每周报告:暂无。
- 覆盖范围与自评日志:[`logs/`](logs/)。
- 范围、规则与自主性契约:[`AGENTS.md`](AGENTS.md)。
标签:AI安全, Chat Copilot, CISA项目, DLL 劫持, 大语言模型, 威胁情报, 开发者工具, 数据展示, 红队, 防御加固