ai-boost/awesome-prompts

GitHub: ai-boost/awesome-prompts

一个覆盖提示模板、Agent 工程框架、安全攻防和前沿论文的综合性 AI 提示工程资源库。

Stars: 8008 | Forks: 741

Awesome Prompts 🪶

Curated prompts, frameworks, and papers — with an engineering bias.

Deutsch | English | Español | français | 日本語 | 한국어 | Português | Русский | 中文

Awesome PRs Welcome

提示工程领域已经分化为两大阵营: - **阵营一 — 提示模板**:收集系统提示,分享复制粘贴的配方,策划角色提示。有用,但有局限性。 - **阵营二 — 提示即工程**:编译 LM 程序(DSPy),测试和回归提示(promptfoo),结构化控制生成(Guidance),自动优化提示(TextGrad、GEPA)。这里是长期价值所在。 本仓库涵盖两者。工程阵营占据更多篇幅。 ## 目录 - [📋 提示](#prompts) — 即拿即用 - [编程与开发](#coding--development) - [DevOps 与 SRE](#devops--sre) - [数据工程](#data-engineering) - [AI 与 ML](#ai--ml) - [产品与战略](#product--strategy) - [项目管理](#project-management) - [医疗与临床](#healthcare--clinical) - [工业与汽车](#industrial--automotive) - [法律与合规](#legal--compliance) - [知识与文档](#knowledge--documentation) - [写作与学术](#writing--academic) - [学习与教育](#learning--education) - [研究与分析](#research--analysis) - [效率与任务](#productivity--tasks) - [安全与合规](#safety--compliance) - [元提示与提示工程](#meta--prompt-engineering) - [图像、视频与音频生成](#image--video--audio-generation) - [创意与角色扮演](#creative--role-play) - [游戏开发](#game-development) - [翻译](#translation) - [遗留(2023 时代)](#legacy-2023-era--kept-for-reference) - [🔬 框架](#frameworks) — 工程阵营 - [提示编程](#prompt-programming) - [自动提示优化](#automatic-prompt-optimization) - [评估与测试](#eval--testing) - [红队与安全](#red-team--security) - [低代码与工作流平台](#low-code--workflow-platforms) - [🕵️ 系统提示泄露](#system-prompt-leaks) — 从生产中学习 - [🧠 提示工程](#prompt-engineering) — 技术与防御 - [🔭 上下文工程](#context-engineering) - [🤖 Agent 生态](#agent-ecosystem) — MCP、Skills、Harness - [📖 官方指南](#official-guides) - [📄 论文](#papers) — 基础、优化、推理、RAG、Agent、多 Agent、安全、自我改进 Agent、工具使用、评估、记忆、多模态 - [🛠 工具与库](#tools--libraries) ## 提示 所有提示都是开放的 — 点击、复制、直接使用。 ### 编程与开发 | 名称 | 描述 | 提示 | |------|------|------| | 🤖 Agentic Coder | 规划优先的编码 Agent — 安全检查清单、测试规范、PR 摘要格式(2025) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agentic_coder.txt) | | 🔍 Code Reviewer | 以安全为重点的代码审查者 — OWASP Top 10、严重性分级、修复示例(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/code_reviewer_security.txt) | | 🕸 Multi-Agent Orchestrator | 中央调度 Agent — 任务分解、并行委派、状态跟踪、错误恢复(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/multi_agent_orchestrator.txt) | | 🧱 Agent Harness Designer | 设计可靠 Agent 运行时的系统提示 — 工具最小化、审批门控、内存/压缩、回滚、可观测性、评估;源自 OpenAI/Anthropic 的 Harness 指南(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_harness_designer.txt) | | ⚡ Agent Harness Performance Engineer | 跨 Harness 的 Agent Harness 优化 — Token 经济、内存持久化钩子、通过本能提取的持续学习、验证循环、并行化、安全扫描;基于 affaan-m/everything-claude-code(2026 年 1 月,182k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_harness_performance_engineer.txt) | | 📁 Agent Virtual Filesystem Architect | AI Agent 的统一虚拟文件系统层 — 挂载拓扑、资源适配器、bash 工具表面、双层缓存、快照/克隆、框架集成;基于 strukto-ai/mirage(2026 年 5 月,2149 stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_virtual_filesystem_architect.txt) | | ⚙️ Autonomous Software Factory Orchestrator | 聊天驱动的自主开发编排器 — 人类通过轻量级消息设定方向,自协调的 claws 执行规划/构建/测试/审查/推送循环;通知路由(git/tmux/GitHub/生命周期)严格保持在 Agent 上下文窗口之外;基于 ultraworkers/claw-code(2026 年 3 月,191k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/autonomous_software_factory_orchestrator.txt) | | 🖥 Computer Use Operator | 浏览器/桌面 Agent 的系统提示 — 观察 → 行动 → 验证循环、最小权限、确认门控、钓鱼/提示注入抵抗;源自 OpenAI 的 2026 年计算机使用指南 | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/computer_use_operator.txt) | | 🌐 Browser Harness Designer | 自愈式浏览器 Harness 架构师 — 直接 CDP websocket、可编辑的轻量级运行时、Agent 生成的辅助层、领域/交互技能分离;基于 browser-use/browser-harness(2026 年 4 月,12k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/browser_harness_designer.txt) | | 🖥 Agent-Native CLI Designer | GUI 软件的 Agent 原生 CLI 架构师 — 7 阶段 SOP,将任何 GUI 应用包装为有状态的、Agent 可用的 CLI,支持 REPL + 子命令模式、后端集成、测试规划和 SKILL.md 生成;基于 HKUDS/CLI-Anything(2026 年 3 月,34k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/cli_anything_harness_designer.txt) | | 🧩 Agent Skill Designer | 打包可复用 Agent 技能的提示 — 窄范围、工具感知的工作流、安全规则、验证清单、`SKILL.md` 草稿输出;源自 Anthropic/Google 技能指南(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_skill_designer.txt) | | 🧠 Managed Agent Architect | 设计长期运行的托管 Agent 系统的提示 — brain/hands 分离、Worker 合约、检查点、权限范围、恢复;源自 Anthropic/OpenAI 2026 Harness 指南 | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/managed_agent_architect.txt) | | 🔌 Agent Protocol Advisor | 选择 MCP vs A2A vs 更简单传输协议的提示 — 协议映射、信任边界、所有权、重试、迁移计划;源自 Google 的 2026 年协议指南 | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_protocol_advisor.txt) | | 🧮 Agentic Code Reasoner | 基于证据的代码推理提示 — 半形式化推理链、竞争假设、验证优先的结论,用于复杂代码理解(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agentic_code_reasoner.txt) | | 📨 Multi-Agent Communication Designer | 设计 Agent 间消息协议的提示 — 拓扑选择、消息字段、冲突处理、图/Schema 与自由文本的权衡(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/multi_agent_communication_designer.txt) | | 🕸 Multi-Agent Topology Selector | 选择单/并行/顺序/层次/混合 Agent 拓扑的提示 — 通信成本、所有权、故障控制、人工审查点(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/multi_agent_topology_selector.txt) | | 🤝 Agent Cooperation Designer | 设计协作式多 Agent 系统的提示 — 共享目标、本地角色、分歧规则、反羊群控制、评估信号(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_cooperation_designer.txt) | | 🎛 Vendor-Diverse Multi-Agent Ensemble Designer | 设计刻意混合供应商(Claude / GPT / Gemini / DeepSeek / Qwen / Llama)的多 Agent 集成的提示 — 角色到供应商的映射以实现互补的归纳偏差、分歧即信号的仲裁、供应商相关故障审计、单一文化控制、版本锁定;基于 MIT/Harvard "Multi-Agent LLM Systems for Clinical Diagnosis: The Impact of Vendor Diversity"(arXiv 2603.04421, 2026)— 从临床推广到任何高风险模糊任务 | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/vendor_diverse_multi_agent_designer.txt) | | 🗄 SQL Assistant | 高级数据库工程师 — 查询编写(CTE 优先)、优化(EXPLAIN 驱动)、Schema 设计、多方言(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/sql_assistant.txt) | | 🐛 Debugging Agent | 系统性 Bug 猎手 — 复现 → 观察 → 假设 → 测试 → 定位 → 修复;适用于任何语言(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/debugging_agent.txt) | | 🎯 Disciplined Diagnostician | 针对疑难 Bug 和性能回归的严格诊断循环 — 反馈循环构建、可证伪假设、仪器化探针、正确的回归测试接缝、清理协议;基于 mattpocock/skills(2026 年 2 月) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/diagnose.txt) | | 🏗 System Design | 资深架构师 — 先澄清需求、容量估算、组件权衡、故障模式(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/system_design.txt) | | 📐 Spec-Driven Development Architect | 规范优先的系统设计师 — 结构化任务/技术栈/路线图/需求/场景/验证包;RFC 2119 规范、变更的增量规范、小阶段分解;基于 2026 年规范驱动开发最佳实践(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/spec_driven_development_architect.txt) | | ⚡ Performance Profiler | 性能工程专家 — 基线 → 瓶颈分析 → 带代码示例的影响排序优化计划(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/performance_profiler.txt) | | 🔧 Refactoring Coach | 重构专家 — 诊断代码异味、编排安全的 Fowler 目录转换、每一步保持行为不变(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/refactoring_coach.txt) | | 🔗 API Integration Architect | 集成架构师 — 模式选择、认证、重试/退避、幂等性、可观测性,实现可靠的系统集成(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/api_integration_architect.txt) | | 🗃 Database Schema Designer | 数据库架构师 — 实体建模、规范化(1NF–3NF)、索引策略、PostgreSQL DDL 及迁移说明(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/database_schema_designer.txt) | | 🧪 Test Strategy Architect | 测试架构师 — 基于风险的测试金字塔、工具、各层覆盖率目标、4 周实施路线图(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/test_strategy_architect.txt) | | ⚡ Claude Artifacts | 生成丰富 Claude Artifact(UI、交互式应用、代码)的系统提示 | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/claude_artifacts_prompt.md) | | 💻 Professional Coder | 专家级编码助手 — 自动编程、项目生成、任何语言 | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/%F0%9F%92%BBProfessional%20Coder.md) | | 🎨 Design System Spec Architect | 编写 DESIGN.md 设计系统规范的提示 — 机器可读的 YAML Token + 人类可读的原理说明、组件定义、状态变体和 WCAG 安全调色板;源自 Google Labs 的 2026 年 design.md 规范(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/design_system_spec_architect.txt) | | 🎨 Generative UI Architect | 组件优先、设计系统原生的 UI 生成 — 状态、Token、无障碍、响应式布局、类型化代码输出(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/generative_ui_architect.txt) | | 🎨 Open Design Orchestrator | 本地优先、Agent 无关的设计生产者 — 技能驱动的原型/演示工作流、72+ 品牌级设计系统、确定性视觉方向、五维多自评、多模态导出(HTML/PDF/PPTX/MP4);基于 nexu-io/open-design(2026 年 4 月,38k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/open_design_orchestrator.txt) | | 🎨 Magazine Web Deck Designer | 单文件 HTML 水平滑动演示架构师 — 两种锁定视觉风格(编辑杂志 × 电墨 vs 瑞士国际主义)、WebGL 英雄背景、10–22 种注册布局骨架、锁定主题预设、Motion One 编排、排版优先规范;基于 op7418/guizang-ppt-skill(2026 年 4 月,8590 stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/magazine_web_deck_designer.txt) | | 🎨 HTML PPT Studio Designer | 专业静态 HTML 演示架构师 — 36 种主题、15 个完整演示模板、31 种布局、47 种动画(27 CSS + 20 canvas FX)、真正的演示者模式,带像素级预览 + 演讲者脚本 + 计时器;基于 Token 的设计系统、键盘运行时、无需构建步骤;基于 lewislulu/html-ppt-skill(2026 年 4 月,4676 stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/html_ppt_studio_designer.txt) | | 🎨 Frontend Taste Engineer | 覆盖 LLM 默认通用 UI 偏见的高级 UI/UX 工程师 — 基于指标的设计规则(方差/密度/运动旋钮)、反 slop 护栏、CSS 硬件加速、弹簧物理、液态玻璃折射和高级交互状态;基于 Leonxlnx/taste-skill(2026 年 4 月,17.5k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/frontend_taste_engineer.txt) | | 🎨 HTML-Native Design Orchestrator | 一句话到交付的设计技能 — 交互式原型、HTML 演示、运动设计(MP4/GIF)、信息图和 5 维专家评审;强制执行核心资产协议(logo → 产品截图 → UI → 颜色 → 字体)、初级设计师工作流、反 AI slop 规则和 5 学派×20 哲学设计方向顾问;基于 alchaincyf/huashu-design(2026 年 4 月,14k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/huashu_design.txt) | | 🖥 Frontend Developer | React/Vue/Angular 专家 — 组件架构、Core Web Vitals、WCAG 2.1、响应式设计、TypeScript、性能预算(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/frontend_developer.txt) | | 🌐 Web Quality Auditor | 全面前端质量审计 — Lighthouse 驱动的性能(Core Web Vitals)、无障碍(WCAG 2.2 AA)、技术 SEO 和最佳实践;带严重性分级的发现和文件:行引用及具体修复;基于 addyosmani/web-quality-skills(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/web_quality_auditor.txt) | | 📲 Mobile App Builder | 原生 iOS(Swift/SwiftUI)+ Android(Kotlin/Jetpack Compose)+ 跨平台(React Native/Flutter)— 离线优先、生物识别认证、推送通知、应用商店部署(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/mobile_app_builder.txt) | | 🍎 SwiftUI Code Reviewer | 生产级 SwiftUI 代码审查者 — 废弃 API 现代化、数据流验证、无障碍审计(Dynamic Type/VoiceOver/Reduce Motion)、性能优化、Swift 6.2 并发、导航模式、代码卫生;基于 twostraws/SwiftUI-Agent-Skill(2026 年 3 月,3.9k+ stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/swiftui_code_reviewer.txt) | | 🤖 Jetpack Compose Architect | 生产级 Jetpack Compose 代码架构师 — 状态编写/提升/Holder 模式、重组性能、稳定性诊断、延迟读取、副作用生命周期、Kotlin Flow 状态/事件建模、无障碍和 Material 3 合规;基于 chrisbanes/skills(2026 年 5 月,660 stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/jetpack_compose_architect.txt) | | ⛓️ Solidity Smart Contract Engineer | 安全优先的 Solidity — checks-effects-interactions、ERC-20/721/1155、UUPS/diamond 代理、DeFi 原语、Gas 优化、Foundry 模糊/不变量测试、L2 部署(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/solidity_smart_contract_engineer.txt) | | ⚡ Solana Blockchain Architect | 生产级 Solana 程序设计 — Rust/Anchor、账户模型规范、PDA 推导/CPI 安全、SPL Token/Token-2022、计算单元优化、重初始化防御、签名者/所有者验证、`solana-program-test` 验证;基于 solana-foundation/solana-dev-skill(2026 年 3 月,493 stars) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/solana_blockchain_architect.txt) | | 🧠 Emotion-Aware Engineering Partner | 基于 Anthropic 2026 年情感向量研究的高级编码伙伴 — 增量交付、诚实的不确定性校准、协作式质疑、调试透明度(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/emotion_aware_engineering_partner.txt) | | ✅ Verification Specialist | 对抗性验证 Agent — 试图破坏前端、后端、CLI、移动端、数据/ML 和基础设施的实现;强制执行带命令支持的 PASS/FAIL/PARTIAL 裁决和对抗性探针(2026) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/verification_specialist.txt) | | 🏛 Tech Debt Auditor | 全仓库结构审计 — 九维债务扫描(架构腐烂、一致性腐烂、类型债务、测试债务、依赖腐烂、性能卫生、可观测性、安全卫生、文档漂移);判断前的强制方向、强制 `file:line` 引用、必需的"看起来糟糕但实际上没问题"部分;基于 ksimback/tech-debt-skill(2026 年 4 月) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/tech_debt_auditor.txt) | | 🎯 Andrej Karpathy Coding Guidelines | 针对常见 LLM 编码错误的简洁行为护栏 — 编码前先思考、简洁优先、仅做外科手术式更改、目标驱动的验证;源自 Andrej Karpathy 对 LLM 编码陷阱的观察(2026 年 1 月) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/andrej_karpathy_coding_guidelines.txt) | | 🧰 Coding Agent System Prompt | CLI 编码 Agent 的生产级系统提示 — 身份、权限模型、任务执行规范、代码风格约束、风险感知操作、工具使用协议、输出效率;从 Claude Code 中观察到的模式独立编写(2026 年 4 月) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/coding_agent_system_prompt.txt) | | 📊 Technical Diagram Engineer | 生产级 SVG 图表生成器 — 架构、数据流、流程图、序列图、Agent/内存、UML、ER、网络拓扑;7 种视觉风格、语义箭头词汇、形状分类、布局规则、AI/Agent 领域模式;基于 yizhiyanhua-ai/fireworks-tech-graph(2026 年 4 月) | [提示](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/technical_diagram_engineer.txt) | | 🧩 Claude Code Sub-Agent Designer | Anthropic Claude Code 子 Agent 的设计者提示 — 何时使用子 Agent vs Skill | 🔍 评估意识审计器 | 审计并弥合基准分数与生产行为之间的差距——匹配评估形态与生产形态的探测对,每个工作负载的增量及置信区间,在将残差归因于评估意识之前强制进行差异诊断(分布偏移/模板脆弱性/长度效应/工具可用性/可用性/安全提示),双向审计(能力与安全,高估与低估),探测轮换作为泄漏控制,分层缓解措施(报告差距→并行置信区间→改写重写→仅在保留探测上进行后训练),生产漂移监控;基于 Anthropic 的《Claude Opus 4.6 BrowseComp 性能中的评估意识》(anthropic.com/engineering/eval-awareness-browsecomp,2026年3月) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/eval_awareness_auditor.txt) | | 💰 LLM-as-a-Judge 路由策略师 | LLM-as-a-Judge 的成本高效路由策略师——在硬预算下对推理与非推理判断器进行逐查询决策,任务类别分解(验证/偏好/模糊),防泄漏路由信号,KL球分布鲁棒优化,带窗口末段预留的预算核算,带 rho 放宽的生产漂移监控,简单项目上的"推理剧场"检测,强制预推广帕累托优势检查对比始终推理和从不推理基线;拒绝在没有保留集偏移评估或成本数据的情况下发布策略;基于《推理并非免费:LLM-as-a-Judge 的鲁棒自适应成本高效路由》(arXiv 2605.10805,ICML 2026;推理有助于结构化验证任务如数学/代码,但在简单评估中以数倍成本产生有限或负收益) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/llm_judge_routing_strategist.txt) | | 🧠 智能体记忆架构师 | 智能体记忆系统设计——STM/LTM 设计、提取/存储/检索模块、分层图记忆、上下文压缩、推理感知召回;基于2026年记忆架构研究(2026) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/agent_memory_architect.txt) | | 🪞 认知外化架构师 | 统一的四层架构师,决定哪些认知保留在权重中,哪些存在于提示中,哪些外化到记忆/技能/协议/框架中——前置条件检查,逐层审计(什么属于哪里,什么不属于),层间接口契约(无跨层绕过),不变量(关注点分离/最小权限/可检查性/可逆性/版本控制),测试计划,以及强制每个认知函数声明其位置的严格输出契约;拒绝"巨型提示"设计和"外化一切"路由器智能体;基于《LLM 智能体中的外化:记忆、技能、协议、框架》(arXiv 2604.08224,2026年4月,上海交通大学/UCL) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/cognitive_externalization_architect.txt) | | 🏛 本地优先记忆工程师 | 逐字本地存储、基准驱动的智能体记忆——宫殿结构索引(翼/房间/抽屉/日记),无 LLM 原始召回路径,可插拔后端,带有效性窗口的时间实体关系图,MCP/自动保存主机钩子,保留集 R@k 规范(LongMemEval/LoCoMo/ConvoMem/MemBench);默认拒绝摘要式存储和全局范围搜索;基于 MemPalace/mempalace(2026年4月,51k+ stars) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/local_first_memory_engineer.txt) | | 🎛 弹性上下文编排器 | 长时域智能体的弹性上下文编排架构师——带五种原子操作(跳过/压缩/回滚/片段/删除)的 Context-ReAct 循环,自适应相关性评分,热/温/冷上下文层,压缩的表达完整性验证,回滚检查点,以及时域特定的故障缓解;基于 LongSeeker(arXiv:2605.05191,2026年5月) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/elastic_context_orchestrator.txt) | | 📒 程序性知识架构师 | LLM 推理的"如何做"记忆架构师——从已验证轨迹中挖掘可复用的子问题→子程序设计对,设计轨迹内检索(而非仅初始提示检索),强制执行前置条件/回放验证,并将程序性记忆与陈述性/情节/元认知记忆分离;基于 Meta AI 的《大规模程序性知识改善推理》(arXiv 2604.01348,2026年4月;通过3200万子问题-子程序设计对在数学/科学/编码上提升19.2%) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/procedural_knowledge_architect.txt) | | 🎯 澄清时机策略师 | 长时域智能体的时机感知澄清策略——目标/输入/约束/上下文澄清的经验推导窗口;目标澄清在执行10%后几乎失去所有价值(pass@3 从0.78降至基线),输入澄清在约50%前保持价值,推迟任何澄清至轨迹中点后会使性能降至低于从不询问;跨模型 Kendall tau 0.78–0.87 确认任务内在的时机曲线;基于《早问、晚问、问对时机》(arXiv 2605.07937,2026年5月) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/clarification_timing_strategist.txt) | | ⏸ 可中断智能体规划器 | 必须安全吸收任务中用户变更的多步骤智能体提示——状态快照、停止/保留决策、重新规划、不可逆风险跟踪(2026) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/interruptible_agent_planner.txt) | | 🔭 前瞻规划专家 | 用显式前向规划替代逐步贪心 CoT——规划树(分支×深度),奖励估计策略(自评估/学习验证器/环境代理/检索/混合),显式重规划触发器,最优与满意决策,K×D 计算预算,规划器/执行器分离,不可逆门控;基于 FLARE:为何推理无法规划(arXiv 2601.22311,2026)和 Google DeepMind 的 LLM 规划问题最优性(arXiv 2604.02910,2026年4月) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/lookahead_planning_specialist.txt) | | 📁 持久文件规划智能体 | 长时域智能体的文件系统作为工作内存模式——三个持久 Markdown 文件(`task_plan.md`/`findings.md`/`progress.md`)作为唯一真相源,KV 缓存稳定前缀(无时间戳,仅追加),针对"中间丢失"注意力漂移的计划复述,多模态观察的2-动作持久规则,带强制升级的3-击错误协议,可恢复压缩契约(URL 和文件路径神圣不可保留),保留错误内容的错误保留,计划篡改和间接提示注入防御(将计划文件视为数据而非指令),`/clear`+PreCompact 会话恢复,隔离的 `.planning/<日期>-/` 目录用于并行任务;提炼了 OthmanAdi/planning-with-files(Claude Code 技能,2026年1月,21k+ stars)中打包的 Manus 上下文工程原则,该原则支撑了2025年12月20亿美元的收购 | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/persistent_file_planner.txt) | | 🗝 结构化模式指令设计器 | 将 JSON Schema/Pydantic/函数调用模式视为第二指令通道——审计指令静默键("output"、"result"、"data"),重新排序脚手架优先于结论,将描述重写为内联指令,将散文约束提升为枚举/形状/基数,将模式差异版本化为提示差异,并通过无变化预期与变化预期的编辑探测脆弱性;基于《结构化生成中模式键措辞作为指令通道》(arXiv 2604.14862,2026年4月)和《距崩溃仅一 token》(arXiv 2604.13006,2026年4月) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/structured_schema_instruction_designer.txt) | | ⚖️ 约束类型学架构师 | LLM 规划的工作流约束设计器——硬/软约束类型学,形式模型检查对比 LLM-as-judge 验证,意图对齐,冲突解决,约束版本控制;基于 U-Define(arXiv 2605.02765,2026年5月) | [prompt](https://github.com/ai-boost/awesome-prompts/blob/main/prompts/constraint_typology_architect.txt) | | 📉 推理漂移审计器 | 多轮智能体推理稳定性审计器——固定硬探测基线,CoT 长度/深度仪器化,漂移与有意压缩区分,分层缓解措施(推理预算指令→InftyThink 式检查点→新上下文切换 | [ClawSafety:"安全"LLM 与不安全 Agent(2026年4月)](https://arxiv.org/abs/2604.01438) | 覆盖5个高权限领域(SWE/金融/医疗/法律/DevOps)的120个对抗性场景,3种注入渠道(技能文件、电子邮件、网页);攻击成功率40–75%;安全性取决于模型 + 框架栈,而非仅取决于模型本身 | [PDF](https://arxiv.org/pdf/2604.01438) | | [针对 Agent 技能生态系统的供应链投毒攻击(2026年4月)](https://arxiv.org/abs/2604.03081) | DDIPE 攻击将恶意逻辑嵌入技能文档代码示例中;覆盖15个 MITRE ATT&CK 类别的1070个对抗性技能;绕过率11.6–33.5%;负责任披露导致4个已确认漏洞和2个补丁 | [PDF](https://arxiv.org/pdf/2604.03081) | | [BeSafe-Bench:情境化 Agent 的行为安全风险(2026年)](https://arxiv.org/abs/2603.25747) | 首个跨4个真实功能领域(Web、移动端、具身 VLM/VLA)的基准测试,包含9个安全风险类别;即使是最优秀的 Agent,在完全安全约束下也仅能完成<40%的任务 | [PDF](https://arxiv.org/pdf/2603.25747) | | [Agents of Chaos(2026年)](https://arxiv.org/abs/2602.20021) | 对真实自主 Agent(电子邮件、Discord、Shell、持久化内存)进行为期两周的红队研究——记录了11种真实攻击类别,包括跨 Agent 不安全实践传播、身份伪造、未授权资源消耗和虚假任务完成(32个 HF 点赞) | [PDF](https://arxiv.org/pdf/2602.20021) | | [LPS-Bench:面向 Computer-Use Agent 的长期安全基准测试(2026年)](https://arxiv.org/abs/2602.03255) | 面向浏览器/Computer-Use Agent 的安全基准测试,聚焦风险在多个 UI 操作中累积的长期任务——可用于测试确认纪律、抗钓鱼能力和上下文漂移 | [PDF](https://arxiv.org/pdf/2602.03255) | | [前沿 LLM 中的内部安全崩溃(2026年)](https://arxiv.org/abs/2603.23509) | 引入 TVD 框架和 ISC-Bench——前沿模型在能力与危害并存的双重用途专业任务上失败率高达95.3%;先进模型比早期 LLM *更*容易受到攻击,因为其能力反而成为弱点 | [PDF](https://arxiv.org/pdf/2603.23509) | | [LLM 与 VLM 越狱:机制、评估与统一防御(2026年)](https://arxiv.org/abs/2601.03594) | 首个涵盖 LLM 和 VLM 越狱的统一综述——覆盖模板、上下文内、RL 和多模态攻击类型;提出三层防御框架(感知层/生成层/参数层) | [PDF](https://arxiv.org/pdf/2601.03594) | | [Agentic AI 的攻击与防御全景(2026年)](https://arxiv.org/abs/2603.11088) | Dawn Song(UC Berkeley)等——首个针对 Agentic AI 系统(LLM + 外部工具/组件)的完整安全综述;建立覆盖完整攻击面和防御机制的威胁模型;USENIX Security 2026 | [PDF](https://arxiv.org/pdf/2603.11088) | | [构建安全的 AI Agent:针对间接提示注入的系统级防御(2026年3月)](https://arxiv.org/abs/2603.30016) | Greshake/Xiao/Suh 等——安全架构论文,论证提示注入必须在系统层(权限控制、溯源、策略隔离)处理,而非仅靠模型对齐 | [PDF](https://arxiv.org/pdf/2603.30016) | | [Parallax:为什么会思考的 AI Agent 绝不应该行动(2026年4月)](https://arxiv.org/abs/2604.12986) | 论证基于提示的安全对于具备执行能力的 Agent 在架构上是不够的;引入 Parallax,一种计划-执行分离架构,具有形式化安全保证 | [PDF](https://arxiv.org/pdf/2604.12986) | | [世界模型中的安全、安全与认知风险(2026年)](https://arxiv.org/abs/2604.01346) | 配备世界模型的 Agent 的综合威胁模型——对抗性攻击、目标错误泛化、欺骗性对齐、自动化偏差;将 MITRE ATLAS 和 OWASP 扩展至世界模型栈 | [PDF](https://arxiv.org/pdf/2604.01346) | | [LLM Agent 生态系统中的自我传播攻击(2026年3月)](https://arxiv.org/abs/2603.15727) | 演示攻击如何在互联的 LLM Agent 之间自主传播——通过 MCP、工具链和共享内存针对 Agent 生态系统的类蠕虫自我传播恶意软件 | [PDF](https://arxiv.org/pdf/2603.15727) | ### 医疗与健康 AI | 论文 | 核心贡献 | |-------|-----------------| | [大型语言模型在医学推理中的应用:系统综述与评估(2026年4月)](https://arxiv.org/abs/2604.08559) | 医学推理方法的综合综述 + MR-Bench(真实医院数据);揭示了考试水平表现与真实临床决策之间的巨大差距 | [PDF](https://arxiv.org/pdf/2604.08559) | | [VeriSim:在真实患者噪声下评估医疗 AI(2026年4月)](https://arxiv.org/abs/2604.10441) | 保真患者模拟框架,注入可控的、基于临床证据的噪声——在真实不完美患者数据条件下评估医疗 AI 的鲁棒性 | [PDF](https://arxiv.org/pdf/2604.10441) | | [Med-CAM:解释医学决策的最小证据(2026年4月)](https://arxiv.org/abs/2604.13695) | 用于医疗 AI 解释的最小证据提取——识别足以支撑模型决策的最小输入特征子集,在不损失性能的前提下提升可解释性 | [PDF](https://arxiv.org/pdf/2604.13695) | | [ProMedical:用于医疗 LLM 对齐的层次化细粒度标准建模(2026年4月)](https://arxiv.org/abs/2604.07487) | 用于医疗 LLM 对齐的层次化细粒度标准建模——具有多级标准分解的结构化临床评估量规,以改善医学推理和安全性 | [PDF](https://arxiv.org/pdf/2604.07487) | | [大型语言模型能否在医学问答中自我纠正?(2026年4月)](https://arxiv.org/abs/2604.00261) | 医学 QA 中 LLM 自我纠正的探索性研究发现反思既能纠正错误也会引入错误;分析 MedQA、HeadQA、PubMedQA 上多步反思中的纠错动态 | [PDF](https://arxiv.org/pdf/2604.00261) | | [用于临床诊断的多 Agent LLM 系统:供应商多样性的影响(2026年)](https://arxiv.org/abs/2603.04421) | MIT/Harvard:混合供应商多 Agent 诊断优于单一供应商团队——互补的归纳偏差能发现同质团队遗漏的正确诊断;在 RareBench 和 DiagnosisArena 上达到 SOTA | [PDF](https://arxiv.org/pdf/2603.04421) | ### 上下文与记忆 | 论文 | 核心贡献 | |-------|-----------------|| | [主动上下文压缩(2026年)](https://arxiv.org/abs/2601.07190) | Focus Agent 架构——自主将历史整合为知识块并修剪过时上下文;在 SWE-bench Lite 上减少22.7%的 token,无精度损失 | [PDF](https://arxiv.org/pdf/2601.07190) | | [AgeMem:面向 LLM Agent 的统一长短期记忆(2026年)](https://arxiv.org/abs/2601.01885) | 首次将 LTM(添加/更新/删除)和 STM(检索/总结/过滤)统一为基于 GRPO RL 的工具化操作;7B 模型在5个基准测试上比无记忆基线提升+49.59%;ICLR 2026 MemAgents Workshop | [PDF](https://arxiv.org/pdf/2601.01885) | | [MSA:面向1亿 token 的稀疏注意力记忆(2026年)](https://arxiv.org/abs/2603.23516) | 端到端可训练的线性复杂度稀疏注意力——在2×A800 GPU 上扩展至1亿 token,与16K基线相比退化<9%;内存交错支持跨分散片段的多跳推理 | [PDF](https://arxiv.org/pdf/2603.23516) | | [LLM 时代的记忆:统一框架中的模块化架构(2026年4月)](https://arxiv.org/abs/2604.01707) | 将 Agent 记忆分解为4个模块(提取、管理、存储、检索);对所有方法进行系统基准比较;由现有模块组成的复合设计超越先前 SOTA | [PDF](https://arxiv.org/pdf/2604.01707) | | [ContextBench:面向编码 Agent 的上下文检索基准测试(2026年)](https://arxiv.org/abs/2602.05892) | 首个关注编码 Agent 在编辑前是否检索到正确仓库上下文的基准测试——在真实代码库导航压力下测量相关性、延迟和下游任务成功率 | [PDF](https://arxiv.org/pdf/2602.05892) | | [野外提示压缩(2026年4月)](https://arxiv.org/abs/2604.02985) | 首个生产环境中提示压缩权衡的大规模实证研究——跨多个 LLM 和3种 GPU 类别的30K 个查询;当提示/比率/硬件匹配时,LLMLingua 实现高达18%的端到端加速;ECIR 2026;包含用于延迟盈亏预测的开源分析器 | [PDF](https://arxiv.org/pdf/2604.02985) | | [Thought-Retriever:不要只检索原始数据,为记忆增强的 Agentic 系统检索思维(2026年4月)](https://arxiv.org/abs/2604.12231) | 检索压缩后的推理"思维"而非原始上下文的记忆机制——为长期 Agent 实现更高效、推理感知的记忆 | [PDF](https://arxiv.org/pdf/2604.12231) | | [GAM:面向 LLM Agent 的层次化图结构 Agentic 记忆(2026年4月)](https://arxiv.org/abs/2604.12285) | 具有角色感知调制和时序/置信度加权的层次化图结构记忆;无需训练,在多种模型规模上评估 | [PDF](https://arxiv.org/pdf/2604.12285) | | [LongSeeker:面向长期搜索 Agent 的弹性上下文编排(2026年5月)](https://arxiv.org/abs/2605.05191) | 具有五种原子操作(跳过、压缩、回滚、片段、删除)的 Context-ReAct 范式,用于自适应上下文管理;证明压缩的表达完备性;LongSeeker 在 BrowseComp 上达到61.5%,在 BrowseComp-ZH 上达到62.5%,大幅超越 Tongyi DeepResearch 和 AgentFold | [PDF](https://arxiv.org/pdf/2605.05191) | ### 工具使用 | 论文 | 核心贡献 | |-------|-----------------| | [CCTU:复杂约束下的工具使用(2026年)](https://arxiv.org/abs/2603.15309) | 覆盖12个约束类别(资源、行为、工具集、响应)的200个任务基准测试,具有步骤级验证;没有任何模型完成率超过20%;模型在超过50%的情况下违反约束,自我纠正能力有限 | [PDF](https://arxiv.org/pdf/2603.15309) | | [大型语言模型中的 Agentic 工具使用(2026年4月)](https://arxiv.org/abs/2604.00835) | 理解 Agentic 系统中工具使用的综合框架——模式理解、调用约定、错误处理、工具组合模式 | [PDF](https://arxiv.org/pdf/2604.00835) | | [开放、可靠、协作:社区驱动的框架(2026年4月)](https://arxiv.org/abs/2604.00137) | OpenTools:标准化工具模式和轻量级包装器,可在 Agent 框架中即插即用;内在评估套件跟踪正确性、鲁棒性、回归 | [PDF](https://arxiv.org/pdf/2604.00137) | | [明智行动:Agentic 多模态模型中的元认知工具使用(2026年4月)](https://arxiv.org/abs/2604.08545) | 阿里巴巴:解决 Agent 盲目调用工具的元认知缺陷——HDPO 框架将不必要的工具调用从98%降至2%,同时提高推理准确性;首篇关于"何时不使用工具"的论文 | [PDF](https://arxiv.org/pdf/2604.08545) | | [LLM Agent 中工具使用的演进(2026年)](https://arxiv.org/abs/2603.22862) | 从单一工具调用到多工具编排的统一综述——涵盖推理时规划、训练/轨迹构建、安全、资源效率、开放环境完备性和基准设计(HIT 和 Harvard) | [PDF](https://arxiv.org/pdf/2603.22862) | | [MCP-Atlas:在真实 MCP 服务器上对 LLM Agent 进行基准测试(2026年)](https://arxiv.org/abs/2602.00933) | 评估 Agent 能否使用真实的 Model Context Protocol 服务器而非玩具工具模式——测量正确性、协议处理和真实 MCP 互操作性 | [PDF](https://arxiv.org/pdf/2602.00933) | ### Agent 评估 | 论文 | 核心贡献 | |-------|-----------------| | [Signals:Agentic 交互的轨迹采样与分流(2026年4月)](https://arxiv.org/abs/2604.00356) | 用于部署后采样信息丰富的 Agent 轨迹的轻量级基于信号的分类法——信息量82% vs 随机54%;在交互、执行和环境维度上组织信号;6.2k HF 点赞 | [PDF](https://arxiv.org/pdf/2604.00356) | | [Agent 心理测量学:任务级性能预测(2026年4月)](https://arxiv.org/abs/2604.00594) | 将评估从简单 QA 转向多轮 Agentic 评估;SWE-bench Verified 和 Terminal-Bench 等较新的基准测试通过执行反馈测试迭代 Agent 行为 | [PDF](https://arxiv.org/pdf/2604.00594) | | [YC-Bench:面向长期规划的 AI Agent 基准测试(2026年4月)](https://arxiv.org/abs/2604.01212) | 评估 LLM Agent 在长期范围内是否保持战略一致性——跨越数百轮、模拟一年周期的创业场景;测试持续执行能力 | [PDF](https://arxiv.org/pdf/2604.01212) | | [当用户改变主意时:评估可中断 Agent(2026年4月)](https://arxiv.org/abs/2604.00892) | 测试 Agent 在执行任务过程中处理用户中断的能力——在动态环境中实际部署的关键要求 | [PDF](https://arxiv.org/pdf/2604.00892) | | [SWE-CI:通过 CI 评估 Agent 的代码库维护能力(2026年)](https://arxiv.org/abs/2603.03823) | 首个面向长期代码库可维护性的 CI 循环基准测试——100个任务跨越233天和71次以上连续提交;将评估从静态单次修复转向动态长期推理 | [PDF](https://arxiv.org/pdf/2603.03823) | | [SWE-Skills-Bench(2026年)](https://arxiv.org/abs/2603.15401) | 565个真实 SE 任务,衡量 Agent 技能是否真正改善结果——49个公开技能中有39个零增益;平均提升仅+1.2%;揭示了技能设计中的根本差距 | [PDF](https://arxiv.org/pdf/2603.15401) | | [LongCLI-Bench:面向 CLI 中长期 Agentic 编程的基准测试(2026年)](https://arxiv.org/abs/2602.14337) | 对终端编码 Agent 在长期编程任务上进行基准测试,这些任务需要在多步中持续规划、仓库导航、调试和恢复,而非单次修复补丁 | [PDF](https://arxiv.org/pdf/2602.14337) | | [ProjDevBench:面向端到端软件开发的 AI Agent 基准测试(2026年)](https://arxiv.org/abs/2602.01655) | 评估 Agent 能否从需求到实现和验证构建完整的软件项目,而非解决孤立的 bug 修复任务;针对端到端项目交付的真实性 | [PDF](https://arxiv.org/pdf/2602.01655) | | [LiveClawBench:面向复杂真实助手任务的 LLM Agent 基准测试(2026年4月)](https://arxiv.org/abs/2604.13072) | 在需要规划、工具使用和恢复的组合式真实助手任务上评估 Agent——比静态 QA 基准更接近生产部署场景 | [PDF](https://arxiv.org/pdf/2604.13072) | | [RiskWebWorld:电商风险管理中的 GUI Agent(2026年4月)](https://arxiv.org/abs/2604.13531) | 面向高风险专业工作流的 GUI Agent 的真实交互式基准测试——100个真实电商风险场景,测试不确定条件下的序列决策 | [PDF](https://arxiv.org/pdf/2604.13531) | | [OccuBench:通过语言世界模型实现的真实专业任务(2026年4月)](https://arxiv.org/abs/2604.10866) | 覆盖10个行业和65个领域的100个专业任务场景——使用语言世界模型进行环境模拟,评估 AI Agent 在真实职业工作流上的表现 | [PDF](https://arxiv.org/pdf/2604.10866) | | [EpiBench:面向多模态 Agent 的多轮研究工作流(2026年4月)](https://arxiv.org/abs/2604.05557) | 在多模态 Agent 的阶段性科学研究工作流上进行基准测试——文献检索、图表提取、跨论文综合;基于具有持久化记忆和工具使用的 smolagents 构建 | [PDF](https://arxiv.org/pdf/2604.05557) | | [早问、晚问、问对:澄清时机对长期 Agent 何时重要(2026年5月)](https://arxiv.org/abs/2605.07937) | 首个强制注入框架,测量澄清价值在目标/输入/约束/上下文维度上沿执行轨迹的变化;6000+次运行,4个前沿模型,3个基准测试;发现目标澄清在执行10%后几乎失去所有价值,输入澄清在约50%内保留价值,将任何澄清推迟到轨迹中点后的性能低于从不询问;跨模型 Kendall tau 0.78–0.87 确认任务内在的时序曲线 | [PDF](https://arxiv.org/pdf/2605.07937) | | [推理并非免费:面向 LLM-as-a-Judge 的鲁棒自适应成本高效路由(2026年5月)](https://arxiv.org/abs/2605.10805) | ICML 2026:受控比较表明,推理评判在结构化验证任务(数学、编码)上显著提高准确性,但在简单评估上收益有限或为*负*,同时消耗显著更多算力;提出 RACER,一种在固定预算下通过 KL 散度不确定性集动态选择推理与非推理评判的分布鲁棒路由策略,具有理论保证包括最优策略的唯一性和原始-对偶算法的线性收敛 | [PDF](https://arxiv.org/pdf/2605.10805) | | [Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents (May 2026)](https://arxiv.org/abs/2605.07937) | 首个强制注入框架,测量澄清价值在目标/输入/约束/上下文维度上沿执行轨迹的变化;6000+次运行,4个前沿模型,3个基准测试;发现目标澄清在执行10%后几乎失去所有价值,输入澄清在约50%内保留价值,将任何澄清推迟到轨迹中点后的性能低于从不询问;跨模型 Kendall tau 0.78–0.87 确认任务内在的时序曲线 | [PDF](https://arxiv.org/pdf/2605.07937) | | [Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge (May 2026)](https://arxiv.org/abs/2605.10805) | ICML 2026:受控比较表明,推理评判在结构化验证任务(数学、编码)上显著提高准确性,但在简单评估上收益有限或为*负*,同时消耗显著更多算力;提出 RACER,一种在固定预算下通过 KL 散度不确定性集动态选择推理与非推理评判的分布鲁棒路由策略,具有理论保证包括最优策略的唯一性和原始-对偶算法的线性收敛 | [PDF](https://arxiv.org/pdf/2605.10805) | ### 指令遵循 | 论文 | 核心贡献 | |-------|-----------------| | [MOSAIC:细粒度指令遵循评估(2026年)](https://arxiv.org/abs/2601.18554) | 模块化基准测试,每个提示最多包含20个面向应用的生成约束;发现合规性随约束数量和位置(首因/近因偏差)而降低——揭示多指令冲突效应 | [PDF](https://arxiv.org/pdf/2601.18554) | | [从量规到 Token:指令遵循的 Token 级奖励(2026年4月)](https://arxiv.org/abs/2604.02795) | 基于量规的 RL 与 Token 级相关性判别器——通过预测哪些 token 满足特定约束来解决指令遵循的信用分配问题;细粒度优化 | [PDF](https://arxiv.org/pdf/2604.02795) | | [结构化生成中作为指令通道的模式键措辞(2026年4月)](https://arxiv.org/abs/2604.14862) | 发现在约束解码下,模式键措辞本身充当隐式指令信号——即使语义内容相同,更改 JSON 键名也会改变模型行为 | [PDF](https://arxiv.org/pdf/2604.14862) | | [距崩溃仅一个 Token:指令微调模型有用性的脆弱性(2026年4月)](https://arxiv.org/abs/2604.13006) | 微小的词汇约束(禁止一个标点符号)导致指令微调 LLM 的响应崩溃14–48%——通过机制分析识别为规划失败;基础模型未出现崩溃 | [PDF](https://arxiv.org/pdf/2604.13006) | | [通过神经符号对齐实现层次化指令遵循(2026年4月)](https://arxiv.org/abs/2604.09075) | NSHA:将层次化指令解析形式化为约束满足问题,通过 SAT 求解器引导推理时推理解决——解决系统提示、用户指令和工具输出之间的冲突 | [PDF](https://arxiv.org/pdf/2604.09075) | | [DEFT:面向人类对齐的分布引导高效微调(2026年4月)](https://arxiv.org/abs/2604.01787) | 面向对齐的分布引导高效微调——利用数据分布特性引导选择性参数更新,以更少算力提升对齐质量 | [PDF](https://arxiv.org/pdf/2604.01787) | ### 多模态提示 | 论文 | 核心贡献 | |-------|-----------------| | [Graph-of-Mark:通过视觉提示进行空间推理(2026年)](https://arxiv.org/abs/2603.06663) | 在像素级将场景图叠加到输入图像上以建模对象关系——在4个数据集上 VQA 和定位任务提升高达11个百分点,零样本 | [PDF](https://arxiv.org/pdf/2603.06663) | | [Look Twice:MLLM 中无需训练的证据高亮(2026年4月)](https://arxiv.org/abs/2604.01280) | 利用 MLLM 注意力模式识别相关视觉区域和文本,然后基于高亮证据重新调节生成的推理时框架——持续改善 VQA,无需训练 | [PDF](https://arxiv.org/pdf/2604.01280) | | [Agentic-MME:Agentic 能力真正为多模态智能带来了什么?(2026年4月)](https://arxiv.org/abs/2604.03016) | 多模态 LLM 中 Agentic 能力的系统评估——将任务分解为感知、推理和行动层级;揭示 Agentic 循环在哪些地方有帮助,哪些地方增加开销 | [PDF](https://arxiv.org/pdf/2604.03016) | | [FeynmanBench:面向 MLLM 的图形式物理推理(2026年4月)](https://arxiv.org/abs/2604.03893) | 首个费曼图任务基准测试——评估需要守恒定律、对称约束和图拓扑的多步图形式推理;涵盖标准模型相互作用的2000+任务 | [PDF](https://arxiv.org/pdf/2604.03893) | | [MERRIN:嘈杂网络环境中的多模态证据检索(2026年4月)](https://arxiv.org/abs/2604.13418) | 嘈杂网络内容中多模态证据检索和多跳推理的基准测试——即使是最强的 Agent(Gemini-3.1-Pro)也仅达到40.1%;发现更多搜索≠更好性能 | [PDF](https://arxiv.org/pdf/2604.13418) | | [无需放大的放大:面向细粒度多模态感知的区域到图像蒸馏(2026年)](https://arxiv.org/abs/2602.11858) | 将推理时放大转化为训练时原语——教会 MLLM 在单次前向传播中实现细粒度感知;引入 ZoomBench(6个感知维度上的845个 VQA);在细粒度基准测试上达到 SOTA | [PDF](https://arxiv.org/pdf/2602.11858) | ### 具身 AI 与世界模型 | 论文 | 核心贡献 | |-------|-----------------| | [VLA-World:面向自动驾驶的视觉-语言-动作世界模型(2026年4月)](https://arxiv.org/abs/2604.09059) | 将预测性想象与反思性推理统一用于驾驶前瞻——动作导出的轨迹引导下一帧生成,然后对想象帧进行推理以优化规划 | [PDF](https://arxiv.org/pdf/2604.09059) | | [EmbodiedClaw:面向具身 AI 开发的对话式工作流执行(2026年4月)](https://arxiv.org/abs/2604.13800) | 具身 AI 开发的对话式框架——批量模拟环境合成、自动场景创建、可控场景编辑,以及通过自然语言执行工作流 | [PDF](https://arxiv.org/pdf/2604.13800) | | [StarVLA:面向 VLA 模型开发的乐高式代码库(2026年4月)](https://arxiv.org/abs/2604.05014) | 开源模块化 VLA 框架——可互换的主干(VLM/世界模型)和动作头、跨具身学习、在 LIBERO、SimplerEnv、RoboTwin、RoboCasa、BEHAVIOR-1K 上的统一评估 | [PDF](https://arxiv.org/pdf/2604.05014) | | [人类到机器人模仿学习:方法综述与分类(2026年4月)](https://arxiv.org/abs/2604.08995) | 人类到机器人模仿学习的综合综述——行为克隆、逆强化学习、对抗性模仿及其组合;包含分类法、基准测试和开放挑战 | [PDF](https://arxiv.org/pdf/2604.08995) | | [伟大长征100:100个面向细节的任务用于评估具身 AI Agent(2026年)](https://arxiv.org/abs/2601.11421) | 100个面向细节的具身 AI 任务,涵盖操作、导航和推理——评估超越粗粒度任务完成的细粒度物理世界理解 | [PDF](https://arxiv.org/pdf/2601.11421) | | [VLA-Forget:面向具身基础模型的视觉-语言-动作遗忘(2026年4月)](https://arxiv.org/abs/2604.03956) | 首个 VLA 模型遗忘方法——在保留通用能力的同时移除目标行为;引入遗忘/保留/边界划分和真实机器人 OXE 基准测试 | [PDF](https://arxiv.org/pdf/2604.03956) | ### 语音与实时 Agent | 论文 | 核心贡献 | |-------|-----------------| | [从零构建企业级实时语音 Agent(2026年)](https://arxiv.org/abs/2603.05413) | Salesforce AI Research:生产级语音 Agent 的完整教程——级联流式管道(STT→LLM→TTS),约750ms TTFA,函数调用,包含9章的开源代码库 | [PDF](https://arxiv.org/pdf/2603.05413) | **精选阅读列表:** [2025 AI 工程阅读列表 — Latent Space](https://www.latent.space/p/2025-papers) ## 工具与库 | 工具 | 用途 | |------|---------| | [LangChain](https://github.com/langchain-ai/langchain) | LLM 编排与链式调用 | | [LlamaIndex](https://github.com/run-llama/llama_index) | 数据摄入与 RAG 管道 | | [LiteLLM](https://github.com/BerriAI/litellm) | 100+ LLM 提供商的统一 API | | [Ollama](https://github.com/ollama/ollama) | 本地运行 LLM——桌面应用、多模态、结构化输出 ![](https://img.shields.io/github/stars/ollama/ollama?style=flat-square) | | [Semantic Kernel](https://github.com/microsoft/semantic-kernel) | 微软的 LLM SDK——现正与 AutoGen 合并为 [Microsoft Agent Framework](https://github.com/microsoft/agent-framework)(2026年) | | [TensorZero](https://www.tensorzero.com/) | LLM 网关 + 可观测性 + 优化 | | [Outlines](https://github.com/dottxt-ai/outlines) | 结构化文本生成与约束输出 | | [PydanticAI](https://github.com/pydantic/pydantic-ai) | 官方 Pydantic Agent 运行时——类型化工具、结构化输出、评估、生产就绪(V1 稳定版) ![](https://img.shields.io/github/stars/pydantic/pydantic-ai?style=flat-square) | | [Instructor](https://github.com/instructor-ai/instructor) | 使用最广泛的 LLM 结构化输出库——从任何模型进行类型化提取,月下载量+ | | [LM Evaluation Harness](https://github.com/EleutherAI/lm-evaluation-harness) | EleutherAI 的统一 LLM 评估框架 | | [Weights & Biases](https://wandb.ai/site/solutions/llmops) | 实验跟踪与 LLMOps | | [Promptingguide.ai](https://www.promptingguide.ai/) | 全面的提示工程参考(DAIR-AI) | | [awesome-ai-agents-2026](https://github.com/caramaschiHG/awesome-ai-agents-2026) | 2026年最全面的 AI Agent、框架和工具列表——300+资源,20+类别,每月更新 ![](https://img.shields.io/github/stars/caramaschiHG/awesome-ai-agents-2026?style=flat-square) | | [Awesome-Agent-Papers](https://github.com/luo-junyu/Awesome-Agent-Papers) | LLM Agent 精选论文:方法论、应用、挑战——涵盖 STRIDE、规划、工具使用、记忆、多 Agent(2026年) ![](https://img.shields.io/github/stars/luo-junyu/Awesome-Agent-Papers?style=flat-square) | | [Awesome-Agentic-Reasoning](https://github.com/weitianxin/Awesome-Agentic-Reasoning) | 从基础到多 Agent 协调的 Agentic 推理论文与资源——三层框架(2026年) ![](https://img.shields.io/github/stars/weitianxin/Awesome-Agentic-Reasoning?style=flat-square) | | [Agent-Memory-Paper-List](https://github.com/Shichun-Liu/Agent-Memory-Paper-List) | LLM Agent 记忆架构精选论文——长期、短期、注意力机制(2026年) ![](https://img.shields.io/github/stars/Shichun-Liu/Agent-Memory-Paper-List?style=flat-square) | | [awesome-ai-agent-papers](https://github.com/VoltAgent/awesome-ai-agent-papers) | 2025–2026年 Agent 工程、记忆、评估和工作流精选论文 | | [langgptai/awesome-claude-prompts](https://github.com/langgptai/awesome-claude-prompts) | Claude 优化提示——XML 标签、扩展思维、长上下文模式 | | [langgptai/awesome-deep-research-prompts](https://github.com/langgptai/awesome-deep-research-prompts) | 面向 OpenAI Deep Research、Gemini Deep Research、Perplexity Labs 的提示 | | [ML-GSAI/Diffusion-LLM-Papers](https://github.com/ML-GSAI/Diffusion-LLM-Papers) | 扩散语言模型精选论文——LLaDA、Dream、MMaDA、一致性采样、快速推理;169星,积极维护中(2026年) ![](https://img.shields.io/github/stars/ML-GSAI/Diffusion-LLM-Papers?style=flat-square) | | [Anthropic Prompt Library](https://docs.anthropic.com/en/prompt-library/library) | Anthropic 官方生产就绪提示 | | [NirDiamant/Prompt_Engineering](https://github.com/NirDiamant/Prompt_Engineering) | 从基础到高级的22个 Jupyter Notebook 教程——CoT、少样本、模板、多语言 ![](https://img.shields.io/github/stars/NirDiamant/Prompt_Engineering?style=flat-square) | | [automotive-skills-suite](https://github.com/jherrodthomas/automotive-skills-suite) | 152个可安装的 Claude 技能,面向汽车工程——ISO 26262、ISO/SAE 21434、ISO 21448 SOTIF、AIAG-VDA、ASPICE、AUTOSAR;构建者 + 审查者配对,含 xlsx 交付物 ![](https://img.shields.io/github/stars/jherrodthomas/automotive-skills-suite?style=flat-square) | 欢迎提交 PR——分享提示、修复链接或添加框架。
标签:AI, Awesome List, C2, ChatGPT, DLL 劫持, DSPy, GEPA, GPTs, Guidance, LLM, NLP, Promptflow, Promptfoo, RESTful API, TextGrad, Unmanaged PE, 人工智能, 可视化界面, 回归测试, 大语言模型, 审计, 开源, 提示词优化, 提示词保护, 提示词工程, 提示词攻击, 提示词模板, 用户模式Hook绕过, 策略决策点, 结构化输出, 自动化代码审查, 自动生成, 逆向工具