walkinglabs/awesome-harness-engineering

GitHub: walkinglabs/awesome-harness-engineering

一份聚焦 Harness 工程的精选资源合集，汇集了让 AI Agent 在真实长周期任务中保持可靠所需的上下文工程、安全护栏、评估基准与运行时参考实现。

Stars: 923 | Forks: 52

# 精彩的 Harness 工程 [![Awesome](https://awesome.re/badge.svg)](https://awesome.re) Harness 工程处于上下文工程、评估、可观测性、编排、安全自治与软件架构的交叉领域。本列表专注于那些能在真实工作流（尤其是长时间运行的编码和研究任务）中使 Agent 更加可靠的资源。除非页面直接涵盖 Harness 设计、上下文管理、评估、运行时控制或其他对可靠性至关重要的 Harness 原语，否则常规的 Agent 工具不在本列表的范围内。 ## 目录 - [课程与学习资源](#courses--learning-resources) - [基础](#foundations) - [上下文、记忆与工作状态](#context-memory--working-state) - [约束、护栏与安全自治](#constraints-guardrails--safe-autonomy) - [规范、Agent 文件与工作流设计](#specs-agent-files--workflow-design) - [评估与可观测性](#evals--observability) - [基准测试](#benchmarks) - [运行时、Harness 与参考实现](#runtimes-harnesses--reference-implementations) - [贡献](#contributing) - [许可证](#license) ## 课程与学习资源 - [walkinglabs/learn-harness-engineering](https://github.com/walkinglabs/learn-harness-engineering) - 一个基于项目的课程仓库，旨在让 Codex 和 Claude Code 更可靠，以一个 Electron 个人知识库应用为中心，包含课程讲义、示例工件和实用的 Harness 项目。 ## 基础 - [Harness 工程在 Agent 优先的世界中利用 Codex](https://openai.com/index/harness-engineering/) - OpenAI 的一份旗舰实战报告，讲述了如何使用架构约束、代码库本地指令、浏览器验证和遥测技术，通过 Codex 构建大型应用。 - [长时间运行 Agent 的高效 Harness](https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents) - Anthropic 的核心文章，涵盖了初始化 Agent、功能列表、`init.sh`、自验证以及跨多个上下文窗口的交接工件。 - [用于长时间运行应用开发的 Harness 设计](https://www.anthropic.com/engineering/harness-design-long-running-apps) - Anthropic 的后续文章，重点是通过更好的任务状态和评估器设计来改进长时间运行的应用生成。 - [Agent Harness 的剖析](https://blog.langchain.com/the-anatomy-of-an-agent-harness/) - LangChain 将 Agent 简洁地定义为“模型 + Harness”，包括提示、工具、中间件、编排和运行时基础设施。 - [Harness 工程](https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html) - Thoughtworks 将 Harness 工作构建为上下文工程、架构约束以及针对熵的“垃圾回收”。 - [构建高效的 Agent](https://www.anthropic.com/engineering/building-effective-agents) - Anthropic 关于工作流、Agent、工具以及结构化系统何时优于原始提示的更广泛指南。 - [技能问题：编码 Agent 的 Harness 工程](https://www.humanlayer.dev/blog/skill-issue-harness-engineering-for-coding-agents) - 一篇实用性的论证文章，指出编码 Agent 结果不佳通常是因为 Harness 问题，而非模型问题。 - [你的 Agent 需要的是 Harness，而不是框架](https://www.inngest.com/blog/your-agent-needs-a-harness-not-a-framework) - Inngest 提出的理由，主张将状态、重试、追踪和并发视为一等基础设施。 ## 上下文、记忆与工作状态 - [AI Agent 的高效上下文工程](https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents) - Anthropic 关于将上下文窗口作为工作记忆预算（而不是垃圾场）进行管理的指导。 - [AI Agent 的上下文工程：构建 Manus 的经验教训](https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus) - Manus 关于 KV-cache 局部性、工具掩码、文件系统记忆以及在上下文中保留有价值失败信息的详细实操手册。 - [编码 Agent 的上下文工程](https://martinfowler.com/articles/exploring-gen-ai/context-engineering-coding-agents.html) - Thoughtworks 关于塑造任务环境的指导，以便编码 Agent 能够保持专注和高效。 - [编码 Agent 的高级上下文工程](https://www.humanlayer.dev/blog/advanced-context-engineering) - HumanLayer 提供的用于减少上下文漂移并使编码会话更容易恢复的模式。 - [编码 Agent 的上下文高效背压机制](https://www.humanlayer.dev/blog/context-efficient-backpressure) - HumanLayer 关于防止 Agent 将上下文消耗在嘈杂或低价值工作上的想法。 - [OpenHands 上下文浓缩以实现更高效的 AI Agent](https://openhands.dev/blog/openhands-context-condensensation-for-more-efficient-ai-agents) - OpenHands 的有界对话记忆设计，可保留目标、进度、关键文件和失败的测试，同时保持长时间编码会话的高效。 - [编写优秀的 CLAUDE.md](https://www.humanlayer.dev/blog/writing-a-good-claude-md) - 一份关于创建持久、代码库本地指令的实用指南，以便 Agent 可以重复遵循。 ## 约束、护栏与安全自治 - [超越权限提示：让 Claude Code 更安全、更自主](https://www.anthropic.com/engineering/claude-code-sandboxing) - Anthropic 关于如何通过更好的沙盒和策略设计来减少审批阻力而不失去控制的文章。 - [使用 MCP 进行代码执行：构建更高效的 Agent](https://www.anthropic.com/engineering/code-execution-with-mcp) - Anthropic 关于通过明确、可检查的工具边界赋予 Agent 受控执行能力的方法。 - [为 Agent 编写高效的工具](https://www.anthropic.com/engineering/writing-tools-for-agents) - Anthropic 关于工具接口的指导，使模型更容易正确、安全地调用它们。 - [减轻软件 Agent 中的 Prompt 注入攻击](https://openhands.dev/blog/mitigating-prompt-injection-attacks-in-software-agents) - OpenHands 的实用指南，介绍了确认模式、分析器、沙盒和硬性策略，用于降低自主编码 Agent 中的 Prompt 注入风险。 - [在与 Agent 一起编码时评估内部质量](https://martinfowler.com/articles/exploring-gen-ai/ccmenu-quality.html) - Thoughtworks 关于将质量检查引入循环，而不是依赖事后人工审查的观点。 - [将 AI 锚定到参考应用](https://martinfowler.com/articles/exploring-gen-ai/anchoring-to-reference.html) - Thoughtworks 关于使用具体范例来约束 Agent，使其产生更一致的输出。 - [软件工程循环中的人类与 Agent](https://martinfowler.com/articles/exploring-gen-ai/humans-and-agents.html) - 一个清晰的心智模型，说明人类应该在何处加强 Harness，而不是微观管理每一个工件。 - [Claude Code：智能体编码的最佳实践](https://code.claude.com/docs) - Anthropic 关于智能体编码工作流中代码库结构、检查点、验证和委托的实用建议。 ## 规范、Agent 文件与工作流设计 - [AGENTS.md](https://github.com/agentsmd/agents.md) - 一种轻量级的开放格式，用于存放告诉 Agent 如何在代码库中工作的本地指令。 - [agent.md](https://github.com/agentmd/agent.md) - 一项相关的标准化工作，旨在为跨项目和工具的机器可读 Agent 指令制定标准。 - [GitHub Spec Kit](https://github.com/github/spec-kit) - GitHub 的规范驱动开发工具包，当你希望 Agent 按照明确的产品和工程规范执行时非常有用。 - [理解规范驱动开发：Kiro、spec-kit 和 Tessl](https://martinfowler.com/articles/exploring-gen-ai/sdd-3-tools.html) - Thoughtworks 关于为什么强大的规范能让 AI 辅助的软件交付更可靠的观点。 - [12 Factor Agents](https://www.humanlayer.dev/blog/12-factor-agents) - HumanLayer 的生产级 Agent 运营原则，包括明确的提示、状态所有权和干净的暂停-恢复行为。 - [12-Factor AgentOps](https://www.12factoragentops.com/) - 一个面向运维的伴侣指南，专注于上下文纪律、验证和可重现的 Agent 工作流。 ## 评估与可观测性 - [使用评估系统化测试 Agent 技能](https://developers.openai.com/blog/eval-skills/) - OpenAI 的具体指南，介绍如何使用 JSONL 日志和确定性检查将 Agent 轨迹转化为可重复的评估。 - [如何评估 Agent 技能（以及为什么你应该这样做）](https://openhands.dev/blog/evaluating-agent-skills) - OpenHands 的实操手册，讲解如何使用有界任务、确定性验证器、无技能基线和轨迹审查来衡量某项技能是否真的有帮助。 - [Agent 评估](https://platform.openai.com/docs/guides/agent-evals) - OpenAI 的产品指南，用于通过可重现的任务级和工作流级评估来衡量 Agent 质量。 - [评估最佳实践](https://platform.openai.com/docs/guides/evaluation-best-practices) - OpenAI 关于构建评估套件的通用指南，这些套件需匹配真实世界的分布并尽早发现回归。 - [轨迹评分](https://platform.openai.com/docs/guides/trace-grading) - OpenAI 关于直接对 Agent 轨迹进行评分的文档，这对于长时间的多步骤任务特别有帮助。 - [学习验证 AI 生成的代码](https://openhands.dev/blog/20260305-learning-to-verify-ai-generated-code) - OpenHands 对分层验证栈的概述，使用在生产轨迹上训练的轨迹批评家进行重排序、早停和审查时的质量控制。 - [揭开 AI Agent 评估的神秘面纱](https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents) - Anthropic 关于当 Agent 拥有许多通向成功或失败的可能轨迹时应该测量什么的指导。 - [量化智能体编码评估中的基础设施噪声](https://www.anthropic.com/engineering/infrastructure-noise) - Anthropic 关于运行时配置如何使编码基准分数发生比许多排行榜差距更大的变动的分析。 - [评估深度 Agent：我们的经验教训](https://blog.langchain.com/evaluating-deep-agents-our-learnings/) - LangChain 对有状态 Agent 的单步、完整运行和多轮评估设计的实用分解。 - [通过 Harness 工程改进深度 Agent](https://blog.langchain.com/improving-deep-agents-with-harness-engineering/) - LangChain 提供的证据表明，仅通过 Harness 的改变就能显著提高基准测试性能。 ## 基准测试当你想要比较 Harness 质量（而不仅仅是模型质量）时，这些基准测试特别有用。它们对上下文处理、工具调用、环境控制、验证逻辑以及模型周围的运行时脚手架进行压力测试。 - [Agent Arena](https://www.agent-arena.com/leaderboard) - 一个排行榜，使用类似 ELO 的评分系统对 AI Agent、模型、工具和框架进行排名，提供了一种结构化的方法来比较跨类别的 Harness 级别选择。 - [AgentBench](https://github.com/THUDM/AgentBench) - 一个跨环境的基准测试，涵盖操作系统、数据库、知识图谱、网络浏览等，有助于查看 Harness 是否能在一个狭窄的任务循环之外泛化。 - [AgentBoard](https://github.com/HKUST-NLP/AgentBoard) - 一个针对多轮 LLM Agent 的基准测试，辅以分析评估板，用于评估超越最终成功率的模型表现，使部分进展和轨迹质量变得可见。 - [AgentStudio](https://github.com/SkyworkAI/agent-studio) - 一个集成的基准测试套件，具有真实的环境和全面的工具包，用于在真实计算机软件上评估虚拟 Agent，有助于衡量 Harness 在广泛任务面上的深度。 - [AppWorld](https://appworld.dev/) - 一个由应用程序和人物组成的可控世界，用于对交互式编码 Agent 进行基准测试，带有基于状态和基于执行的单元测试，可暴露规划、代码生成和附带损害控制方面的 Harness 质量。 - [AssistantBench](https://github.com/oriyor/AssistantBench) - 一个评估 Web Agent 在现实、耗时的研究任务上的基准测试，这些任务需要多步骤的工具使用和信息综合，是长周期 Web 场景中 Harness 质量的良好代称。 - [BrowseComp](https://www.kaggle.com/benchmarks/openai/browsecomp) - 一个评估 AI Agent 定位难以寻找信息的能力的基准测试，在困难条件下对搜索策略、上下文管理和检索 Harness 设计施加压力。 - [BrowserGym Leaderboard](https://huggingface.co/spaces/ServiceNow/browsergym-leaderboard) - 一个用于评估 LLM、VLM 和 Agent 在 Web 导航任务上的 Gym 环境和排行榜，提供了一个可重现的框架，用于在一个地方比较多个 Web 基准测试的 Harness。 - [CharacterEval](https://github.com/morecry/CharacterEval) - 一个使用多轮对话和角色档案评估角色扮演对话 Agent 的基准测试，具有跨越四个维度的指标，包括角色保真度和对话连贯性。 - [ClawBench](https://clawbench.net) - 一个在搜索、推理、编码、安全和多轮对话任务上评估 AI Agent 的基准测试，在单个套件中涵盖了对 Harness 需求的广度。 - [ClawWork](https://github.com/HKUDS/ClawWork) - 一个真实世界的经济基准测试，AI Agent 在其中完成跨越 44 个职业的专业任务，在管理 Token 成本和经济偿付能力的同时赚取收入，是对资源约束下 Harness 效率的直接测试。 - [Computer Agent Arena](https://github.com/xlang-ai/computer-agent-arena) - 一个开放的评估平台，用户可以在其中比较基于 LLM/VLM 的 Agent 在现实世界计算机任务上的表现，涵盖从通用计算机使用到编码、数据分析和视频编辑，展现了广泛任务面上的 Harness 差异。 - [EvoClaw：在持续软件演进中评估 AI Agent](https://openhands.dev/blog/evoclaw-benchmark) - 一份关于在来自真实代码库历史的依赖里程碑序列中评估 Agent 的基准测试报告，揭示了回归累积和长周期的精度损失。 - [GAIA](https://huggingface.co/datasets/gaia-benchmark/GAIA) - 一个通用 AI 助手基准测试，通常用于比较围绕工具、规划、验证和长周期自治的 Harness 级别选择。 - [Galileo Agent Leaderboard](https://huggingface.co/spaces/galileo-ai/agent-leaderboard) - 一个开放的评估平台，跟踪 LLM Agent 在跨业务领域的任务完成和工具调用情况，有助于比较企业级智能体场景中的 Harness 质量。 - [GTA](https://github.com/open-compass/GTA) - 一个使用人类编写的查询、真实部署的工具和真实的多模态输入来评估基于 LLM 的 Agent 工具使用能力的基准测试，暴露了独立测试和真实部署之间的 Harness 差距。 - [HAL：整体 Agent 排行榜](https://hal.cs.princeton.edu/) - 一个针对 Agent 系统的基准测试和排行榜，关注可靠性、成本和广泛的任务覆盖范围，使其对于比较端到端的 Harness 行为非常有用。 - [Terminal-Bench 2.0 和 Harbor 介绍](https://www.tbench.ai/news/announcement-2-0) - Terminal-Bench 2.0 的发布公告，有助于理解 Harbor 背后更难的任务和通用评估 Harness。 - [LeetCode-Hard Gym](https://github.com/GammaTauAI/leetcode-hard-gym) - 一个连接到 LeetCode 提交服务器的 RL 环境接口，用于评估代码生成 Agent，让 Harness 可以直接访问针对困难算法问题的基于执行的。 - [LLM Colosseum 排行榜](https://github.com/OpenGenerativeAI/llm-colosseum) - 一个通过让 LLM 在《街头霸王 III》中对战来评估 LLM 的平台，测试速度、适应性和实时决策能力，作为在严格延迟约束下 Harness 响应能力的代称。 - [MAgIC](https://zhiyuanhubj.github.io/MAgIC/) - 一个衡量多智能体系统中 LLM 的认知、适应性、理性和协作能力的基准测试，有助于评估 Harness 如何协调 Agent 交互和共享状态。 - [MCP Bench](https://github.com/modelscope/MCPBench) - 一个评估 AI 模型在 MCP 服务器交互上的基准测试，测量跨服务器类型的工具准确性、延迟和 Token 使用情况，直接反映了围绕 MCP 集成的 Harness 设计选择。 - [MCP Universe](https://mcp-universe.github.io/) - 一个比较 AI 模型在 MCP 任务上表现的排行榜，跟踪不同的模型和 Harness 配置如何处理工具增强的 Agent 工作流。 - [MCPMark](https://github.com/eval-sys/mcpmark) - 一个针对模型和 Agent 在 Notion、GitHub 和 Postgres 等工具上真实 MCP 任务能力的压力测试基准，使 Harness 的 MCP 集成质量可以直接衡量。 - [Olas Predict Benchmark](https://github.com/valory-xyz/olas-predict-benchmark) - 一个在历史预测市场数据上评估 Agent 的基准测试，用于测试长周期推理任务中研究、检索和预测的 Harness 设计。 - [OSWorld](https://os-world.github.io/) - 一个真实的计算机使用基准测试，包含跨 Ubuntu、Windows 和 macOS 的 369 个任务，配有初始状态设置和基于执行的评估器，非常适合测试桌面和多模态 Harness。 - [OSWorld-MCP](https://osworld-mcp.github.io) - OSWorld 的扩展，使用模型上下文协议在真实世界的计算机任务上评估 AI Agent，有助于在现实的桌面任务套件上比较启用了 MCP 的 Harness。 - [SEC-bench](https://github.com/SEC-bench/SEC-bench) - 一个评估 LLM Agent 在真实世界软件安全任务（包括漏洞重现和修补）上的基准测试，强调围绕代码执行、容器化环境和安全感知工具的 Harness 设计。 - [SWE-bench Verified](https://www.swebench.com/) - 一个针对软件工程 Agent 处理真实 GitHub 问题和测试的强大基准测试，它使围绕检索、补丁和验证的 Harness 选择变得高度可见。 - [τ-Bench](https://github.com/sierra-research/tau-bench) - 一个模拟用户与配备了领域特定 API 工具和策略指南的语言 Agent 之间动态对话的基准测试，适用于评估围绕结构化工具使用和策略执行构建的 Harness。 - [tau2-bench](https://github.com/sierra-research/tau2-bench) - 一个针对现实、多步 Agent 任务的基准测试，其中成功取决于工具使用和执行质量，而不是单次回答。 - [Terminal-Bench](https://www.tbench.ai/) - 一个针对在 Shell、文件系统和重度验证环境中操作的终端原生 Agent 的基准测试套件，对于比较编码 Agent 的 Harness 特别有用。 - [TravelPlanner](https://github.com/OSU-NLP-Group/TravelPlanner) - 一个评估 LLM Agent 在多重约束下的工具使用和复杂规划的基准测试，揭示了 Harness 设计如何处理多约束满足和长周期规划。 - [VAB](https://github.com/THUDM/VisualAgentBench) - VisualAgentBench 在具身、GUI 和视觉设计任务中将大型多模态模型作为视觉基础 Agent 进行评估，有助于在视觉扎根的多步 Agent 工作流上比较 Harness。 - [VisualWebArena](https://jykoh.com/vwa) - 一个针对多模态 Web Agent 在现实视觉扎根任务上的基准测试，通过图像和截图输入扩展了 WebArena，对浏览器环境中视觉上下文的 Harness 支持施加了压力。 - [WebArena](https://webarena.dev/) - 一个独立的、可自托管的 Web 环境，用于在真实任务上评估自主 Agent，是比较面向 Web 的 Harness 设计的可重现基线。 - [WebArena-Verified](https://github.com/ServiceNow/webarena-verified) - 一个经过验证的 Web Agent 基准测试，带有精心筛选的任务和对 Agent 响应及捕获的网络轨迹的确定性评估器，非常适合测量面向 Web 的 Harness。 - [WildClawBench](https://github.com/InternLM/WildClawBench) - 一个在真实环境（in-the-wild）运行的基准测试，在包含多模态、长周期和 safety-critical 场景在内的 60 个原创任务中，将 Agent 放在实时的 OpenClaw 环境中运行，直接展现了真实世界条件下的 Harness 鲁棒性。 - [WorkArena](https://github.com/ServiceNow/WorkArena) - 一个针对浏览器 Agent 在常见知识型工作任务上的基准测试，有助于在现实的企业级 Web 工作流（而非玩具浏览器任务）上比较 Harness。 ## 运行时、Harness 与参考实现 - [Agent 框架、运行时和 Harness，天哪！](https://blog.langchain.com/agent-frameworks-runtimes-and-harnesses-oh-my/) - LangChain 对框架、运行时和 Harness 各自归属的解构分析。 - [使用 Claude Agent SDK 构建 Agent](https://claude.com/blog/building-agents-with-the-claude-agent-sdk) - Anthropic 关于生产级 Agent SDK 的指南，支持会话、工具和编排。 - [我们如何构建多智能体研究系统](https://www.anthropic.com/engineering/multi-agent-research-system) - Anthropic 关于多智能体系统的架构文章，具有角色分离和结构化协调的特点。 - [deepagents](https://github.com/langchain-ai/deepagents) - LangChain 的开源项目，用于使用中间件和 Harness 模式构建更深层次的、长时间运行的 Agent。 - [SWE-agent](https://github.com/SWE-agent/SWE-agent) - 一个成熟的研究型编码 Agent，可以直接检查其 Harness、Prompt、工具和环境设计。 - [SWE-ReX](https://github.com/SWE-agent/SWE-ReX) - 用于 AI Agent 的沙盒代码执行基础设施，当 Harness 工作开始与执行运行时设计融合时非常有用。 - [AgentKit](https://github.com/inngest/agent-kit) - Inngest 的 TypeScript 工具包，用于在事件驱动的基础设施之上构建持久的、工作流感知的 Agent。 - [Harbor](https://github.com/harbor-framework/harbor) - 一个通用的 Harness，用于大规模评估和改进 Agent，与 Terminal-Bench 2.0 一起发布。 ## 贡献欢迎贡献。请优先提供以下资源： - 明确说明如何约束、评估、恢复、观察或编排 Agent - 原创实现、第一手来源的文章或高信噪比的技术文章 - 对构建真实 Harness 的从业者有用，而不是通用的 AI 评论如果两个链接表达的意思相同，请优先选择更一手的、更实用的、更面向实现的那个。有关贡献指南和首选的提交格式，请参阅 [CONTRIBUTING.md](./CONTRIBUTING.md)。 ## 许可证 [CC0 1.0](./LICENSE)

标签：AI智能体, Anthropic, CIS基准, Claude, Codex, Cutter, CVE检测, DLL 劫持, Harness工程, LLM应用开发, OpenAI, RAG, 上下文工程, 上下文管理, 内存规避, 大语言模型, 威胁情报, 安全自治, 工作流设计, 开发者工具, 约束与护栏, 编排, 评估与可观测性, 请求拦截, 软件架构, 运行时控制, 逆向工具