natnew/awesome-agentops
GitHub: natnew/awesome-agentops
一份聚焦 AI 智能体生产运营(AgentOps)的精选资源列表,涵盖可观测性、评估、安全防护、部署和治理等关键环节的工具、框架与最佳实践。
Stars: 0 | Forks: 0
# Awesome AgentOps
[](https://awesome.re)
[](LICENSE)
[](./CONTRIBUTING.md)
[](#contents)
[](#scope)
[](#contributing)
AgentOps 是 AI 智能体的生产运营层。它的范围比智能体监控更广:涵盖了团队在自主或半自主 AI 系统离开演示环境后,如何发布、观察、评估、调试、保护、控制和改进它们。
此列表专门针对生产级智能体的工程资源。它优先提供帮助团队回答以下运营问题的工具、论文、模式和参考资料:
- 智能体做了什么,为什么?
- 它是否正确、安全且符合策略地完成了任务?
- 我们能否重放、调试和评估失败情况?
- 人类能否批准、中断或否决高影响的操作?
- 我们能否管理成本、延迟、密钥、身份和权限?
- 我们能否依靠证据而非猜测来响应智能体事件?
## 目录
- [范围](#scope)
- [概念图](#conceptual-map)
- [AgentOps vs DevOps vs MLOps](#agentops-vs-devops-vs-mlops)
- [可观测性与链路追踪](#observability-and-tracing)
- [评估与测试](#evaluation-and-testing)
- [重放与调试](#replay-and-debugging)
- [防护栏与运行时控制](#guardrails-and-runtime-controls)
- [安全、身份与访问控制](#security-identity-and-access-control)
- [人工审批与工作流控制](#human-approval-and-workflow-control)
- [部署与运行时基础设施](#deployment-and-runtime-infrastructure)
- [云端 AgentOps 平台](#cloud-agentops-platforms)
- [成本、延迟与可靠性](#cost-latency-and-reliability)
- [事件响应与治理](#incident-response-and-governance)
- [多智能体运营](#multi-agent-operations)
- [标准与协议](#standards-and-protocols)
- [研究与参考](#research-and-references)
- [贡献](#contributing)
## 范围
包含内容:
- 生产级智能体的可观测性、链路追踪、评估、测试和重放。
- 运行时防护栏、策略检查、审批和控制平面。
- 智能体安全、身份、权限、沙箱和密钥处理。
- 部署、可靠性、成本、延迟和事件响应实践。
- 多智能体协调和运营故障模式。
默认不包含内容:
- 没有运营视角的通用 LLM 聊天应用。
- 没有评估或生产规范的 prompt 集合。
- 不专注于运行智能体的泛 AI 工具目录。
- 没有实用工程实质内容的供应商营销页面。
## 概念图
AgentOps 跨越了智能体系统的整个生命周期:
1. **设计**:定义任务、工具、权限、策略和成功标准。
2. **构建**:为 trace、模型调用、工具调用、内存和状态转换埋点。
3. **测试**:运行单元测试、场景测试、对抗测试和回归评估。
4. **部署**:管理环境、密钥、发布、速率限制和降级回退机制。
5. **运营**:监控正确性、安全性、成本、延迟、漂移和事件。
6. **改进**:重放失败情况、评估修复效果、更新策略和治理变更。
## AgentOps vs DevOps vs MLOps
AgentOps 与 DevOps 和 MLOps 有重叠,但它不是同一门学科。
DevOps 专注于发布和运营软件系统:基础设施、CI/CD、部署、监控、可靠性和事件响应。
MLOps 专注于机器学习生命周期:数据集、训练流水线、模型仓库、模型部署、漂移、性能监控和重新训练。
AgentOps 专注于 AI 智能体在被赋予目标、工具、内存、上下文、权限、工作流以及执行动作的能力之后的运营行为。
| 学科 | 主要关注点 | 典型运营对象 | 关键问题 |
|---|---|---|---|
| DevOps | 软件交付和基础设施可靠性 | 服务、容器、API、数据库、网络、部署 | 系统是否可用、可扩展、安全且可部署? |
| MLOps | 模型和数据生命周期管理 | 数据集、特征、模型、训练任务、模型 endpoint、漂移指标 | 模型是否被正确地训练、评估、部署、监控和更新? |
| AgentOps | 生产环境中的智能体行为 | 智能体运行、工具调用、trace、内存、计划、策略、审批、权限、结果 | 智能体的行为是否正确、安全、符合策略,并且有足够的证据来调试或治理它? |
AgentOps 将运营实践扩展到了传统 DevOps 和 MLOps 未能完全覆盖的领域:
- 智能体轨迹和逐步执行的 trace
- 工具使用监控和权限边界
- 内存、上下文和检索行为
- 运行时策略检查和防护栏
- 高影响操作的人工审批
- 智能体失败情况的重放和调试
- 任务完成度、行为和安全性的评估
- 自主或半自主决策的可审计性
一个有用的简写:
```
DevOps keeps the software running.
MLOps keeps the model lifecycle controlled.
AgentOps keeps agent behaviour observable, evaluable, constrained, and governable.
```
## 可观测性与链路追踪
- [OpenTelemetry](https://opentelemetry.io/) - 用于 trace、指标和日志的厂商中立可观测性框架。
- [OpenLLMetry](https://github.com/traceloop/openllmetry) - 基于 OpenTelemetry 的 LLM 应用埋点工具。
- [Langfuse](https://github.com/langfuse/langfuse) - 具备链路追踪、prompt 管理、评估和指标的开源 LLM 工程平台。
- [Arize Phoenix](https://github.com/Arize-ai/phoenix) - 用于 LLM 应用的开源可观测性与评估平台。
- [LangSmith](https://www.langchain.com/langsmith) - 用于追踪、调试、评估和监控 LangChain 及智能体应用的平台。
- [Weights & Biases Weave](https://github.com/wandb/weave) - 用于 LLM 应用的追踪和评估工具。
- [Helicone](https://github.com/Helicone/helicone) - 用于监控 LLM 用量、成本、延迟和请求的开源可观测性平台。
- [AgentOps](https://github.com/AgentOps-AI/agentops) - AI 智能体会话重放、分析和可观测性平台。
## 评估与测试
- [OpenAI Evals](https://github.com/openai/evals) - 用于评估语言模型行为的框架和注册表。
- [DeepEval](https://github.com/confident-ai/deepeval) - 具有回归测试支持的 LLM 应用评估框架。
- [Ragas](https://github.com/explodinggradients/ragas) - 用于检索增强生成和 LLM pipeline 的评估框架。
- [promptfoo](https://github.com/promptfoo/promptfoo) - 用于测试 prompt、模型和 LLM 应用的 CLI 和框架。
- [Giskard](https://github.com/Giskard-AI/giskard) - 用于 AI 系统的测试和风险扫描工具。
- [Inspect AI](https://github.com/UKGovernmentBEIS/inspect_ai) - 用于大型语言模型评估的框架。
- [Braintrust](https://www.braintrust.dev/) - 用于 AI 产品的评估、日志记录和 prompt 迭代平台。
## 重放与调试
- [LangSmith Tracing](https://docs.langchain.com/langsmith/home) - 用于智能体运行的 trace 检查、数据集创建和回归工作流。
- [Langfuse Tracing](https://langfuse.com/docs/observability/overview) - 用于 LLM 调用、工具调用、链和智能体会话的 trace。
- [Phoenix Tracing](https://docs.arize.com/phoenix/tracing) - 用于 LLM 应用调试的基于 OpenTelemetry 的链路追踪。
- [Weave Tracing](https://docs.wandb.ai/weave) - 用于模型和智能体工作流的链路追踪和交互式调试。
## 防护栏与运行时控制
- [Guardrails AI](https://github.com/guardrails-ai/guardrails) - 用于 LLM 输入和输出的验证与防护栏框架。
- [NVIDIA NeMo Guardrails](https://github.com/NVIDIA/NeMo-Guardrails) - 用于围绕 LLM 应用构建可编程防护栏的工具包。
- [Llama Guard](https://www.llama.com/docs/model-cards-and-prompt-formats/llama-guard-3/) - Meta 的用于策略执行的安全分类模型家族。
- [Rebuff](https://github.com/protectai/rebuff) - prompt 注入检测与缓解框架。
- [Lakera Guard](https://www.lakera.ai/lakera-guard) - 保护 LLM 应用免受 prompt 注入和不安全内容影响的运行时防护。
- [OpenAI Moderation](https://developers.openai.com/api/docs/guides/moderation) - 内容安全模型和内容审核模式。
## 安全、身份与访问控制
- [OWASP Top 10 for LLM Applications](https://owasp.org/www-project-top-10-for-large-language-model-applications/) - LLM 和智能体系统的安全风险。
- [OWASP Agentic Security Initiative](https://genai.owasp.org/initiatives/agentic-security-initiative/) - 专注于智能体 AI 系统的安全工作。
- [NIST AI Risk Management Framework](https://www.nist.gov/itl/ai-risk-management-framework) - AI 系统的风险管理框架。
- [PyRIT](https://github.com/Azure/PyRIT) - 微软用于对生成式 AI 系统进行红蓝对抗的框架。
- [garak](https://github.com/NVIDIA/garak) - LLM 漏洞扫描器和红蓝对抗工具。
- [Invariant](https://github.com/invariantlabs-ai/invariant) - 用于智能体行为和工具使用的测试与防护栏。
在生产审查中需要涵盖的运营主题:
- 工具权限边界和最小权限原则。
- 密钥隔离和凭证轮换。
- 用户、智能体、服务和工具的身份。
- 用于代码执行、浏览器使用和文件系统访问的沙箱。
- 针对特权或不可逆操作的审计日志。
## 人工审批与工作流控制
- [Temporal](https://temporal.io/) - 用于长时间运行的工作流、重试和人机交互步骤的持久执行平台。
- [Inngest](https://www.inngest.com/) - 用于可靠后台执行的持久函数和事件驱动工作流。
- [Hatchet](https://github.com/hatchet-dev/hatchet) - 分布式任务队列和工作流引擎。
- [HumanLayer](https://github.com/humanlayer/humanlayer) - 用于 AI 智能体和工具调用的人工审批工作流。
有用的审批模式:
- 对于产生外部副作用的行为需要审批,例如发送电子邮件、花钱、合并代码或更改基础设施。
- 存储提议的操作、上下文、风险级别、审批人和最终决定。
- 使审批可重放且可审计,而不是一次性的聊天消息。
## 部署与运行时基础设施
- [LiteLLM](https://github.com/BerriAI/litellm) - 用于模型路由、预算、重试、密钥和提供商抽象的 LLM 网关。
- [Portkey](https://github.com/Portkey-AI/gateway) - 用于可观测性、缓存、路由、防护栏和可靠性的 AI 网关。
- [Ray Serve](https://docs.ray.io/en/latest/serve/index.html) - 用于 Python 负载的可扩展模型和应用服务。
- [BentoML](https://github.com/bentoml/BentoML) - 用于构建和部署 AI 应用的框架。
- [Modal](https://modal.com/) - 用于 AI 和数据负载的无服务器基础设施。
- [Fly.io](https://fly.io/) - 适用于全球部署的智能体服务的应用运行时。
## 云端 AgentOps 平台
主要云平台正开始通过托管的智能体运行时、可观测性工具、链路追踪、评估、防护栏、身份控制和治理功能来暴露 AgentOps 能力。
本部分追踪云原生服务,帮助团队在生产环境中构建、部署、监控、评估、保护和治理 AI 智能体。
### Microsoft Azure 和 Microsoft Foundry
- [Microsoft Foundry Agent Service](https://learn.microsoft.com/en-us/azure/foundry/agents/overview) - 用于跨 prompt 智能体、工作流智能体和托管智能体构建、部署和扩展 AI 智能体的托管平台。
- [Microsoft Foundry Control Plane](https://learn.microsoft.com/en-us/azure/foundry/control-plane/how-to-manage-agents) - 用于智能体清单、智能体健康状况和生命周期操作的集中管理和可观测性。
- [Microsoft Foundry Playgrounds](https://learn.microsoft.com/en-us/azure/foundry/concepts/concept-playgrounds) - 带有 trace 和评估数据的智能体开发环境,用于评估智能体响应。
- [Azure AI Agent Design Patterns](https://learn.microsoft.com/en-us/azure/architecture/ai-ml/guide/ai-agent-design-patterns) - 多智能体编排模式的架构指南。
- [Azure AI Agent Adoption Process](https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/ai-agents/build-secure-process) - 一致且安全地构建智能体的组织指南。
需要关注的运营能力:
- 智能体清单和生命周期管理
- 托管智能体托管
- 链路追踪和评估
- 多智能体编排模式
- 安全和治理控制
- 组织采纳流程
### Google Cloud 和 Gemini 企业智能体平台
- [Gemini Enterprise Agent Platform](https://docs.cloud.google.com/gemini-enterprise-agent-platform/overview) - 用于构建、部署、治理和优化企业级 AI 智能体的统一平台。
- [Scale your agents](https://docs.cloud.google.com/gemini-enterprise-agent-platform/scale) - 用于部署、管理、追踪、日志记录、监控和扩展智能体的生产指南。
- [Agent Platform Runtime](https://docs.cloud.google.com/gemini-enterprise-agent-platform/build/runtime) - 用于在生产环境中部署、管理和扩展 AI 智能体的托管运行时服务。
- [Agent Development Kit](https://google.github.io/adk-docs/) - 用于构建和编排智能体的开源框架。
- [Agent identity and IAM](https://docs.cloud.google.com/gemini-enterprise-agent-platform/scale) - 已部署智能体的身份和访问管理模式。
需要关注的运营能力:
- 托管无服务器智能体时
- 链路追踪、日志记录、监控和警报
- 基于 IAM 的智能体身份
- 会话和内存管理
- 通过 Agent Gateway 实现安全连接
- 生产扩展控制
### AWS、Amazon Bedrock 和 Amazon Bedrock AgentCore
- [Amazon Bedrock AgentCore](https://docs.aws.amazon.com/bedrock-agentcore/) - 用于跨框架和模型安全地大规模部署和运营 AI 智能体的托管服务。
- [Amazon Bedrock AgentCore Observability](https://docs.aws.amazon.com/bedrock-agentcore/latest/devguide/observability.html) - 用于追踪、调试、监控和调查智能体性能的生产可观测性。
- [Amazon Bedrock AgentCore Identity](https://docs.aws.amazon.com/bedrock-agentcore/latest/devguide/identity.html) - 用于智能体应用和自动化负载的身份和凭证管理。
- [Amazon Bedrock AgentCore Memory](https://docs.aws.amazon.com/bedrock-agentcore/latest/devguide/memory.html) - 为需要会话上下文、用户偏好和长期连续性的智能体应用提供托管内存。
- [Amazon Bedrock Agents](https://docs.aws.amazon.com/bedrock/latest/userguide/agents.html) - 用于编排基础模型、知识库、API 和用户交互的托管智能体功能。
- [Amazon Bedrock Agent Traces](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html) - 用于理解智能体编排和行为的逐步 trace。
- [Amazon Bedrock Observability](https://docs.aws.amazon.com/bedrock/latest/userguide/observability.html) - 用于跟踪性能、资源和运营行为的可观测性指南。
- [Monitor Amazon Bedrock Agents with CloudWatch](https://docs.aws.amazon.com/bedrock/latest/userguide/monitoring-agents-cw-metrics.html) - 用于监控智能体调用和性能的运行时指标。
- [Amazon Bedrock Guardrails](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html) - 用于生成式 AI 应用和智能体工作流的可配置防护措施。
- [Amazon Bedrock Security, Guardrails, and Observability](https://docs.aws.amazon.com/bedrock/latest/userguide/security.html) - 基于 Bedrock 的系统的安全性和合规性指南。
需要关注的运营能力:
- 智能体编排和 API 动作执行
- 用于智能体推理和工具使用的 trace
- CloudWatch 指标和日志
- CloudTrail 可审计性
- 防护栏和策略执行
- 知识库和运行时监控
### 跨云平台的比较重点
在评估云端 AgentOps 能力时,请比较:
| 能力 | 检查内容 |
|---|---|
| 托管运行时 | 能否在生产环境中对智能体进行托管、扩展、隔离和版本控制? |
| 链路追踪 | 团队能否检查智能体的步骤、工具调用、检索、内存和推理路径? |
| 评估 | 能否对输出、轨迹和任务结果进行持续评估? |
| 身份 | 智能体能否拥有独立的身份、权限和凭证边界? |
| 防护栏 | 能否执行运行时策略、安全性和动作约束? |
| 监控 | 能否跟踪成本、延迟、错误、使用情况、token 消耗和可靠性? |
| 治理 | 团队能否审计生命周期、审批、访问、事件和合规性证据? |
| 可移植性 | 智能体能否使用外部框架、API、工具和模型提供商而不被深度锁定? |
## 成本、延迟与可靠性
- [OpenCost](https://www.opencost.io/) - 用于 Kubernetes 基础设施的开源成本监控。
- [Grafana](https://grafana.com/) - 用于指标、日志和 trace 的仪表板和警报。
- [Prometheus](https://prometheus.io/) - 指标和警报工具包。
- [Sentry](https://sentry.io/) - 应用程序错误监控和性能追踪。
- [Vercel AI Gateway](https://vercel.com/ai-gateway) - 用于模型路由、可观测性和使用控制的网关。
值得追踪的智能体特定信号:
- 任务成功率和策略违规率。
- 工具调用次数、工具错误率和工具延迟。
- 模型降级回退率和重试率。
- 每任务成本、每个成功任务的成本和每用户成本。
- 人工上报率和审批拒绝率。
- 上下文长度、内存增长和检索质量。
## 事件响应与治理
- [PagerDuty Incident Response](https://www.pagerduty.com/resources/learn/incident-response/) - 实用的事件响应概念和生命周期。
- [Google SRE Book](https://sre.google/sre-book/table-of-contents/) - 基础的可靠性实践。
- [NIST AI RMF Playbook](https://airc.nist.gov/AI_RMF_Knowledge_Base/Playbook) - 应用 NIST AI 风险管理框架的实用指南。
- [Partnership on AI: AI Incident Database](https://incidentdatabase.ai/) - AI 相关事件和危害的数据库。
智能体事件检查清单:
- 保留 trace、prompt、工具输入、工具输出、检索到的上下文和审批记录。
- 确定故障是源于模型行为、检索、工具执行、策略、权限还是编排。
- 尽可能使用相同的输入重放运行。
- 在更改 prompt、工具或策略之前添加回归评估。
- 记录用户影响、安全影响、成本影响和数据暴露情况。
## 多智能体运营
- [AutoGen](https://github.com/microsoft/autogen) - 用于构建多智能体 AI 应用的框架。
- [CrewAI](https://github.com/crewAIInc/crewAI) - 用于编排基于角色的 AI 智能体的框架。
- [LangGraph](https://github.com/langchain-ai/langgraph) - 用于构建有状态、可控的智能体工作流的框架。
- [Semantic Kernel](https://github.com/microsoft/semantic-kernel) - 用于将智能体和 AI 编排构建到应用中的 SDK。
- [OpenAI Swarm](https://github.com/openai/swarm) - 用于轻量级多智能体编排的教育框架。
多智能体系统的运营关注点:
- 共享状态所有权和冲突解决。
- 消息可见性、路由和来源。
- 每个智能体角色的工具访问权限。
- 失控循环、死锁和重复工作。
- 在单个智能体和系统两个层面进行评估。
## 标准与协议
- [Model Context Protocol](https://modelcontextprotocol.io/docs/getting-started/intro) - 用于将 AI 应用连接到工具和数据源的协议。
- [OpenAPI](https://www.openapis.org/) - 用于描述暴露给智能体的 HTTP API 的标准。
- [AsyncAPI](https://www.asyncapi.com/) - 用于事件驱动 API 定义的标准。
- [CloudEvents](https://cloudevents.io/) - 用于事件数据互操作性的规范。
- [OpenTelemetry Semantic Conventions](https://opentelemetry.io/docs/specs/semconv/) - 遥测数据的共享约定。
## 研究与参考
- [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629) - 引入了许多智能体使用的推理加行动模式。
- [Toolformer](https://arxiv.org/abs/2302.04761) - 关于语言模型学习使用外部工具的研究。
- [Voyager](https://arxiv.org/abs/2305.16291) - 具身智能体环境中终身学习和技能获取的示例。
- [SWE-bench](https://www.swebench.com/) - 用于在真实软件工程问题上评估智能体的基准。
- [AgentBench](https://arxiv.org/abs/2308.03688) - 用于跨环境评估 LLM 作为智能体的基准。
- [AI Incident Database](https://incidentdatabase.ai/) - 用于治理和风险分析的公共事件数据库。
## 许可证
MIT。请参阅 [LICENSE](LICENSE)。
标签:AgentOps, AI安全, AI生产环境, AI自动化系统, AI部署, API集成, Chat Copilot, CSV导出, DLL 劫持, LLM应用开发, LLM评估, MLOps, Ollama, 人工智能运维, 人机协作, 可观测性, 大模型运维, 大语言模型, 安全防护, 成本管理, 故障排查, 权限控制, 用户代理, 链路追踪