natnew/awesome-agentops

GitHub: natnew/awesome-agentops

一份聚焦 AI 智能体生产运营（AgentOps）的精选资源列表，涵盖可观测性、评估、安全防护、部署和治理等关键环节的工具、框架与最佳实践。

Stars: 2 | Forks: 2

# Awesome AgentOps [![Awesome](https://awesome.re/badge.svg)](https://awesome.re) [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](LICENSE) [![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg)](./CONTRIBUTING.md) [![Links Checked](https://img.shields.io/badge/links-checked-brightgreen.svg)](#contents) [![Focus: AgentOps](https://img.shields.io/badge/focus-AgentOps-blue.svg)](#scope) [![Status: v0.1](https://img.shields.io/badge/status-v0.1-informational.svg)](#contributing) AgentOps 是 AI 智能体的生产运营层。它的范围比智能体监控更广：涵盖了团队在自主或半自主 AI 系统离开演示环境后，如何发布、观察、评估、调试、保护、控制和改进它们。此列表专门针对生产级智能体的工程资源。它优先提供帮助团队回答以下运营问题的工具、论文、模式和参考资料： - 智能体做了什么，为什么？ - 它是否正确、安全且符合策略地完成了任务？ - 我们能否重放、调试和评估失败情况？ - 人类能否批准、中断或否决高影响的操作？ - 我们能否管理成本、延迟、密钥、身份和权限？ - 我们能否依靠证据而非猜测来响应智能体事件？ ## 目录 - [范围](#scope) - [概念图](#conceptual-map) - [AgentOps vs DevOps vs MLOps](#agentops-vs-devops-vs-mlops) - [可观测性与链路追踪](#observability-and-tracing) - [评估与测试](#evaluation-and-testing) - [重放与调试](#replay-and-debugging) - [防护栏与运行时控制](#guardrails-and-runtime-controls) - [安全、身份与访问控制](#security-identity-and-access-control) - [人工审批与工作流控制](#human-approval-and-workflow-control) - [部署与运行时基础设施](#deployment-and-runtime-infrastructure) - [云端 AgentOps 平台](#cloud-agentops-platforms) - [成本、延迟与可靠性](#cost-latency-and-reliability) - [事件响应与治理](#incident-response-and-governance) - [多智能体运营](#multi-agent-operations) - [标准与协议](#standards-and-protocols) - [研究与参考](#research-and-references) - [贡献](#contributing) ## 范围包含内容： - 生产级智能体的可观测性、链路追踪、评估、测试和重放。 - 运行时防护栏、策略检查、审批和控制平面。 - 智能体安全、身份、权限、沙箱和密钥处理。 - 部署、可靠性、成本、延迟和事件响应实践。 - 多智能体协调和运营故障模式。默认不包含内容： - 没有运营视角的通用 LLM 聊天应用。 - 没有评估或生产规范的 prompt 集合。 - 不专注于运行智能体的泛 AI 工具目录。 - 没有实用工程实质内容的供应商营销页面。 ## 概念图 AgentOps 跨越了智能体系统的整个生命周期： 1. **设计**：定义任务、工具、权限、策略和成功标准。 2. **构建**：为 trace、模型调用、工具调用、内存和状态转换埋点。 3. **测试**：运行单元测试、场景测试、对抗测试和回归评估。 4. **部署**：管理环境、密钥、发布、速率限制和降级回退机制。 5. **运营**：监控正确性、安全性、成本、延迟、漂移和事件。 6. **改进**：重放失败情况、评估修复效果、更新策略和治理变更。 ## AgentOps vs DevOps vs MLOps AgentOps 与 DevOps 和 MLOps 有重叠，但它不是同一门学科。 DevOps 专注于发布和运营软件系统：基础设施、CI/CD、部署、监控、可靠性和事件响应。 MLOps 专注于机器学习生命周期：数据集、训练流水线、模型仓库、模型部署、漂移、性能监控和重新训练。 AgentOps 专注于 AI 智能体在被赋予目标、工具、内存、上下文、权限、工作流以及执行动作的能力之后的运营行为。 | 学科 | 主要关注点 | 典型运营对象 | 关键问题 | |---|---|---|---| | DevOps | 软件交付和基础设施可靠性 | 服务、容器、API、数据库、网络、部署 | 系统是否可用、可扩展、安全且可部署？ | | MLOps | 模型和数据生命周期管理 | 数据集、特征、模型、训练任务、模型 endpoint、漂移指标 | 模型是否被正确地训练、评估、部署、监控和更新？ | | AgentOps | 生产环境中的智能体行为 | 智能体运行、工具调用、trace、内存、计划、策略、审批、权限、结果 | 智能体的行为是否正确、安全、符合策略，并且有足够的证据来调试或治理它？ | AgentOps 将运营实践扩展到了传统 DevOps 和 MLOps 未能完全覆盖的领域： - 智能体轨迹和逐步执行的 trace - 工具使用监控和权限边界 - 内存、上下文和检索行为 - 运行时策略检查和防护栏 - 高影响操作的人工审批 - 智能体失败情况的重放和调试 - 任务完成度、行为和安全性的评估 - 自主或半自主决策的可审计性一个有用的简写： ``` DevOps keeps the software running. MLOps keeps the model lifecycle controlled. AgentOps keeps agent behaviour observable, evaluable, constrained, and governable. ``` ## 可观测性与链路追踪 - [OpenTelemetry](https://opentelemetry.io/) - 用于 trace、指标和日志的厂商中立可观测性框架。 - [OpenLLMetry](https://github.com/traceloop/openllmetry) - 基于 OpenTelemetry 的 LLM 应用埋点工具。 - [Langfuse](https://github.com/langfuse/langfuse) - 具备链路追踪、prompt 管理、评估和指标的开源 LLM 工程平台。 - [Arize Phoenix](https://github.com/Arize-ai/phoenix) - 用于 LLM 应用的开源可观测性与评估平台。 - [LangSmith](https://www.langchain.com/langsmith) - 用于追踪、调试、评估和监控 LangChain 及智能体应用的平台。 - [Weights & Biases Weave](https://github.com/wandb/weave) - 用于 LLM 应用的追踪和评估工具。 - [Helicone](https://github.com/Helicone/helicone) - 用于监控 LLM 用量、成本、延迟和请求的开源可观测性平台。 - [AgentOps](https://github.com/AgentOps-AI/agentops) - AI 智能体会话重放、分析和可观测性平台。 ## 评估与测试 - [OpenAI Evals](https://github.com/openai/evals) - 用于评估语言模型行为的框架和注册表。 - [DeepEval](https://github.com/confident-ai/deepeval) - 具有回归测试支持的 LLM 应用评估框架。 - [Ragas](https://github.com/explodinggradients/ragas) - 用于检索增强生成和 LLM pipeline 的评估框架。 - [promptfoo](https://github.com/promptfoo/promptfoo) - 用于测试 prompt、模型和 LLM 应用的 CLI 和框架。 - [Giskard](https://github.com/Giskard-AI/giskard) - 用于 AI 系统的测试和风险扫描工具。 - [Inspect AI](https://github.com/UKGovernmentBEIS/inspect_ai) - 用于大型语言模型评估的框架。 - [Braintrust](https://www.braintrust.dev/) - 用于 AI 产品的评估、日志记录和 prompt 迭代平台。 ## 重放与调试 - [LangSmith Tracing](https://docs.langchain.com/langsmith/home) - 用于智能体运行的 trace 检查、数据集创建和回归工作流。 - [Langfuse Tracing](https://langfuse.com/docs/observability/overview) - 用于 LLM 调用、工具调用、链和智能体会话的 trace。 - [Phoenix Tracing](https://docs.arize.com/phoenix/tracing) - 用于 LLM 应用调试的基于 OpenTelemetry 的链路追踪。 - [Weave Tracing](https://docs.wandb.ai/weave) - 用于模型和智能体工作流的链路追踪和交互式调试。 ## 防护栏与运行时控制 - [Guardrails AI](https://github.com/guardrails-ai/guardrails) - 用于 LLM 输入和输出的验证与防护栏框架。 - [NVIDIA NeMo Guardrails](https://github.com/NVIDIA/NeMo-Guardrails) - 用于围绕 LLM 应用构建可编程防护栏的工具包。 - [Llama Guard](https://www.llama.com/docs/model-cards-and-prompt-formats/llama-guard-3/) - Meta 的用于策略执行的安全分类模型家族。 - [Rebuff](https://github.com/protectai/rebuff) - prompt 注入检测与缓解框架。 - [Lakera Guard](https://www.lakera.ai/lakera-guard) - 保护 LLM 应用免受 prompt 注入和不安全内容影响的运行时防护。 - [OpenAI Moderation](https://developers.openai.com/api/docs/guides/moderation) - 内容安全模型和内容审核模式。 ## 安全、身份与访问控制 - [OWASP Top 10 for LLM Applications](https://owasp.org/www-project-top-10-for-large-language-model-applications/) - LLM 和智能体系统的安全风险。 - [OWASP Agentic Security Initiative](https://genai.owasp.org/initiatives/agentic-security-initiative/) - 专注于智能体 AI 系统的安全工作。 - [NIST AI Risk Management Framework](https://www.nist.gov/itl/ai-risk-management-framework) - AI 系统的风险管理框架。 - [PyRIT](https://github.com/Azure/PyRIT) - 微软用于对生成式 AI 系统进行红蓝对抗的框架。 - [garak](https://github.com/NVIDIA/garak) - LLM 漏洞扫描器和红蓝对抗工具。 - [Invariant](https://github.com/invariantlabs-ai/invariant) - 用于智能体行为和工具使用的测试与防护栏。在生产审查中需要涵盖的运营主题： - 工具权限边界和最小权限原则。 - 密钥隔离和凭证轮换。 - 用户、智能体、服务和工具的身份。 - 用于代码执行、浏览器使用和文件系统访问的沙箱。 - 针对特权或不可逆操作的审计日志。 ## 人工审批与工作流控制 - [Temporal](https://temporal.io/) - 用于长时间运行的工作流、重试和人机交互步骤的持久执行平台。 - [Inngest](https://www.inngest.com/) - 用于可靠后台执行的持久函数和事件驱动工作流。 - [Hatchet](https://github.com/hatchet-dev/hatchet) - 分布式任务队列和工作流引擎。 - [HumanLayer](https://github.com/humanlayer/humanlayer) - 用于 AI 智能体和工具调用的人工审批工作流。有用的审批模式： - 对于产生外部副作用的行为需要审批，例如发送电子邮件、花钱、合并代码或更改基础设施。 - 存储提议的操作、上下文、风险级别、审批人和最终决定。 - 使审批可重放且可审计，而不是一次性的聊天消息。 ## 部署与运行时基础设施 - [LiteLLM](https://github.com/BerriAI/litellm) - 用于模型路由、预算、重试、密钥和提供商抽象的 LLM 网关。 - [Portkey](https://github.com/Portkey-AI/gateway) - 用于可观测性、缓存、路由、防护栏和可靠性的 AI 网关。 - [Ray Serve](https://docs.ray.io/en/latest/serve/index.html) - 用于 Python 负载的可扩展模型和应用服务。 - [BentoML](https://github.com/bentoml/BentoML) - 用于构建和部署 AI 应用的框架。 - [Modal](https://modal.com/) - 用于 AI 和数据负载的无服务器基础设施。 - [Fly.io](https://fly.io/) - 适用于全球部署的智能体服务的应用运行时。 ## 云端 AgentOps 平台主要云平台正开始通过托管的智能体运行时、可观测性工具、链路追踪、评估、防护栏、身份控制和治理功能来暴露 AgentOps 能力。本部分追踪云原生服务，帮助团队在生产环境中构建、部署、监控、评估、保护和治理 AI 智能体。 ### Microsoft Azure 和 Microsoft Foundry - [Microsoft Foundry Agent Service](https://learn.microsoft.com/en-us/azure/foundry/agents/overview) - 用于跨 prompt 智能体、工作流智能体和托管智能体构建、部署和扩展 AI 智能体的托管平台。 - [Microsoft Foundry Control Plane](https://learn.microsoft.com/en-us/azure/foundry/control-plane/how-to-manage-agents) - 用于智能体清单、智能体健康状况和生命周期操作的集中管理和可观测性。 - [Microsoft Foundry Playgrounds](https://learn.microsoft.com/en-us/azure/foundry/concepts/concept-playgrounds) - 带有 trace 和评估数据的智能体开发环境，用于评估智能体响应。 - [Azure AI Agent Design Patterns](https://learn.microsoft.com/en-us/azure/architecture/ai-ml/guide/ai-agent-design-patterns) - 多智能体编排模式的架构指南。 - [Azure AI Agent Adoption Process](https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/ai-agents/build-secure-process) - 一致且安全地构建智能体的组织指南。需要关注的运营能力： - 智能体清单和生命周期管理 - 托管智能体托管 - 链路追踪和评估 - 多智能体编排模式 - 安全和治理控制 - 组织采纳流程 ### Google Cloud 和 Gemini 企业智能体平台 - [Gemini Enterprise Agent Platform](https://docs.cloud.google.com/gemini-enterprise-agent-platform/overview) - 用于构建、部署、治理和优化企业级 AI 智能体的统一平台。 - [Scale your agents](https://docs.cloud.google.com/gemini-enterprise-agent-platform/scale) - 用于部署、管理、追踪、日志记录、监控和扩展智能体的生产指南。 - [Agent Platform Runtime](https://docs.cloud.google.com/gemini-enterprise-agent-platform/build/runtime) - 用于在生产环境中部署、管理和扩展 AI 智能体的托管运行时服务。 - [Agent Development Kit](https://google.github.io/adk-docs/) - 用于构建和编排智能体的开源框架。 - [Agent identity and IAM](https://docs.cloud.google.com/gemini-enterprise-agent-platform/scale) - 已部署智能体的身份和访问管理模式。需要关注的运营能力： - 托管无服务器智能体时 - 链路追踪、日志记录、监控和警报 - 基于 IAM 的智能体身份 - 会话和内存管理 - 通过 Agent Gateway 实现安全连接 - 生产扩展控制 ### AWS、Amazon Bedrock 和 Amazon Bedrock AgentCore - [Amazon Bedrock AgentCore](https://docs.aws.amazon.com/bedrock-agentcore/) - 用于跨框架和模型安全地大规模部署和运营 AI 智能体的托管服务。 - [Amazon Bedrock AgentCore Observability](https://docs.aws.amazon.com/bedrock-agentcore/latest/devguide/observability.html) - 用于追踪、调试、监控和调查智能体性能的生产可观测性。 - [Amazon Bedrock AgentCore Identity](https://docs.aws.amazon.com/bedrock-agentcore/latest/devguide/identity.html) - 用于智能体应用和自动化负载的身份和凭证管理。 - [Amazon Bedrock AgentCore Memory](https://docs.aws.amazon.com/bedrock-agentcore/latest/devguide/memory.html) - 为需要会话上下文、用户偏好和长期连续性的智能体应用提供托管内存。 - [Amazon Bedrock Agents](https://docs.aws.amazon.com/bedrock/latest/userguide/agents.html) - 用于编排基础模型、知识库、API 和用户交互的托管智能体功能。 - [Amazon Bedrock Agent Traces](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html) - 用于理解智能体编排和行为的逐步 trace。 - [Amazon Bedrock Observability](https://docs.aws.amazon.com/bedrock/latest/userguide/observability.html) - 用于跟踪性能、资源和运营行为的可观测性指南。 - [Monitor Amazon Bedrock Agents with CloudWatch](https://docs.aws.amazon.com/bedrock/latest/userguide/monitoring-agents-cw-metrics.html) - 用于监控智能体调用和性能的运行时指标。 - [Amazon Bedrock Guardrails](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html) - 用于生成式 AI 应用和智能体工作流的可配置防护措施。 - [Amazon Bedrock Security, Guardrails, and Observability](https://docs.aws.amazon.com/bedrock/latest/userguide/security.html) - 基于 Bedrock 的系统的安全性和合规性指南。需要关注的运营能力： - 智能体编排和 API 动作执行 - 用于智能体推理和工具使用的 trace - CloudWatch 指标和日志 - CloudTrail 可审计性 - 防护栏和策略执行 - 知识库和运行时监控 ### 跨云平台的比较重点在评估云端 AgentOps 能力时，请比较： | 能力 | 检查内容 | |---|---| | 托管运行时 | 能否在生产环境中对智能体进行托管、扩展、隔离和版本控制？ | | 链路追踪 | 团队能否检查智能体的步骤、工具调用、检索、内存和推理路径？ | | 评估 | 能否对输出、轨迹和任务结果进行持续评估？ | | 身份 | 智能体能否拥有独立的身份、权限和凭证边界？ | | 防护栏 | 能否执行运行时策略、安全性和动作约束？ | | 监控 | 能否跟踪成本、延迟、错误、使用情况、token 消耗和可靠性？ | | 治理 | 团队能否审计生命周期、审批、访问、事件和合规性证据？ | | 可移植性 | 智能体能否使用外部框架、API、工具和模型提供商而不被深度锁定？ | ## 成本、延迟与可靠性 - [OpenCost](https://www.opencost.io/) - 用于 Kubernetes 基础设施的开源成本监控。 - [Grafana](https://grafana.com/) - 用于指标、日志和 trace 的仪表板和警报。 - [Prometheus](https://prometheus.io/) - 指标和警报工具包。 - [Sentry](https://sentry.io/) - 应用程序错误监控和性能追踪。 - [Vercel AI Gateway](https://vercel.com/ai-gateway) - 用于模型路由、可观测性和使用控制的网关。值得追踪的智能体特定信号： - 任务成功率和策略违规率。 - 工具调用次数、工具错误率和工具延迟。 - 模型降级回退率和重试率。 - 每任务成本、每个成功任务的成本和每用户成本。 - 人工上报率和审批拒绝率。 - 上下文长度、内存增长和检索质量。 ## 事件响应与治理 - [PagerDuty Incident Response](https://www.pagerduty.com/resources/learn/incident-response/) - 实用的事件响应概念和生命周期。 - [Google SRE Book](https://sre.google/sre-book/table-of-contents/) - 基础的可靠性实践。 - [NIST AI RMF Playbook](https://airc.nist.gov/AI_RMF_Knowledge_Base/Playbook) - 应用 NIST AI 风险管理框架的实用指南。 - [Partnership on AI: AI Incident Database](https://incidentdatabase.ai/) - AI 相关事件和危害的数据库。智能体事件检查清单： - 保留 trace、prompt、工具输入、工具输出、检索到的上下文和审批记录。 - 确定故障是源于模型行为、检索、工具执行、策略、权限还是编排。 - 尽可能使用相同的输入重放运行。 - 在更改 prompt、工具或策略之前添加回归评估。 - 记录用户影响、安全影响、成本影响和数据暴露情况。 ## 多智能体运营 - [AutoGen](https://github.com/microsoft/autogen) - 用于构建多智能体 AI 应用的框架。 - [CrewAI](https://github.com/crewAIInc/crewAI) - 用于编排基于角色的 AI 智能体的框架。 - [LangGraph](https://github.com/langchain-ai/langgraph) - 用于构建有状态、可控的智能体工作流的框架。 - [Semantic Kernel](https://github.com/microsoft/semantic-kernel) - 用于将智能体和 AI 编排构建到应用中的 SDK。 - [OpenAI Swarm](https://github.com/openai/swarm) - 用于轻量级多智能体编排的教育框架。多智能体系统的运营关注点： - 共享状态所有权和冲突解决。 - 消息可见性、路由和来源。 - 每个智能体角色的工具访问权限。 - 失控循环、死锁和重复工作。 - 在单个智能体和系统两个层面进行评估。 ## 标准与协议 - [Model Context Protocol](https://modelcontextprotocol.io/docs/getting-started/intro) - 用于将 AI 应用连接到工具和数据源的协议。 - [OpenAPI](https://www.openapis.org/) - 用于描述暴露给智能体的 HTTP API 的标准。 - [AsyncAPI](https://www.asyncapi.com/) - 用于事件驱动 API 定义的标准。 - [CloudEvents](https://cloudevents.io/) - 用于事件数据互操作性的规范。 - [OpenTelemetry Semantic Conventions](https://opentelemetry.io/docs/specs/semconv/) - 遥测数据的共享约定。 ## 研究与参考 - [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629) - 引入了许多智能体使用的推理加行动模式。 - [Toolformer](https://arxiv.org/abs/2302.04761) - 关于语言模型学习使用外部工具的研究。 - [Voyager](https://arxiv.org/abs/2305.16291) - 具身智能体环境中终身学习和技能获取的示例。 - [SWE-bench](https://www.swebench.com/) - 用于在真实软件工程问题上评估智能体的基准。 - [AgentBench](https://arxiv.org/abs/2308.03688) - 用于跨环境评估 LLM 作为智能体的基准。 - [AI Incident Database](https://incidentdatabase.ai/) - 用于治理和风险分析的公共事件数据库。 ## 许可证 MIT。请参阅 [LICENSE](LICENSE)。

标签：AgentOps, AI安全, AI生产环境, AI自动化系统, AI部署, API集成, Chat Copilot, CSV导出, DLL 劫持, LLM应用开发, LLM评估, MLOps, Ollama, 人工智能运维, 人机协作, 可观测性, 大模型运维, 大语言模型, 安全防护, 成本管理, 故障排查, 权限控制, 用户代理, 链路追踪