所有文章
阅读时长 12 分钟

如果你无法追踪你的 agent,你就无法信任你的 agent:2026 年 agent 可观测性生产指南

一个自主跑二十步的 agent,是一个你无法通过看最终输出来 debug 的系统。你需要看见每一步、每次工具调用、每个决策——完整轨迹。本文是经过来源核查的 2026 年生产 agent 可观测性指南:真正重要的三层指标(span/轨迹/会话)、工具格局(Langfuse、LangSmith、Arize、Datadog)、为什么大多数 LLM 可观测性工具漏掉了 agent 决策流,以及为什么可观测性不是锦上添花——它是信任一个自主系统上线的条件。

AI agent 可观测性生产 2026 封面

本文是生产 AI agent 架构集群的第三篇,完成 架构 → 记忆 → 可观测性 闭环。没有护栏的 agent 循环会失控 把可观测性命名为不可妥协的生产层。上下文窗口是内存,不是存储 展示了记忆工程如何塑造 agent 知道什么。本文关于 agent 用它知道的做什么——以及你如何看见它、debug 它、并在事后证明它行为正确。

我通读了 agent 可观测性文献后的结论很直接:一个没有可观测性的 agent 是一个你在生产里无法信任的 agent。最终输出告诉你 agent 决定了什么;它不告诉你为什么、它先试了什么、它在哪里错了、它是否遵循了你预期的路径。能上线生产 agent 的团队,是从第一天就插桩了每一步的那些——不是因为他们预期要 debug,而是因为他们知道,没有轨迹,事后 debug 一个自主多步系统是法医考古,不是工程。

为什么 agent 可观测性不同于 LLM 可观测性

2026 文献的一个关键洞见,由 Latitude 的平台分析阐述:大多数可观测性工具是为监控 LLM 补全构建的,不是为 agent。它们追踪输入和输出——prompt 和响应——但它们漏掉了 agent 决策流:agent 选了哪些工具、为什么选它们、传了什么参数、工具返回了什么、agent 如何反应、它决定接下来做什么。一个 agent 不是一个补全;它是一个由补全、工具调用和决策组成的轨迹,观察它要求观察轨迹,而不只是端点。

这就是为什么 agent 可观测性根本上是轨迹级的,而不是请求级的。你不是在问『这个 API 调用快且正确吗』你在问『这次二十步自主运行是否遵循了合理路径、在每一步做了好决策、从失败恢复、高效地到达了正确结果』这个问题无法通过记录输入输出来回答。它要求结构化轨迹,捕获每个 span——每次模型调用、每次工具调用、每个推理步骤——由父轨迹 ID 连接,让你重建完整执行 DAG。

真正重要的三层指标

综合 Augment Code 和 Braintrust 的指南,agent 可观测性分为三个指标层:

1. Span 级指标(每步)

每个单独步骤——一次模型调用、一次工具调用、一次记忆读取——是一个 span。对每个 span,追踪:

  • Token 用量。 这步消耗了多少 token?对接 按任务成本可观测性
  • 延迟。 这步花了多久?工具调用,尤其是外部 API 调用,可能主导总延迟。
  • 成功/失败。 工具是否成功返回?模型是否产出有效输出?
  • 语义质量。 这步产出的是好结果,而不只是有效结果?这是 校准过的 LLM 评审 可以给单步打分的地方。

2. 轨迹级指标(每次运行)

轨迹是一次 agent 运行中 span 的完整序列。对每次轨迹,追踪:

  • 步数。 agent 走了多少步?更多不是更好——它往往意味着 agent 在循环或挣扎。
  • 路径效率。 agent 是否走了直达答案的路径,还是在不必要的步骤间迂回?
  • 恢复率。 当工具调用失败或模型产出坏结果时,agent 恢复了,还是把错误复合了?
  • 每轨迹成本。 所有 span 成本的总和。这是告诉你 agent 是否成本可行的数字。

3. 会话级指标(每次用户交互)

对多轮 agent,跨完整会话追踪:

  • 任务完成率。 agent 真的解决了用户的问题吗?
  • 总会话成本。 会话中所有轨迹成本的总和。
  • 用户满意信号。 用户是否又问了同一个问题(失败信号),还是继续了(成功信号)?

工具格局(带诚实提醒)

2026 的 agent 可观测性工具已显著成熟。来自 Digital Applied、Braintrust 和 MLflow 的对比:

工具优势适合场景
Langfuse开源、可自托管、强追踪+评测需要数据驻留或自托管的团队;把评测集成进可观测性循环
LangSmith深度 LangChain/LangGraph 集成、低开销已在 LangChain 技术栈上的团队;如果用 LangGraph 集成最紧
Arize生产监控 + ML 可观测性传承想在现有 ML 监控旁边加 AI 可观测性的团队
Datadog企业平台集成已在 Datadog 做 APM、想在同一仪表板看 agent 轨迹的团队
MLflow开源追踪 + 实验追踪想把追踪与模型实验和版本管理绑定的团队

诚实提醒(跨集群一致):大多数『2026 最佳 agent 可观测性工具』对比都是厂商关联的。架构模型(追踪深度、评测集成、部署模式)可在各工具文档上验证;排名在你用自己的 agent 轨迹形状基准测试前应当当营销看。

文献的更深层洞见:工具不如『从第一天起打开追踪』的纪律重要。一个有基本 OpenTelemetry 插桩且愿意读轨迹的团队,胜过一个有最先进平台却没人看的团队。

营销稿不会写的锋利之处

几个值得知道的风险:

  • 追踪增加开销。 你记录的每个 span 花延迟和存储。对高体量 agent,这会累积。如果开销是问题就抽样(追踪一定比例运行而非全部),但永远不要抽到无法重建代表性失败的程度。
  • 大多数工具漏掉决策流。 一个记录了『模型调了 search(query=X)』但没记录『模型因为不确定决定搜索而不是直接回答』的工具,记录的是行动而非推理。决策才是你需要 debug 的;行动只是症状。
  • 轨迹监控是抓住失控 agent 的护栏。 Monte Carlo 的轨迹监控让你定义预期执行模式,并在 agent 偏离时告警——一个突然走 50 步而不是 5 步的 agent 是一个在循环的 agent,轨迹监控在成本之前抓住它。
  • 没有评测的可观测性是轨迹坟墓。 记录每一步是必要但不充分的。你还需要评测这些步骤是否好——把轨迹连接到你的 golden set评测管线,否则你的轨迹是你从不行动的数据。
  • 多 agent 追踪比单 agent 难。 当 agent 互相交接时,你需要一个跨完整 DAG 的父轨迹 ID,否则你得到无法重组的碎片。从一开始就插桩;事后加装很痛苦。

2026 年到底怎么建 agent 可观测性

实操路径:

  1. 从第一天起打开追踪。 每次模型调用、每次工具调用、每个决策步骤都用父轨迹 ID 记录。不要等到需要 debug 才打开;那时已太晚。
  2. 追踪三层指标。 span、轨迹和会话指标——不只一层。每层告诉你 agent 在哪失败的不同的东西。
  3. 插桩决策,不只行动。 记录 agent 为什么选择做某事,不只它做了什么。推理才是你 debug 的;行动是症状。
  4. 加轨迹监控。 定义预期执行模式,在偏离时告警。一个突然走 10 倍步数的 agent 是一个有麻烦的 agent。
  5. 把轨迹连接到评测。 你的可观测性平台应当喂你的评测管线,反之亦然。没有评测的轨迹是你从不行动的数据;没有轨迹的评测是你无法调查的判决。
  6. 追踪每轨迹成本。 这是告诉你 agent 是否可行的数字。设每运行成本上限并在超支时告警。
  7. 必要时抽样,但永远不低于失败重建阈值。 你必须始终能从轨迹重建一个代表性失败,否则你无法 debug。
  8. 定期评审轨迹,不只失败时。 最好的团队也评审成功轨迹——了解好的长什么样,在微妙退化变成失败前抓住它。

我的看法

2026 的故事是:agent 可观测性是让自主系统值得信任的纪律。一个跑二十步没有观察的 agent 是一个你必须凭信念接受其输出的黑箱;一个有完整轨迹可观测性的 agent 是一个你能重建、debug、评测和改进其行为的系统。能上线生产 agent 的团队,是把可观测性当作自主的前提、而不是以后会加的 debug 工具的那些。如果你无法追踪你的 agent,你就无法信任你的 agent——而一个你无法信任的 agent 不属于生产。

如果你从本文只记一件事:从第一天起插桩每一步,追踪决策流而不只行动,把你的轨迹连接到你的评测管线。这是你愿意放到用户面前的 agent 的最低可行可观测性。

本文是生产 AI agent 架构集群的第三篇。从 没有护栏的 agent 循环会失控 起步看完整架构,然后 上下文窗口是内存,不是存储 看记忆层,再本篇看可观测性层。关于轨迹级评测如何融入你的更广评测管线,见 LLM 评测集群。想找厂商的常驻参考,见我们的 AI 价格数据页

来源

相关阅读