刚刚阅读时长 12 分钟

如果你无法追踪你的 agent，你就无法信任你的 agent：2026 年 agent 可观测性生产指南

一个自主跑二十步的 agent，是一个你无法通过看最终输出来 debug 的系统。你需要看见每一步、每次工具调用、每个决策——完整轨迹。本文是经过来源核查的 2026 年生产 agent 可观测性指南：真正重要的三层指标（span/轨迹/会话）、工具格局（Langfuse、LangSmith、Arize、Datadog）、为什么大多数 LLM 可观测性工具漏掉了 agent 决策流，以及为什么可观测性不是锦上添花——它是信任一个自主系统上线的条件。

人工智能 developer-tools 模型新闻

AI agent 可观测性生产 2026 封面

本文是生产 AI agent 架构集群的第三篇，完成架构 → 记忆 → 可观测性闭环。没有护栏的 agent 循环会失控把可观测性命名为不可妥协的生产层。上下文窗口是内存，不是存储展示了记忆工程如何塑造 agent 知道什么。本文关于 agent 用它知道的做什么——以及你如何看见它、debug 它、并在事后证明它行为正确。

我通读了 agent 可观测性文献后的结论很直接：一个没有可观测性的 agent 是一个你在生产里无法信任的 agent。最终输出告诉你 agent 决定了什么；它不告诉你为什么、它先试了什么、它在哪里错了、它是否遵循了你预期的路径。能上线生产 agent 的团队，是从第一天就插桩了每一步的那些——不是因为他们预期要 debug，而是因为他们知道，没有轨迹，事后 debug 一个自主多步系统是法医考古，不是工程。

为什么 agent 可观测性不同于 LLM 可观测性

2026 文献的一个关键洞见，由 Latitude 的平台分析阐述：大多数可观测性工具是为监控 LLM 补全构建的，不是为 agent。它们追踪输入和输出——prompt 和响应——但它们漏掉了 agent 决策流：agent 选了哪些工具、为什么选它们、传了什么参数、工具返回了什么、agent 如何反应、它决定接下来做什么。一个 agent 不是一个补全；它是一个由补全、工具调用和决策组成的轨迹，观察它要求观察轨迹，而不只是端点。

这就是为什么 agent 可观测性根本上是轨迹级的，而不是请求级的。你不是在问『这个 API 调用快且正确吗』你在问『这次二十步自主运行是否遵循了合理路径、在每一步做了好决策、从失败恢复、高效地到达了正确结果』这个问题无法通过记录输入输出来回答。它要求结构化轨迹，捕获每个 span——每次模型调用、每次工具调用、每个推理步骤——由父轨迹 ID 连接，让你重建完整执行 DAG。

真正重要的三层指标

综合 Augment Code 和 Braintrust 的指南，agent 可观测性分为三个指标层：

1. Span 级指标（每步）

每个单独步骤——一次模型调用、一次工具调用、一次记忆读取——是一个 span。对每个 span，追踪：

Token 用量。 这步消耗了多少 token？对接按任务成本可观测性。
延迟。 这步花了多久？工具调用，尤其是外部 API 调用，可能主导总延迟。
成功/失败。 工具是否成功返回？模型是否产出有效输出？
语义质量。 这步产出的是好结果，而不只是有效结果？这是校准过的 LLM 评审可以给单步打分的地方。

2. 轨迹级指标（每次运行）

轨迹是一次 agent 运行中 span 的完整序列。对每次轨迹，追踪：

步数。 agent 走了多少步？更多不是更好——它往往意味着 agent 在循环或挣扎。
路径效率。 agent 是否走了直达答案的路径，还是在不必要的步骤间迂回？
恢复率。 当工具调用失败或模型产出坏结果时，agent 恢复了，还是把错误复合了？
每轨迹成本。 所有 span 成本的总和。这是告诉你 agent 是否成本可行的数字。

3. 会话级指标（每次用户交互）

对多轮 agent，跨完整会话追踪：

任务完成率。 agent 真的解决了用户的问题吗？
总会话成本。 会话中所有轨迹成本的总和。
用户满意信号。 用户是否又问了同一个问题（失败信号），还是继续了（成功信号）？

工具格局（带诚实提醒）

2026 的 agent 可观测性工具已显著成熟。来自 Digital Applied、Braintrust 和 MLflow 的对比：

工具	优势	适合场景
Langfuse	开源、可自托管、强追踪+评测	需要数据驻留或自托管的团队；把评测集成进可观测性循环
LangSmith	深度 LangChain/LangGraph 集成、低开销	已在 LangChain 技术栈上的团队；如果用 LangGraph 集成最紧
Arize	生产监控 + ML 可观测性传承	想在现有 ML 监控旁边加 AI 可观测性的团队
Datadog	企业平台集成	已在 Datadog 做 APM、想在同一仪表板看 agent 轨迹的团队
MLflow	开源追踪 + 实验追踪	想把追踪与模型实验和版本管理绑定的团队

诚实提醒（跨集群一致）：大多数『2026 最佳 agent 可观测性工具』对比都是厂商关联的。架构模型（追踪深度、评测集成、部署模式）可在各工具文档上验证；排名在你用自己的 agent 轨迹形状基准测试前应当当营销看。

文献的更深层洞见：工具不如『从第一天起打开追踪』的纪律重要。一个有基本 OpenTelemetry 插桩且愿意读轨迹的团队，胜过一个有最先进平台却没人看的团队。

营销稿不会写的锋利之处

几个值得知道的风险：

追踪增加开销。 你记录的每个 span 花延迟和存储。对高体量 agent，这会累积。如果开销是问题就抽样（追踪一定比例运行而非全部），但永远不要抽到无法重建代表性失败的程度。
大多数工具漏掉决策流。 一个记录了『模型调了 search(query=X)』但没记录『模型因为不确定决定搜索而不是直接回答』的工具，记录的是行动而非推理。决策才是你需要 debug 的；行动只是症状。
轨迹监控是抓住失控 agent 的护栏。 Monte Carlo 的轨迹监控让你定义预期执行模式，并在 agent 偏离时告警——一个突然走 50 步而不是 5 步的 agent 是一个在循环的 agent，轨迹监控在成本之前抓住它。
没有评测的可观测性是轨迹坟墓。 记录每一步是必要但不充分的。你还需要评测这些步骤是否好——把轨迹连接到你的 golden set 和评测管线，否则你的轨迹是你从不行动的数据。
多 agent 追踪比单 agent 难。 当 agent 互相交接时，你需要一个跨完整 DAG 的父轨迹 ID，否则你得到无法重组的碎片。从一开始就插桩；事后加装很痛苦。

2026 年到底怎么建 agent 可观测性

实操路径：

从第一天起打开追踪。 每次模型调用、每次工具调用、每个决策步骤都用父轨迹 ID 记录。不要等到需要 debug 才打开；那时已太晚。
追踪三层指标。 span、轨迹和会话指标——不只一层。每层告诉你 agent 在哪失败的不同的东西。
插桩决策，不只行动。 记录 agent 为什么选择做某事，不只它做了什么。推理才是你 debug 的；行动是症状。
加轨迹监控。 定义预期执行模式，在偏离时告警。一个突然走 10 倍步数的 agent 是一个有麻烦的 agent。
把轨迹连接到评测。 你的可观测性平台应当喂你的评测管线，反之亦然。没有评测的轨迹是你从不行动的数据；没有轨迹的评测是你无法调查的判决。
追踪每轨迹成本。 这是告诉你 agent 是否可行的数字。设每运行成本上限并在超支时告警。
必要时抽样，但永远不低于失败重建阈值。 你必须始终能从轨迹重建一个代表性失败，否则你无法 debug。
定期评审轨迹，不只失败时。 最好的团队也评审成功轨迹——了解好的长什么样，在微妙退化变成失败前抓住它。

我的看法

2026 的故事是：agent 可观测性是让自主系统值得信任的纪律。一个跑二十步没有观察的 agent 是一个你必须凭信念接受其输出的黑箱；一个有完整轨迹可观测性的 agent 是一个你能重建、debug、评测和改进其行为的系统。能上线生产 agent 的团队，是把可观测性当作自主的前提、而不是以后会加的 debug 工具的那些。如果你无法追踪你的 agent，你就无法信任你的 agent——而一个你无法信任的 agent 不属于生产。

如果你从本文只记一件事：从第一天起插桩每一步，追踪决策流而不只行动，把你的轨迹连接到你的评测管线。这是你愿意放到用户面前的 agent 的最低可行可观测性。

本文是生产 AI agent 架构集群的第三篇。从没有护栏的 agent 循环会失控起步看完整架构，然后上下文窗口是内存，不是存储看记忆层，再本篇看可观测性层。关于轨迹级评测如何融入你的更广评测管线，见 LLM 评测集群。想找厂商的常驻参考，见我们的 AI 价格数据页。