如果你无法追踪你的 agent,你就无法信任你的 agent:2026 年 agent 可观测性生产指南
一个自主跑二十步的 agent,是一个你无法通过看最终输出来 debug 的系统。你需要看见每一步、每次工具调用、每个决策——完整轨迹。本文是经过来源核查的 2026 年生产 agent 可观测性指南:真正重要的三层指标(span/轨迹/会话)、工具格局(Langfuse、LangSmith、Arize、Datadog)、为什么大多数 LLM 可观测性工具漏掉了 agent 决策流,以及为什么可观测性不是锦上添花——它是信任一个自主系统上线的条件。
本文是生产 AI agent 架构集群的第三篇,完成 架构 → 记忆 → 可观测性 闭环。没有护栏的 agent 循环会失控 把可观测性命名为不可妥协的生产层。上下文窗口是内存,不是存储 展示了记忆工程如何塑造 agent 知道什么。本文关于 agent 用它知道的做什么——以及你如何看见它、debug 它、并在事后证明它行为正确。
我通读了 agent 可观测性文献后的结论很直接:一个没有可观测性的 agent 是一个你在生产里无法信任的 agent。最终输出告诉你 agent 决定了什么;它不告诉你为什么、它先试了什么、它在哪里错了、它是否遵循了你预期的路径。能上线生产 agent 的团队,是从第一天就插桩了每一步的那些——不是因为他们预期要 debug,而是因为他们知道,没有轨迹,事后 debug 一个自主多步系统是法医考古,不是工程。
为什么 agent 可观测性不同于 LLM 可观测性
2026 文献的一个关键洞见,由 Latitude 的平台分析阐述:大多数可观测性工具是为监控 LLM 补全构建的,不是为 agent。它们追踪输入和输出——prompt 和响应——但它们漏掉了 agent 决策流:agent 选了哪些工具、为什么选它们、传了什么参数、工具返回了什么、agent 如何反应、它决定接下来做什么。一个 agent 不是一个补全;它是一个由补全、工具调用和决策组成的轨迹,观察它要求观察轨迹,而不只是端点。
这就是为什么 agent 可观测性根本上是轨迹级的,而不是请求级的。你不是在问『这个 API 调用快且正确吗』你在问『这次二十步自主运行是否遵循了合理路径、在每一步做了好决策、从失败恢复、高效地到达了正确结果』这个问题无法通过记录输入输出来回答。它要求结构化轨迹,捕获每个 span——每次模型调用、每次工具调用、每个推理步骤——由父轨迹 ID 连接,让你重建完整执行 DAG。
真正重要的三层指标
综合 Augment Code 和 Braintrust 的指南,agent 可观测性分为三个指标层:
1. Span 级指标(每步)
每个单独步骤——一次模型调用、一次工具调用、一次记忆读取——是一个 span。对每个 span,追踪:
- Token 用量。 这步消耗了多少 token?对接 按任务成本可观测性。
- 延迟。 这步花了多久?工具调用,尤其是外部 API 调用,可能主导总延迟。
- 成功/失败。 工具是否成功返回?模型是否产出有效输出?
- 语义质量。 这步产出的是好结果,而不只是有效结果?这是 校准过的 LLM 评审 可以给单步打分的地方。
2. 轨迹级指标(每次运行)
轨迹是一次 agent 运行中 span 的完整序列。对每次轨迹,追踪:
- 步数。 agent 走了多少步?更多不是更好——它往往意味着 agent 在循环或挣扎。
- 路径效率。 agent 是否走了直达答案的路径,还是在不必要的步骤间迂回?
- 恢复率。 当工具调用失败或模型产出坏结果时,agent 恢复了,还是把错误复合了?
- 每轨迹成本。 所有 span 成本的总和。这是告诉你 agent 是否成本可行的数字。
3. 会话级指标(每次用户交互)
对多轮 agent,跨完整会话追踪:
- 任务完成率。 agent 真的解决了用户的问题吗?
- 总会话成本。 会话中所有轨迹成本的总和。
- 用户满意信号。 用户是否又问了同一个问题(失败信号),还是继续了(成功信号)?
工具格局(带诚实提醒)
2026 的 agent 可观测性工具已显著成熟。来自 Digital Applied、Braintrust 和 MLflow 的对比:
| 工具 | 优势 | 适合场景 |
|---|---|---|
| Langfuse | 开源、可自托管、强追踪+评测 | 需要数据驻留或自托管的团队;把评测集成进可观测性循环 |
| LangSmith | 深度 LangChain/LangGraph 集成、低开销 | 已在 LangChain 技术栈上的团队;如果用 LangGraph 集成最紧 |
| Arize | 生产监控 + ML 可观测性传承 | 想在现有 ML 监控旁边加 AI 可观测性的团队 |
| Datadog | 企业平台集成 | 已在 Datadog 做 APM、想在同一仪表板看 agent 轨迹的团队 |
| MLflow | 开源追踪 + 实验追踪 | 想把追踪与模型实验和版本管理绑定的团队 |
诚实提醒(跨集群一致):大多数『2026 最佳 agent 可观测性工具』对比都是厂商关联的。架构模型(追踪深度、评测集成、部署模式)可在各工具文档上验证;排名在你用自己的 agent 轨迹形状基准测试前应当当营销看。
文献的更深层洞见:工具不如『从第一天起打开追踪』的纪律重要。一个有基本 OpenTelemetry 插桩且愿意读轨迹的团队,胜过一个有最先进平台却没人看的团队。
营销稿不会写的锋利之处
几个值得知道的风险:
- 追踪增加开销。 你记录的每个 span 花延迟和存储。对高体量 agent,这会累积。如果开销是问题就抽样(追踪一定比例运行而非全部),但永远不要抽到无法重建代表性失败的程度。
- 大多数工具漏掉决策流。 一个记录了『模型调了 search(query=X)』但没记录『模型因为不确定决定搜索而不是直接回答』的工具,记录的是行动而非推理。决策才是你需要 debug 的;行动只是症状。
- 轨迹监控是抓住失控 agent 的护栏。 Monte Carlo 的轨迹监控让你定义预期执行模式,并在 agent 偏离时告警——一个突然走 50 步而不是 5 步的 agent 是一个在循环的 agent,轨迹监控在成本之前抓住它。
- 没有评测的可观测性是轨迹坟墓。 记录每一步是必要但不充分的。你还需要评测这些步骤是否好——把轨迹连接到你的 golden set 和 评测管线,否则你的轨迹是你从不行动的数据。
- 多 agent 追踪比单 agent 难。 当 agent 互相交接时,你需要一个跨完整 DAG 的父轨迹 ID,否则你得到无法重组的碎片。从一开始就插桩;事后加装很痛苦。
2026 年到底怎么建 agent 可观测性
实操路径:
- 从第一天起打开追踪。 每次模型调用、每次工具调用、每个决策步骤都用父轨迹 ID 记录。不要等到需要 debug 才打开;那时已太晚。
- 追踪三层指标。 span、轨迹和会话指标——不只一层。每层告诉你 agent 在哪失败的不同的东西。
- 插桩决策,不只行动。 记录 agent 为什么选择做某事,不只它做了什么。推理才是你 debug 的;行动是症状。
- 加轨迹监控。 定义预期执行模式,在偏离时告警。一个突然走 10 倍步数的 agent 是一个有麻烦的 agent。
- 把轨迹连接到评测。 你的可观测性平台应当喂你的评测管线,反之亦然。没有评测的轨迹是你从不行动的数据;没有轨迹的评测是你无法调查的判决。
- 追踪每轨迹成本。 这是告诉你 agent 是否可行的数字。设每运行成本上限并在超支时告警。
- 必要时抽样,但永远不低于失败重建阈值。 你必须始终能从轨迹重建一个代表性失败,否则你无法 debug。
- 定期评审轨迹,不只失败时。 最好的团队也评审成功轨迹——了解好的长什么样,在微妙退化变成失败前抓住它。
我的看法
2026 的故事是:agent 可观测性是让自主系统值得信任的纪律。一个跑二十步没有观察的 agent 是一个你必须凭信念接受其输出的黑箱;一个有完整轨迹可观测性的 agent 是一个你能重建、debug、评测和改进其行为的系统。能上线生产 agent 的团队,是把可观测性当作自主的前提、而不是以后会加的 debug 工具的那些。如果你无法追踪你的 agent,你就无法信任你的 agent——而一个你无法信任的 agent 不属于生产。
如果你从本文只记一件事:从第一天起插桩每一步,追踪决策流而不只行动,把你的轨迹连接到你的评测管线。这是你愿意放到用户面前的 agent 的最低可行可观测性。
本文是生产 AI agent 架构集群的第三篇。从 没有护栏的 agent 循环会失控 起步看完整架构,然后 上下文窗口是内存,不是存储 看记忆层,再本篇看可观测性层。关于轨迹级评测如何融入你的更广评测管线,见 LLM 评测集群。想找厂商的常驻参考,见我们的 AI 价格数据页。
来源
- Digital Applied:2026 AI agent 可观测性——追踪与监控栈指南
- Braintrust:2026 agent 可观测性完整指南
- Augment Code:AI agent 监控——2026 可观测性指南
- Monte Carlo:Agent 轨迹监控——确保 AI agent 走对路径
- Langfuse:AI agent 可观测性、追踪与评测
- Datadog:Agent 可观测性
- MLflow:2026 五大 LLM 与 agent 可观测性工具
- Confident AI:2026 六大 AI agent 可观测性平台
- Latitude:2026 十五大 AI agent 可观测性平台
- Stack AI:AI agent 可观测性与监控完整指南
- JetBrains:agent 监控的 LLM 评测与 AI 可观测性
- 我们的集群:没有护栏的 agent 循环会失控
- 我们的集群:上下文窗口是内存,不是存储
- 我们的评测集群:Pass@1 不是质量
- 我们的评测集群:LLM-as-judge 校准
- 我们的定价集群:按任务成本可观测性
相关阅读
『哪个 LLM 最好?』在 2026 年是错问题。没有最好的模型——只有对你特定任务、在你特定规模下、在你特定约束下最好的模型。本文是经过来源核查的生产 LLM 模型选择指南:四大前沿家族(GPT、Claude、Gemini、DeepSeek)、各自胜出的任务、框定每个决策的四个硬约束(隐私、延迟、成本、推理深度),以及为什么 2026 的主导模式是模型路由——并行使用多个模型,而非选一个赢家。
推销很诱人:自托管一个开源 LLM,就不用再付按 token 的 API 费了。现实是,一个最小自托管部署每年可能花 12.5 万–19 万美元,生产级部署可达数百万。本文是经过来源核查的 2026 年开源 vs 商业 LLM 总拥有成本指南:自托管的隐性成本(GPU、运维、推理优化、宕机)、自托管胜出的盈亏平衡量级,以及为什么大多数团队应从 API 开始、只在数学真的证明时才转向自托管。