刚刚阅读时长 12 分钟

你的评测只和你的 golden set 一样好：2026 年构建决定一切的评测数据集指南

你用的每一个 LLM 评测框架、评审、指标，都只和你用来验证它的标注例子一样可靠——而大多数团队在工具上重投、在那个真正决定评测能否预测现实的资产上轻投。本文是经过来源核查的 2026 年 LLM 评测 golden set 构建指南：里面该有什么、产出一个有代表性集合的三个来源、让标签可信的标注纪律，以及防止 golden set 腐烂成废物的维护习惯。

人工智能 developer-tools 模型新闻

LLM golden set 构建封面

这是 LLM 评测与质量集群的第二篇，承接 Pass@1 不是质量：超越单一分数的 LLM 输出评测。那一篇讲的是什么——多维评测、LLM-as-a-judge、工具格局。本文讲的是让这一切生效的前提：你用来验证一切的、标注好的 golden set 例子。如果第一篇说"你的标量指标在骗你"，这一篇就是说"你真正指标背后的数据集，才是你赢或输的地方"。

我通读了从业者文献后的结论很直接：golden set 才是全部，而大多数团队把它当事后补丁。他们花几周在 DeepEval、Promptfoo、Ragas 之间挑，然后一个下午标五十个例子，再奇怪为什么评测预测不了生产。框架是仪器；golden set 是信号。好框架配坏 golden set，产出的是自信地错的数字。 mediocre 框架配好 golden set，仍然能抓住真正重要的回归。按此投资。

Golden set 到底是什么

Golden set 是一个精心策展、版本化的输入、上下文、预期输出（或评分量表）、以及元数据的集合，作为评测你 LLM 系统的真值（ground truth）。关键词是策展、版本化、真值。

策展。 它不是生产流量的随机倾倒。它是刻意构建的，覆盖重要的场景——常见路径、边界情况、你以前见过、想再次抓住的失败模式。
版本化。 它随时间变化，且每个变化都被追踪。一个悄悄漂移的 golden set 会破坏可复现性：你分不清分数变了是因为模型变了，还是因为集合变了。
真值。 每个例子有一个预期输出，或对开放式任务有一个人类（以及后来的评审）可以据以打分的评分量表。没有这个，你有一个数据集；你没有评测。

DeepEval 的文档把这说得很清楚：你数据集里的"goldens"在评测时被转换成测试用例。Golden set 是每一个跑的测试的前身。如果 goldens 是错的，建立在它们之上的每个测试都是错的。

产出一个有代表性集合的三个来源

最强的从业者指导——在 Galtea 2026 评测指南里有很好的总结——是：一个有效的 golden set 结合三个来源，不是一个：

覆盖已知边界情况的人工例子。 这些是你知道难的输入：模糊的查询、对抗的 prompt、分布外的输入、上个季度搞崩生产的那个案例。你刻意写它们，因为光靠生产流量会低估它们。
真实生产样本，PII 已脱敏。 这些把集合锚定在现实里。从真实用户流量抽样，让输入分布匹配你的系统在生产里看到的，而不是你想象的。存储前脱敏个人可识别信息。
填补覆盖空白的合成例子。 在你有盲区的地方——一类你没怎么见过但预期会增长的输入——生成合成例子填补空白。在人类评审并提升它们为"gold"之前，把它们当"silver"。

团队犯的错是只靠一个来源。只用人工例子的集合错过真实分布。只用生产流量的集合错过导致事故的稀有边界情况。只用合成数据的集合两者都错过。有代表性的集合是混合体。

到底怎么建，分步

综合 Maxim AI 的分步指南和相关从业者资料，下面是我会跑的协议：

第 1 步——先定义范围、目标、指标。 标注任何一个例子前，先决定你评测什么（哪个功能、哪个任务类型）、"好"是什么意思（你在 pass@1 那篇里的质量轴）、以及你要跑哪些指标。没有定义范围建出来的 golden set 会变成杂物抽屉。

第 2 步——从上述三个渠道获取。 拉几百个例子：约 50–100 个人工边界情况、一个分层抽样的真实生产流量、以及已知盲区的合成填充。Weights & Biases wandbot 案例是有用的参考点——他们从 800+ 真实用户问题里抽了几百个金标查询。这个量级（几百，不是几千）是大多数团队该起步的地方。

第 3 步——标注前先写标注指南。 这是大多数团队跳过、不该跳的一步。用白纸黑字写下每个标签什么意思、如何处理模糊案例、"3/5"和"5/5"分别长什么样。dev.to 的评测数据集构建指南对评分量表设计有很好的讲解。没有书面指南，每个标注者用自己隐含的量表，你的标签就是噪音。

第 4 步——标注，然后衡量标注者一致性。 让至少两个人标一个子集，并衡量标注者间一致性。如果两个人类对正确标签意见不一致，你的评审也会——而这种不一致是信号，说明你的量表需要磨利，而不是你的标注者不行。

第 5 步——把 goldens 转成测试用例并跑评测。 这里是框架（DeepEval、Promptfoo、你自己的）消费集合的地方。把当前模型和候选模型对着集合跑，打分，看它们在哪与真值不一致——而不只是看总分。

第 6 步——对集合本身迭代。 Golden set 不是上线时就完成了。每次生产事故、每个用户报告的坏输出、每个新失败模式都是候选例子。加进去、标注、给集合版本化。一个不长的 golden set 会停止预测现实。

营销稿不会写的锋利之处

投资 golden set 前值得知道的几个风险：

不刷新，golden set 会腐烂。 生产流量在漂移；用户行为在变；新失败模式在出现。上线时冻结的集合，几个月内就会停止代表你系统实际面对的东西。把刷新节奏建进流程——月或季，取决于流量体量。
标签噪音是真实的、且会累积。 即便有书面指南和一致性检查，有些标签会是错的。定期复审一批旧标签；六个月前"显而易见"的标签，有时正是今天悄悄误导你评测的那些。
边界情况被设计性地过度代表——读分数时记住这点。 你的 golden set 按构造比生产有更多难案例。一个边界覆盖很重的 golden set 上的 70% 分，可能对应生产里 95% 的成功率。不要把 golden set 分数和生产成功率当作同一个指标比较。
PII 与保密性。 真实生产样本常含敏感数据。存储前脱敏，并应用和生产系统一样的数据处理纪律。泄露 PII 的 golden set 是负债，不是资产。
合成数据会固化你的盲区。 如果你从一个模型生成合成例子，那个模型的假设就成了你数据集的假设。在人类复审前，把合成例子当临时的。
没有校准闭环的 golden set 只建了一半。 一旦有了集合，你就能用它校准 LLM-as-judge——这是把评测扩展到人力无法手评规模的桥梁。那个校准部分（本集群自然的第三篇）把 golden set 从静态基准变成活的评测系统。

它如何对接整个技术栈

Golden set 不是孤立的工件。它是让你的其余评测和生产纪律生效的基础：

它验证你的 LLM-as-a-judge：没有人类标注的集合校准，你无法判断你的评审可不可靠。
它门禁路由与 fallback 决策：当你问"对这个任务，模型 A 是否好过模型 B"，golden set 给你一个可辩护的答案，而不是感觉。
它与按任务成本可观测性配对：质量（来自 golden set）+ 成本（来自可观测性）是哪个任务路由到哪个模型的完整决策矩阵。
它锐化 AI 编码 agent 评测：同样的原则——代表性覆盖、书面量表、一致性检查、刷新——适用于你在那里建的代码库评测集。

我的看法

2026 的故事是：评测质量瓶颈在数据质量，不在工具。那些评测真的能预测生产的团队，是在精心策展、版本化、多来源、有书面标注指南和刷新节奏的 golden set 上投资的那些——不是挑了"最佳"框架的那些。框架可替换；一个好的 golden set 随时间复利增值，因为每个变成标注例子的事故都让每一次未来评测更诚实。

如果 2026 年你只建一个评测资产，就建 golden set。它是后续每一个指标、每一个评审、每一个模型选择决策的前提。其他一切都下游于它。

本文是 LLM 评测与质量集群的第二篇。关于超越单一分数的多维评测的基础论证，见 Pass@1 不是质量。第三篇——如何拿着一个 golden set 把你的 LLM 评审校准到真正与人类一致——见未校准的 LLM 评审只是装饰。关于你的 golden-set 支撑的评测解锁的成本与路由决策，见 LLM 定价集群：价格战分析、路由与 fallback 实操指南、按任务成本可观测性指南。关于这些原则在编码 agent 上的专门应用，见 AI 编码 agent 评测指南。想找厂商的常驻参考，见我们的 AI 价格数据页。