2026 年 LLM API 价格战:谁真正在赢,开发者该怎么办
2026 年中,大模型实验室不再只在基准测试上竞争,而是把价格变成了主战场。多家主流媒体报道 OpenAI 正考虑大幅降价以争夺 Claude 用户;Google 把消费级订阅砍到 4.99 美元;DeepSeek V4 预览版号称以远低于 GPT-5.5 的成本达到接近的能力;以 Z.AI(GLM-5.2)为代表的中国实验室持续缩小差距。本文区分哪些是已验证的事实,哪些是噪音,并给出开发者在价格战中采购 API 的实操建议。
2026 年的故事并不是哪家实验室在智能上拉开了差距,而是整个市场不再把价格当作次要变量,而是把它变成了主战场。在大概一个月内,多家主流媒体都报道 OpenAI 正在考虑大幅下调 API 价格,以与 Anthropic 竞争并争夺 Claude 用户;Google 把消费级 AI 订阅从 7.99 美元砍到 4.99 美元;DeepSeek V4 进入预览,号称以远低于 GPT-5.5 的成本达到接近的推理能力;包括 Z.AI 的 GLM-5.2 在内,中国实验室持续缩小与美国头部厂商的差距。对于采购 API 的开发者来说,这是今年最重要的变化,也是最容易误读的变化。
我通读了目前能拿到的原始与二手资料后,结论是:价格战是真实的、结构性的;但社交媒体上"某家靠便宜 90% 干掉另一家"的叙事并不成立。更诚实的版本是:同等智能的价格在快速下降,没有任何一家厂商在价格上占据绝对主导;真正的实操动作,是构建"厂商可迁移"的工作流,而不是押注本周最便宜的那家。
哪些是已验证的事实(2026 年中)
先把原始媒体报道和内容农场的二手转发分开。
- OpenAI 正考虑降价。 2026 年 6 月,《华尔街日报》、Bloomberg、CNBC 都报道 OpenAI 正在考虑大幅下调价格,以与 Anthropic 竞争、争夺 Claude 用户。这些是一线商业媒体,报道的核心是"正在考虑",而不是 OpenAI 已经发布了新的官方价格表。社交网络上流传的具体百分比,在 OpenAI 官方价格页更新前都应视为未验证。
- Google 下调消费级档位。 Sherwood News 等媒体披露 Google 把入门级 AI Plus 订阅从 7.99 美元降到 4.99 美元/月。这是消费订阅层面的动作,并不直接等于 API 价格,但它说明 Google 愿意把价格当作武器,跨产品线一起打。
- DeepSeek V4 预览。 多家媒体报道 DeepSeek V4 预览版在 MMLU 上取得 91.3% 的成绩,在该基准上略超某 OpenAI 旗舰,成本号称比 GPT-5.5 低约 85%。这个基准分数应视为 DeepSeek 自报,直到独立评测确认;但成本方向与 DeepSeek 一贯的低价策略一致。
- 中国实验室在追平。 《纽约时报》报道,Z.AI 的 GLM-5.2(2026 年 6 月中旬发布)以及其他中国模型正在缩小差距,部分原因是美国企业正在主动寻找成本节降方案。这是来自一线商业报道的事实,而不是一张被反复转发的图表。
共同结论很清楚:每一个可信信号都指向同一个方向——同等智能的单 token 价格在快速下降,竞争已经从美国头部厂商(OpenAI、Anthropic、Google)扩展到激进的挑战者(DeepSeek、Z.AI/GLM、Kimi、Qwen)。
当前价格快照(请带着保留来看)
下表数据来自各厂商公开页面和二手聚合站,截至 2026 年中。API 价格变化很快,采购前请以官方价格页为准。聚合数据应视为指示性而非合同性。
| 厂商 | 代表模型 | 大致输入/输出(每百万 token) | 备注 |
|---|---|---|---|
| Gemini Flash-Lite | 约 $0.075 / $0.30 | 最便宜档位,适合大批量路由 | |
| Z.AI | GLM-5.2 | 约 $1.40 / $4 | 性价比突出,见我们的 AI 价格数据页 |
| Gemini 3.1 Pro | 约 $2 / $12 | 中端旗舰 | |
| OpenAI | GPT-5.4 | 约 $2.50 / $10 | 中端旗舰 |
| Anthropic | Claude Sonnet 4.6 | 约 $3 / $15 | 中端偏高 |
| Anthropic | Claude Opus 4.x | 约 $15 起 | 旗舰档 |
两个诚实的提醒。第一,"每百万 token 的输入/输出价"并不是账单的全部。你还要为缓存提示、长上下文、视觉输入、工具调用、批量折扣,以及——对 Agent 而言——多步运行带来的 token 放大付费。第二,最便宜的模型很少是正确的默认选项。一个便宜 5 倍但需要 3 倍 token 才能完成任务的模型,并不真的更便宜。
哪些是被夸大的
有几个说法值得怀疑:
- "成本崩塌了 90–97%。" 在多年时间尺度上方向上说得通,但病毒式图表几乎从不展示方法论或固定基准。诚实的版本是:在固定任务、同等智能下,真实价格确实下降了很多——但具体百分比完全取决于你比较的是哪两个模型。
- "某家现在最便宜,所以全部切过去。" 今天最便宜不代表下个月最便宜。各实验室是在相互反应中调价,名次表一直在动。真正的赢不是押中当前最便宜,而是当名次表变动时你能跟着动。
- "某基准证明某模型超越另一家。" DeepSeek V4 报出的 MMLU 数字确实亮眼,但 MMLU 只是一个基准。一个编码任务、一个长上下文检索任务、一个结构化输出任务,可能会把模型排出完全不同的名次。价格战是真的;基准战比看上去更吵。
发布稿里不会写的锋利之处
在 2026 年采购 API 意味着要承担一些不那么显眼的风险:
- 价格是移动靶,但你的代码不是。 如果你因为某家上周最便宜就把路由硬编码到它身上,那么每次名次表翻转你都在吃差价。模型路由应当是配置项,而不是重构工程。
- 更便宜的 token 可能意味着"更多"的 token。 会循环、重试、自我纠错的 Agent 工作流,其总 token 消耗可能远高于一次更强的单次模型调用。单价下降并不能保护你,如果调用次数在上升。
- 区域和账号风险现在直接影响价格。 如果你依赖的某家厂商在某地区被封锁或限流,你的"有效"价格会瞬间跳到次优厂商的价格——或者,如果你没有兜底,跳到无穷大。多样性不只是可靠性手段,也是控价手段。
- 厂商锁定藏在 SDK 里。 某家厂商的 SDK、函数调用形状、微调管线嵌进你代码越深,为了 30% 的价差而迁移就越难。"可迁移性"本身有真实的美元价值。
在价格战中到底该怎么买
我会给在 2026 年中采购 API 的团队这样的建议:
- 在你真实任务上定义"够用",而不是看榜单。 用你自己的工作负载——你自己的提示、你自己的评测、你自己的延迟预算——跑一遍,挑出在你这些任务上能跨过质量门槛的最便宜模型。
- 把路由当作一等公民。 用网关、路由器,或者至少一层薄抽象,让你能在价格变动时把流量在厂商之间迁移。如果切换厂商是一个多周的工程,那你即便没参战,也已经在输这场价格战了。
- 追踪总成本,而不是单价。 按任务记录输入 token、输出 token、重试次数、工具调用次数、缓存命中。单价最便宜的厂商,一旦把重试和长上下文填充算进去,往往在单任务成本上输掉。
- 至少保持两家厂商"热备"。 一家主路由,一家作为价格尖峰和宕机双重兜底。维护第二家集成的成本很小;在价格战中没有兜底的成本很大。
- 读原始来源,而不是聚合图表。 厂商价格页、官方发布说明、一线商业报道(WSJ、Bloomberg、NYT)能告诉你的,远比被反复转发的信息图多。
我的看法
2026 年的 LLM 价格战对开发者确实是好事——但只对那些为它做好准备的人。如果你把价格当作一次性决策——"选一家最便宜的厂商然后翻篇"——你每季度都要给自己的技术栈重新定价,并且会很痛苦。如果你把厂商选择当作一个持续的、可逆的决策——路由层、多厂商兜底、按任务核算成本——那么每一次降价都变成一笔意外之财,而不是一次迁移工程。
价格战之下更深的故事是:智能被商品化的速度,比厂商能筑起护城河的速度更快。这正是可迁移性会赢的原因。2026 年真正占便宜的团队,不是押中了正确实验室的那些,而是架构能扛过接下来至少三次价格翻转的那些——因为接下来至少还会有三次。
如果你想找一个本文涉及厂商的常驻参考表,包括我们站点跟踪的那些,可以看我们的 AI 价格数据页。它是种子策展、并经后台纠错审核的,并不是实时市场行情,但作为厂商横向对比的起点很有用。想看"如何在这些厂商之间路由而不重写代码"的实操姐妹篇,见 别再硬编码单一 LLM 厂商:2026 年 API 路由与 fallback 实操指南。本主题集群的第三篇——如何真正测出每个任务跨厂商、重试、工具调用花了你多少钱——见 按 token 计费在骗你:2026 年按任务核算 LLM 成本的可观测性指南。
来源
相关阅读
你的 RAG demo 在三个 PDF 上跑得好好的,一上真实语料就崩。这不是谜,这是把检索当默认设置、而非工程决策的可预见代价。2026 年的行业分析发现,当 RAG 失败时,失败点十次有七次在检索——不在生成。本文是经过来源核查的 2026 年生产 RAG 诊断指南:它到底在哪坏(chunking、embedding、检索、陈旧),定位故障的指标,以及为什么 RAG 没有消除幻觉,只是把它搬到了一个更难看见的地方。
Chunking 是 RAG 管线里杠杆最高、却被对待得最轻的决策,而大多数团队把它留在默认值。本文是经过来源核查的 2026 指南——真正重要的五种 chunking 策略(固定、递归、语义、晚、命题式),何时用哪种,检索质量权衡,以及为什么正确答案永远不是『教程用什么我就用什么』。