开源不是免费:2026 年自托管 vs API LLM 的生产 TCO 指南
推销很诱人:自托管一个开源 LLM,就不用再付按 token 的 API 费了。现实是,一个最小自托管部署每年可能花 12.5 万–19 万美元,生产级部署可达数百万。本文是经过来源核查的 2026 年开源 vs 商业 LLM 总拥有成本指南:自托管的隐性成本(GPU、运维、推理优化、宕机)、自托管胜出的盈亏平衡量级,以及为什么大多数团队应从 API 开始、只在数学真的证明时才转向自托管。
本文是 LLM 模型选择集群的第二篇,承接 2026 年没有最好的 LLM。那一篇把模型选择框定为跨四个约束的组合决策。本文深入探讨造成最多混淆的约束:成本——具体来说,把『开源』当『免费』的错误经济。
我通读了 TCO 文献后的结论很直接:团队在 LLM 模型选择中犯的最昂贵的单一错误,是假设自托管开源模型是免费的,因为没有按 token 的 API 费。永远有按 token 的成本;在自托管中,它们只是隐藏在 GPU 租赁、运维工资、推理基础设施和你的自托管模型凌晨 3 点宕机时没人值班所吃的宕机时间里。把这件事做对的团队,是那些跑了完整 TCO 数学——不只 API 账单——并只在他们的体量证明固定成本合理时才选择自托管的那些。
自托管的隐性成本
从业者文献中的『开源 LLM 昂贵谎言』框架值得认真对待。一个最小的内部自托管部署估计每年 12.5 万–19 万美元,生产级部署可达 600 万–1200 万+。钱花在哪了?
-
GPU 基础设施。 前沿级开源模型(Llama 4、DeepSeek V4)需要严肃硬件——多块 H100 或同等。无论你租云 GPU 还是自购,这都是主导成本线。GPU 定价波动且供应受限。
-
推理优化。 原始模型权重不够。你需要推理引擎(vLLM、TensorRT-LLM、TGI)、量化、批处理、以及可能跨多 GPU 的模型并行。这是随模型权重不免费附赠的专业工程工作。
-
运维与可靠性。 谁保持推理服务器运行?谁处理故障、扩缩容、更新和安全补丁?一个自托管 LLM 是一个生产服务,生产服务需要值班、监控和事件响应。这是大多数团队忘记预算的成本。
-
宕机与机会成本。 当你的自托管模型宕了,你的产品就宕了(或回退到更贵的 API)。商业 API 厂商提供 SLA;你的自托管部署提供的是你的运维团队能交付的任何东西。
-
模型更新与维护。 开源模型会更新。每次更新可能需要重新部署、重新量化、重新基准测试、以及可能重新调优你的推理管线。这是持续工作,不是一次性设置成本。
自托管何时真胜出
自托管不总是错的——当体量足够大、基础设施固定成本比 API 调用可变成本低时它胜出。盈亏平衡取决于你的使用模式:
-
高体量、可预测工作负载。 如果你每天处理数百万 token、模式可预测,自托管的按 token 成本(摊销 GPU + 运维)可能低于 API 定价。这是 TCO 数学真正有利于自托管的地方。
-
数据隐私要求。 如果监管或合同约束禁止把数据发给第三方 API,自托管不是一个成本决策——它是一个合规决策。TCO 是合规的代价。
-
云 API 无法满足的延迟要求。 如果你需要亚 50ms 推理延迟的实时功能,本地部署模型可能是满足 SLA 的唯一选项。
-
定制与微调。 如果你需要 API 厂商不支持的深度微调或自定义架构,自托管给你 API 无法匹配的控制力。
诚实框定:自托管在规模下、约束下、或定制需求下胜出。对大多数团队在大多数体量下,API 一旦你算入完整 TCO 就更便宜——因为 API 厂商在把 GPU 和运维成本摊销到数千客户上,而你不是。
我会用的决策框架
- 从 API 开始。 使用商业 API(或通过 API 的免费层开源模型),直到你有真实生产体量数据。不要在投机上自托管。
- 追踪你的真实按任务成本。 用 按任务成本可观测性 准确知道你今天在 API 调用上花了多少。
- 诚实地计算自托管 TCO。 包括 GPU、推理工程、运维、宕机风险和模型维护。不要只比较 GPU 成本和 API 成本。
- 找盈亏平衡体量。 在什么 token 体量下自托管 TCO 低于 API 成本?如果你当前体量远低于那个,留在 API。
- 当体量增长或约束变化时重新评估。 盈亏平衡随你的体量增长、GPU 价格变化和新开源模型到来而移动。每季度重访数学。
锋利之处
- "开源"不意味着"无厂商锁定"。 如果你围绕 Llama 的推理怪癖或 DeepSeek 的工具调用形状深度构建,切换到另一个开源模型不是免费的。无论你用开源还是商业模型,都建 路由抽象。
- 能力差距是真实的。 2026 年最好的开源模型在最难任务上接近但不等于最好的商业模型。如果你的 评测 显示有意义的质量差距,自托管的成本节省可能不值质量损失。
- 安全是双向的。 自托管消除了你的数据发给第三方的风险——但它引入了你运行未打补丁、有漏洞的推理服务器的风险。安全不是自托管的自动附赠;它是一组不同的责任。
- 混合模式越来越常见。 许多生产团队对低体量、高难度任务跑商业 API,对高体量、低难度任务跑自托管开源模型——基于 任务类型和成本 路由。这捕获了两者的最佳,而不承诺一个。
我的看法
2026 的故事是:开源 vs 商业的决策是一个 TCO 问题,不是意识形态问题。做对的团队不选边;他们跑数学,从 API 开始,当体量证明固定成本合理时才转到自托管。开源强大——但它不免费,把它当免费就是你最终拿到一张你没预算的 20 万美元 GPU 账单、一个没人知道怎么 debug 的推理服务器、和一个宕机比在线时间还多的产品的方式。
如果你从本文只记一件事:从 API 开始,追踪你的真实成本,只在 TCO 数学证明你的体量下它更便宜时才自托管。API 厂商在补贴你的 GPU 和运维成本;不要在不得不放弃那个补贴之前就放弃它。
本文是 LLM 模型选择集群的第二篇。从 2026 年没有最好的 LLM 起步看组合框架,再本篇看开源 vs 商业的 TCO 维度,然后 当小模型才是对的模型 看尺寸维度。关于如何追踪驱动这个决策的按任务成本,见 按任务成本可观测性指南。想找带当前定价的厂商常驻参考,见我们的 AI 价格数据页。
来源
- SitePoint:开源 vs 商业 LLM——完整指南(2026)
- Medium (Devansh):开源 LLM 昂贵的谎言
- Taskade:2026 九大开源 AI LLM 排名
- WhatLLM:2026 最佳开源 LLM 排名 + Ollama 指南
- Let's Data Science:2026 开源 LLM——Llama 3.3 vs Llama 4 对比
- BentoML:导航开源 LLM 的世界
- LushBinary:2026 年 4 月最佳开源 LLM
- 我们的集群:2026 年没有最好的 LLM
- 我们的定价集群:按任务成本可观测性
- 我们的定价集群:API 路由与 fallback
- 我们的定价集群:2026 LLM API 价格战
- 我们的评测集群:Pass@1 不是质量
相关阅读
『哪个 LLM 最好?』在 2026 年是错问题。没有最好的模型——只有对你特定任务、在你特定规模下、在你特定约束下最好的模型。本文是经过来源核查的生产 LLM 模型选择指南:四大前沿家族(GPT、Claude、Gemini、DeepSeek)、各自胜出的任务、框定每个决策的四个硬约束(隐私、延迟、成本、推理深度),以及为什么 2026 的主导模式是模型路由——并行使用多个模型,而非选一个赢家。
2026 年数据显示,小语言模型现在在特定任务上已匹配甚至超越前沿 LLM——而成本和延迟只是其零头。然而大多数团队默认用最大的模型,为他们不需要的能力超付。本文是经过来源核查的小 vs 前沿决策指南:SLM 到底是什么(Phi、Gemma、Qwen)、何时胜出(分类、抽取、格式化、高体量任务)、何时落败(开放式推理、广泛知识),以及为什么 2026 的模式是在两者之间路由,而非选一个。