Hacker News 中文摘要

文章摘要

许多公司正面临高昂的AI成本，如Uber四个月内耗尽全年AI预算，微软等企业也在削减相关支出。前沿模型性能优异但价格昂贵，例如GPT 5.5每百万输入/输出token分别收费5美元和30美元，作者仅修复50个文件的TypeScript类型就花费了54美元。

文章总结

许多公司正因高昂的AI成本而陷入困境。例如，优步在短短4个月内就耗尽了全年的AI预算，而微软、Salesforce和GitHub等企业也在采取措施，限制员工在AI方面的支出。

另一方面，AI正让许多编程任务变得异常简单，并在数据解读、制作精美幻灯片、设计应用和网站等领域持续提供帮助。目前，大型AI实验室拥有所谓的“前沿模型”，这些模型在各类任务中表现极为出色。前沿AI实验室既进行研发，也自行托管模型，因此这些模型的成本最高。以GPT 5.5为例，其输入令牌每百万个收费5美元，输出令牌每百万个收费30美元，根据OpenRouter的数据，这是目前最昂贵的模型。举个例子，仅用该模型对50个文件进行TypeScript类型修复，就花了我54美元。

模型性能提升趋缓、开源权重模型发布、芯片与模型改进、零转换成本以及本地模型等因素，可能导致AI实验室难以维持当前的高定价。如今，每次模型发布都有改进，但改进幅度越来越小。除非出现全新的突破，否则当前的学习和推理能力只能有限扩展。此外，训练数据也面临问题：大多数AI实验室可能已吸收了数字和印刷媒体中所有可用的内容，进一步优化训练数据集将变得非常困难。

这意味着，因性能提升而持续涨价的趋势将难以为继。例如，Claude Opus 4.8与Claude Opus 4.7价格相同。一旦模型性能不再大幅提升，且训练数据和方法趋于相似，模型价格很可能因竞争而下降。OpenAI在2022年推出ChatGPT时曾拥有巨大领先优势，但这一优势正逐渐消失，Anthropic在2025-26年已占据领先地位。如今，像GLM-5.2这样的开源权重模型在编程基准测试中超越了GPT和Opus，而其成本仅为GPT 5.5的十分之一。

目前的情况是，领先的AI实验室不仅收取推理费用，还涵盖了模型架构研究、训练数据收集与整理、模型训练成本（可能高达数千万甚至数亿美元）、员工薪酬以及营销成本。相比之下，一旦开源权重模型发布，任何推理提供商都能轻松托管，仅需在推理成本上加价即可，这比运营前沿AI实验室便宜得多。

Cerebras、Groq、谷歌等公司已意识到AI需要专用芯片，而普通GPU无法满足需求。专用芯片设计成本极高，但一旦架构就绪，大规模生产便轻而易举，推理成本也会大幅降低。例如，TPU的成本比英伟达H100 GPU低30%至70%。这类进步将持续涌现，不断降低每令牌的成本。模型架构也在演变，从基本的缓存改进到MoE模型等新方法，使模型在保持相同精度的同时速度更快。

传统软件如Windows操作系统、MS Office、Adobe套件以及Salesforce、Hubspot、Figma等SaaS产品，拥有AI模型所不具备的重要护城河：它们不可互换。更换一个CRM系统需要数月时间，而非一个下午。随着更多AI实验室进入市场，更多开源权重模型出现，这一因素将导致价格迅速暴跌。像OpenRouter.ai这样的AI网关提供商使模型切换变得极其简单，可在几秒内完成，甚至可编程实现实时切换提供商。零转换成本意味着，一旦出现更好的模型，消费者无需投入时间即可切换。

最后，也是最重要的因素，是用户运行本地模型的能力。目前，几乎所有人都在使用云端托管模型，本地模型要么太大难以部署，要么太慢无法使用。随着芯片技术的进步，这一情况将在4-5年内改变。新型芯片将支持本地运行模型，而RAM价格几乎必然下跌，使模型能轻松部署在电脑和智能手机上。我预测，大多数操作系统将提供模型部署方式，并配备接口，使本地运行的应用能连接模型。届时，云端模型将仅用于最复杂的任务，而代码补全、校对和事实核查等简单任务将在本地完成。这意味着，用户将不再需要每月20美元或200美元的订阅费。

这是我个人层面的第一篇博客，其中做出了一些大胆的预测。时间会证明这些预测是否准确，但有一点是确定的：由于上述一个或多个原因，价格压力将出现，而最终受益的将是消费者。

评论总结

根据评论内容，主要观点和论据总结如下：

1. 成本不可持续与价格下降趋势 - 多数评论认为当前AI模型（尤其是前沿模型）的token成本过高，且不可持续。评论者指出，OpenAI和Anthropic等公司的高定价部分源于研发和基础设施成本，但市场存在更便宜的替代方案（如DeepSeek Flash、Qwen等），且随着开源模型和硬件优化，价格必然下降。 - 关键引用："If all of global spend on Anthropic/OpenAI/Gemini APIs just switches over to DeepSeek then easily we can decrease total AI spend by 10x"（评论6）；"Curren prices will come down. There is a lot of potential for optimization."（评论10）

2. 本地部署与开源模型的崛起 - 评论者普遍看好本地运行模型的前景，认为专用硬件（如LLM-on-a-chip）和开源模型将大幅降低使用成本，并提升隐私性。但部分人指出，当前本地模型在性能上仍落后于前沿云模型，且企业部署面临硬件、冷却等挑战。 - 关键引用："I really believe that in the near-term future we will run our LLMs in hardware, not in software."（评论7）；"Running local models is easy for me, for sure not that easy for any company."（评论1）

3. 模型能力是否在“平台期”存在分歧 - 部分评论认为模型改进速度放缓，但另一部分人强烈反对，指出近期GPT-5.4、Claude Fable等模型仍有显著提升。有观点认为，所谓“平台期”实为模型已足够满足大多数任务需求。 - 关键引用："This is obviously untrue, both with GPT-5.4, and Claude Fable as examples in the last 6 months."（评论9）；"It wasn't until late last year that we even had strong coding models."（评论30）

4. 使用场景与成本效率的错配 - 多位评论者批评用户滥用前沿模型处理简单任务（如类型修复），导致成本虚高。他们认为，通过合理编排（如路由到更便宜的模型）可大幅降低开支，且当前成本与人力成本相比仍具竞争力。 - 关键引用："a surprisingly large fraction of production workloads can be handled by smaller models with the right scaffolding."（评论14）；"Who in hell would actually do this? That's a level of problem that any of the flash-class models can solve."（评论21）

5. 对行业泡沫与商业模式的质疑 - 部分评论质疑AI行业的估值泡沫，认为前沿实验室的定价策略不可持续，且可能面临市场崩溃。但也有观点认为，通过订阅制或补贴模式，用户实际支付远低于按token计费。 - 关键引用："OpenAI and Anthropic will just go back to entirely healthy valuations of ~$5-10B each"（评论5）；"This 'Tokenmaxxing' marketing stunt was a scam for the frontier models to raise even more money at unsustainable valuations."（评论19）

6. 对文章本身的评价 - 少数评论认为文章缺乏新意或数据支撑，对HN受众价值有限。 - 关键引用："Would prefer not to offend the author, but I do believe this article has very little for the HN audience."（评论11）

当前大语言模型成本为何不可持续 -- Why current LLM costs are not sustainable

文章摘要

文章总结

评论总结