Hacker News 中文摘要

RSS订阅

当前大语言模型成本为何不可持续 -- Why current LLM costs are not sustainable

文章摘要

许多公司正面临高昂的AI成本,如Uber四个月内耗尽全年AI预算,微软等企业也在削减相关支出。前沿模型性能优异但价格昂贵,例如GPT 5.5每百万输入/输出token分别收费5美元和30美元,作者仅修复50个文件的TypeScript类型就花费了54美元。

文章总结

许多公司正因高昂的AI成本而陷入困境。例如,优步在短短4个月内就耗尽了全年的AI预算,而微软、Salesforce和GitHub等企业也在采取措施,限制员工在AI方面的支出。

另一方面,AI正让许多编程任务变得异常简单,并在数据解读、制作精美幻灯片、设计应用和网站等领域持续提供帮助。目前,大型AI实验室拥有所谓的“前沿模型”,这些模型在各类任务中表现极为出色。前沿AI实验室既进行研发,也自行托管模型,因此这些模型的成本最高。以GPT 5.5为例,其输入令牌每百万个收费5美元,输出令牌每百万个收费30美元,根据OpenRouter的数据,这是目前最昂贵的模型。举个例子,仅用该模型对50个文件进行TypeScript类型修复,就花了我54美元。

模型性能提升趋缓、开源权重模型发布、芯片与模型改进、零转换成本以及本地模型等因素,可能导致AI实验室难以维持当前的高定价。如今,每次模型发布都有改进,但改进幅度越来越小。除非出现全新的突破,否则当前的学习和推理能力只能有限扩展。此外,训练数据也面临问题:大多数AI实验室可能已吸收了数字和印刷媒体中所有可用的内容,进一步优化训练数据集将变得非常困难。

这意味着,因性能提升而持续涨价的趋势将难以为继。例如,Claude Opus 4.8与Claude Opus 4.7价格相同。一旦模型性能不再大幅提升,且训练数据和方法趋于相似,模型价格很可能因竞争而下降。OpenAI在2022年推出ChatGPT时曾拥有巨大领先优势,但这一优势正逐渐消失,Anthropic在2025-26年已占据领先地位。如今,像GLM-5.2这样的开源权重模型在编程基准测试中超越了GPT和Opus,而其成本仅为GPT 5.5的十分之一。

目前的情况是,领先的AI实验室不仅收取推理费用,还涵盖了模型架构研究、训练数据收集与整理、模型训练成本(可能高达数千万甚至数亿美元)、员工薪酬以及营销成本。相比之下,一旦开源权重模型发布,任何推理提供商都能轻松托管,仅需在推理成本上加价即可,这比运营前沿AI实验室便宜得多。

Cerebras、Groq、谷歌等公司已意识到AI需要专用芯片,而普通GPU无法满足需求。专用芯片设计成本极高,但一旦架构就绪,大规模生产便轻而易举,推理成本也会大幅降低。例如,TPU的成本比英伟达H100 GPU低30%至70%。这类进步将持续涌现,不断降低每令牌的成本。模型架构也在演变,从基本的缓存改进到MoE模型等新方法,使模型在保持相同精度的同时速度更快。

传统软件如Windows操作系统、MS Office、Adobe套件以及Salesforce、Hubspot、Figma等SaaS产品,拥有AI模型所不具备的重要护城河:它们不可互换。更换一个CRM系统需要数月时间,而非一个下午。随着更多AI实验室进入市场,更多开源权重模型出现,这一因素将导致价格迅速暴跌。像OpenRouter.ai这样的AI网关提供商使模型切换变得极其简单,可在几秒内完成,甚至可编程实现实时切换提供商。零转换成本意味着,一旦出现更好的模型,消费者无需投入时间即可切换。

最后,也是最重要的因素,是用户运行本地模型的能力。目前,几乎所有人都在使用云端托管模型,本地模型要么太大难以部署,要么太慢无法使用。随着芯片技术的进步,这一情况将在4-5年内改变。新型芯片将支持本地运行模型,而RAM价格几乎必然下跌,使模型能轻松部署在电脑和智能手机上。我预测,大多数操作系统将提供模型部署方式,并配备接口,使本地运行的应用能连接模型。届时,云端模型将仅用于最复杂的任务,而代码补全、校对和事实核查等简单任务将在本地完成。这意味着,用户将不再需要每月20美元或200美元的订阅费。

这是我个人层面的第一篇博客,其中做出了一些大胆的预测。时间会证明这些预测是否准确,但有一点是确定的:由于上述一个或多个原因,价格压力将出现,而最终受益的将是消费者。

评论总结

根据评论内容,主要观点和论据总结如下:

1. 成本不可持续与价格下降趋势 - 多数评论认为当前AI模型(尤其是前沿模型)的token成本过高,且不可持续。评论者指出,OpenAI和Anthropic等公司的高定价部分源于研发和基础设施成本,但市场存在更便宜的替代方案(如DeepSeek Flash、Qwen等),且随着开源模型和硬件优化,价格必然下降。 - 关键引用:"If all of global spend on Anthropic/OpenAI/Gemini APIs just switches over to DeepSeek then easily we can decrease total AI spend by 10x"(评论6);"Curren prices will come down. There is a lot of potential for optimization."(评论10)

2. 本地部署与开源模型的崛起 - 评论者普遍看好本地运行模型的前景,认为专用硬件(如LLM-on-a-chip)和开源模型将大幅降低使用成本,并提升隐私性。但部分人指出,当前本地模型在性能上仍落后于前沿云模型,且企业部署面临硬件、冷却等挑战。 - 关键引用:"I really believe that in the near-term future we will run our LLMs in hardware, not in software."(评论7);"Running local models is easy for me, for sure not that easy for any company."(评论1)

3. 模型能力是否在“平台期”存在分歧 - 部分评论认为模型改进速度放缓,但另一部分人强烈反对,指出近期GPT-5.4、Claude Fable等模型仍有显著提升。有观点认为,所谓“平台期”实为模型已足够满足大多数任务需求。 - 关键引用:"This is obviously untrue, both with GPT-5.4, and Claude Fable as examples in the last 6 months."(评论9);"It wasn't until late last year that we even had strong coding models."(评论30)

4. 使用场景与成本效率的错配 - 多位评论者批评用户滥用前沿模型处理简单任务(如类型修复),导致成本虚高。他们认为,通过合理编排(如路由到更便宜的模型)可大幅降低开支,且当前成本与人力成本相比仍具竞争力。 - 关键引用:"a surprisingly large fraction of production workloads can be handled by smaller models with the right scaffolding."(评论14);"Who in hell would actually do this? That's a level of problem that any of the flash-class models can solve."(评论21)

5. 对行业泡沫与商业模式的质疑 - 部分评论质疑AI行业的估值泡沫,认为前沿实验室的定价策略不可持续,且可能面临市场崩溃。但也有观点认为,通过订阅制或补贴模式,用户实际支付远低于按token计费。 - 关键引用:"OpenAI and Anthropic will just go back to entirely healthy valuations of ~$5-10B each"(评论5);"This 'Tokenmaxxing' marketing stunt was a scam for the frontier models to raise even more money at unsustainable valuations."(评论19)

6. 对文章本身的评价 - 少数评论认为文章缺乏新意或数据支撑,对HN受众价值有限。 - 关键引用:"Would prefer not to offend the author, but I do believe this article has very little for the HN audience."(评论11)