文章摘要
近年来,AI行业一直遵循着类似摩尔定律的规律,认为智能成本将持续大幅下降。然而,谷歌最近悄然打破了这一趋势,大幅提高了其热门模型Gemini 2.5 Flash的价格,并推出了性能较低但价格更低的“Gemini 2.5 Flash Lite”。这是主要供应商首次对已建立模型的价格进行回调,标志着行业成本不再无限下降,而是触及了基于当前硬件和软件条件的智能成本软底。本文将探讨LLM供应商的定价机制、谷歌此举的原因以及这一新生态的影响。
文章总结
文章《The End of Moore's Law for AI? Gemini Flash Offers a Warning》探讨了AI行业是否正在面临“摩尔定律”终结的问题,特别是通过Google最近对其Gemini 2.5 Flash模型的价格调整来展开分析。
主要内容总结:
AI行业的“摩尔定律”终结:
- 过去几年,AI行业一直遵循着类似摩尔定律的规律,即智能成本每年都会大幅下降。然而,Google最近对Gemini 2.5 Flash模型的价格调整打破了这一趋势。输入token的价格从每百万token 0.15美元翻倍至0.30美元,输出token的价格从每百万token 0.60美元涨至2.50美元。同时,Google推出了性能较低的“Gemini 2.5 Flash Lite”模型,定价更低。
LLM定价的复杂性:
- 文章深入分析了LLM(大型语言模型)服务定价的复杂性。表面上,LLM定价看似简单,按每百万输入和输出token的固定费率收费。但实际上,定价背后涉及硬件成本、模型架构、推理框架、工作负载形状(输入与输出token的比例)以及需求规划等多个因素。
工作负载的隐藏成本:
- LLM的工作负载成本呈二次方增长,随着序列长度的增加,计算量呈指数级上升。然而,API提供商通常按线性价格收费,这导致在处理长序列任务时,提供商的利润率大幅下降。
Google涨价的原因:
- 文章推测,Google涨价的原因可能是其最初对Gemini 2.5 Flash的工作负载和需求假设不准确。该模型原本定位为高效的“工作马”模型,适用于批处理任务(如摘要、分类和数据提取)。然而,这些任务通常具有较高的输入输出比,导致Google在原有定价下无法盈利。
成本平台的到来:
- Google的涨价行为揭示了LLM推理成本的“软底”,即成本不再无限下降。硬件瓶颈、模型性能的边际收益递减以及能源成本的上升,都使得AI行业的成本进入了平台期。
行业影响与应对策略:
- 成本成为固定约束:开发者需要将成本管理作为核心架构决策,而不是寄希望于未来的成本下降。
- 计算补贴的终结:其他提供商可能会效仿Google,调整定价以确保盈利,稳定定价的时代可能结束。
- 批处理和开源模型的经济性增强:对于非实时任务,批处理和开源模型(如Qwen3和Llama 3.3)提供了更具成本效益的解决方案。
OpenAI的o3模型降价:
- 文章提到,OpenAI在Google涨价的同时降低了o3模型的价格,但这并不意味着AI成本仍在下降。o3是前沿智能模型,与Gemini Flash的定位不同,且OpenAI可能通过优化或市场竞争压力来调整价格。
结论:
Google对Gemini 2.5 Flash的涨价不仅是商业决策,更是对整个市场的信号:AI智能成本的无限下降已经结束。面对这一新的成本现实,行业需要采取更智能的架构策略,尤其是通过批处理和开源模型来应对成本压力,继续推动AI项目的扩展。
评论总结
主要观点总结:
定价与成本的不匹配:
- 评论1指出,LLM API的定价是线性的,但计算成本是二次方的,特别是在输入提示的预填充阶段。KV缓存在解码阶段成为瓶颈,导致内存带宽限制了响应生成速度。
- 引用:“The O(n^2) compute cost is most acute during the one-time prefill of the input prompt.”
- 引用:“The speed of generating a response is therefore more limited by memory bandwidth.”
- 评论19强调定价不等于成本,Deepseek v3的定价有80%的利润率,而Gemini Flash的成本可能更低。
- 引用:“Deepseek has mentioned its price of 0.27/1.10 has 80% profit margin.”
- 评论1指出,LLM API的定价是线性的,但计算成本是二次方的,特别是在输入提示的预填充阶段。KV缓存在解码阶段成为瓶颈,导致内存带宽限制了响应生成速度。
Google的定价策略:
- 评论2指出,Google对Gemini 2.5 Flash的定价调整并非简单的涨价,而是取消了“非思考模式”,并调整了“思考模式”的价格。
- 引用:“The new 2.5 Flash has just a single price, which is a lot more if you were using the non-thinking mode.”
- 评论16认为Google之前的低价是为了吸引用户,现在产品成熟后可以调整价格。
- 引用:“Google were the underdog. Everyone was talking about ChatGPT, or maybe Anthropic.”
- 评论2指出,Google对Gemini 2.5 Flash的定价调整并非简单的涨价,而是取消了“非思考模式”,并调整了“思考模式”的价格。
模型的优化与未来趋势:
- 评论5提到,模型质量在提高,所需资源在减少,未来可能会有更高效的LLM运行在普通显卡上。
- 引用:“In 5-10 years, do we have an LLM that loads up on a 16-32GB video card that is simply capable of doing it all?”
- 评论25认为文章忽略了未来架构改进的可能性,如RWKV/Mamba2等。
- 引用:“The article assumes that there will be no architectural improvements / migrations in the future.”
- 评论5提到,模型质量在提高,所需资源在减少,未来可能会有更高效的LLM运行在普通显卡上。
文章的商业意图:
- 评论6和18指出,文章本质上是营销内容,带有销售意图。
- 引用:“If you’re building batch tasks with LLMs and are looking to navigate this new cost landscape, feel free to reach out to see how Sutro can help.”
- 引用:“This is a marketing blog, written with AI, heavily sensationalized.”
- 评论6和18指出,文章本质上是营销内容,带有销售意图。
其他观点:
- 评论12批评当前AI模型过于追求“全能”,而不是专注于特定任务。
- 引用:“Nobody can push for a smaller model that learns a few simple tasks and then build upon that.”
- 评论21建议提供更复杂的定价工具,让用户更好地理解成本。
- 引用:“People can understand the pricing anyway, even if more complex, by having a tool that let them select a prompt and a reply length and see the cost.”
- 评论12批评当前AI模型过于追求“全能”,而不是专注于特定任务。
总结:
评论主要围绕LLM API的定价与成本不匹配、Google的定价策略、模型优化与未来趋势、文章的商业意图等方面展开。部分评论支持文章的核心观点,认为定价与计算成本的二次方增长相关,而另一些评论则质疑文章的动机,认为其带有营销目的。此外,评论还讨论了未来模型架构改进的可能性以及当前AI模型的局限性。