Hacker News 中文摘要

RSS订阅

Cerebras发布Qwen3-235B,实现每秒1500个令牌处理速度 -- Cerebras Launches Qwen3-235B, Achieving 1,500 Tokens per Second

文章摘要

Cerebras推出了Qwen3-235B模型,支持131K上下文,成为全球最快的前沿AI推理模型。该模型在推理云平台上提供生产级代码生成,速度比闭源替代品快30倍,成本仅为十分之一。Qwen3-235B采用高效的专家混合架构,显著提升了计算效率,大幅缩短了推理时间,从分钟级降至秒级,为企业AI部署带来了革命性变革。

文章总结

Cerebras推出全球最快的AI推理模型Qwen3-235B,支持131K上下文长度

2025年7月8日,巴黎 — Cerebras Systems今日宣布在其推理云平台上推出支持131K上下文长度的Qwen3-235B模型。这一里程碑标志着AI模型性能的重大突破,结合了前沿智能与前所未有的速度,成本仅为闭源模型的十分之一,彻底改变了企业AI部署的方式。

前沿智能在Cerebras平台上的表现

根据Artificial Analysis的独立测试,阿里巴巴的Qwen3-235B模型在科学、编程和通用知识基准测试中表现优异,与Claude 4 Sonnet、Gemini 2.5 Flash和DeepSeek R1等前沿模型相媲美。

Qwen3-235B采用了高效的专家混合架构,提供了卓越的计算效率,使得Cerebras能够以每百万输入标记0.60美元和每百万输出标记1.20美元的价格提供该模型,成本仅为同类闭源模型的十分之一。

推理时间从分钟缩短至秒

推理模型通常速度较慢,往往需要几分钟才能回答一个简单问题。通过利用Wafer Scale Engine,Cerebras将Qwen3-235B的推理速度提升至前所未有的每秒1,500个标记,将响应时间从1-2分钟缩短至0.6秒,使得编程、推理和深度RAG工作流程几乎瞬间完成。

根据Artificial Analysis的测量,Cerebras是全球唯一一家提供每秒生成超过1,000个标记的前沿AI模型的公司,为实时AI性能设定了新标准。

131K上下文长度支持生产级代码生成

随着此次发布,Cerebras将其上下文长度支持从32K扩展到131K标记,这是Qwen3-235B支持的最大长度。这一扩展直接影响了模型处理大型代码库和复杂文档的能力。虽然32K上下文足以应对简单的代码生成用例,但131K上下文使模型能够同时处理数十个文件和数万行代码,从而实现生产级应用程序开发。

这一增强的上下文长度意味着Cerebras现在直接进军企业代码生成市场,这是生成式AI中最大且增长最快的领域之一。

与Cline的战略合作

为了展示这些新功能,Cerebras与Cline合作,Cline是Microsoft VS Code上领先的代理编码工具,拥有超过180万次安装。Cline用户现在可以直接在编辑器中访问Cerebras的Qwen模型,首先是64K上下文的Qwen3-32B免费版本。未来将扩展到支持131K上下文的Qwen3-235B,提供比DeepSeek R1等替代方案快10-20倍的代码生成速度。

Cline的CEO Saoud Rizwan表示:“通过Cerebras的推理,使用Cline的开发者可以一窥未来,Cline能够近乎实时地推理问题、阅读代码库并编写代码。一切都发生得如此之快,开发者可以保持流畅的思维迭代。这种快速推理不仅仅是锦上添花,它向我们展示了当AI真正与开发者同步时所能实现的可能性。”

以30倍速度和十分之一成本提供前沿智能

通过此次发布,Cerebras大幅扩展了其推理服务,为寻求OpenAI和Anthropic替代方案的开发者提供了具有可比模型智能和代码生成能力的开放选择。此外,Cerebras提供了全球其他AI提供商(无论是闭源还是开源)无法实现的功能:每秒超过1,500个标记的即时推理速度,将开发者的生产力提升了一个数量级。所有这些都以领先闭源模型十分之一的标记成本提供。

关于Cerebras Systems

Cerebras Systems由一群开创性的计算机架构师、计算机科学家、深度学习研究人员和各类工程师组成。我们致力于通过从头构建新型AI超级计算机来加速生成式AI的发展。我们的旗舰产品CS-3系统由全球最大、最快的商用AI处理器Wafer-Scale Engine-3驱动。CS-3系统可以快速轻松地集群在一起,构建全球最大的AI超级计算机,并通过避免分布式计算的复杂性,使模型部署变得极其简单。Cerebras推理提供了突破性的推理速度,使客户能够创建尖端的AI应用。领先的企业、研究机构和政府使用Cerebras解决方案开发突破性的专有模型,并训练拥有数百万次下载的开源模型。Cerebras解决方案可通过Cerebras云和本地部署获得。更多信息,请访问cerebras.ai或在LinkedIn、X和Threads上关注我们。

媒体联系:PR@zmcommunications.com

评论总结

评论主要围绕以下几个方面展开:

  1. 模型支持与更新

    • 有评论指出新闻可能过时,建议支持最新的Qwen 3 405B模型(评论2、4)。
    • 评论14提到,大家希望Qwen 3 coder能有类似的速度和成本优势,成为Sonnet 3的替代品。
  2. 速度与性能

    • 评论3和评论15都提到模型的速度令人印象深刻,但40K的上下文窗口限制了其可用性。
    • 评论6期待Qwen 3 coder在Cerebras上的表现,认为高速推理在代码迭代中会带来显著优势。
  3. 硬件成本与可扩展性

    • 评论9详细分析了Cerebras芯片的成本问题,指出其高昂的价格(每芯片300万美元)限制了其可扩展性,相比之下,DGX B200系统更具成本效益。
    • 评论11认为,除非能在普通硬件上实现类似速度,否则技术尚未成熟。
  4. 技术前景与创新

    • 评论8赞扬Cerebras的技术成就,认为其前瞻性令人印象深刻。
    • 评论9和评论11都提到,AI硬件仍需几代发展才能实现更高效、更便宜的模型推理。
  5. 模型可靠性与偏见

    • 评论12质疑模型是否仍存在不可靠和幻觉输出的问题。
    • 评论15则关注Qwen和Kimi等模型在审查和偏见方面的表现。

关键引用: - 评论2:"Would be great if they support the latest Qwen 3 405B launched yesterday and more aimed at agentic work/coding."(如果能支持昨天发布的Qwen 3 405B,并且更专注于代理工作/编码,那就太好了。) - 评论9:"It's not very scalable unless you have some ultra high value task that need super fast inference speed."(除非你有需要超快推理速度的超高价值任务,否则它的可扩展性并不高。) - 评论14:"I think the gist of this thread is entirely: 'please do the same for Qwen 3 coder'"(我认为这个帖子的主旨完全是:“请对Qwen 3 coder做同样的事情”。)