Hacker News 中文摘要

RSS订阅

MiMo-v2.5-Pro-UltraSpeed:每秒1000令牌的1T模型 -- MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second

文章摘要

小米发布MiMo-V2.5-Pro-UltraSpeed模型,首次实现万亿参数模型每秒1000令牌的解码速度,大幅提升AI推理效率。该技术使模型响应达到实时交互水平,目前提供限时API访问。

文章总结

小米MiMo探索与热爱:突破千兆参数模型生成速度1000 TPS大关

2026年6月8日,小米正式发布MiMo-V2.5-Pro-UltraSpeed,首次在万亿参数(1T)模型上实现每秒1000 token的解码速度,标志着AI推理速度进入全新纪元。

【核心突破】 1. 速度革命 - 生成速度达约1200 tokens/s(对比视频演示) - API限时开放(2026.6.9-6.23),采用申请制,优先企业及专业开发者 - 试用期免费体验聊天功能(每日10次排队上限,单次30分钟)

  1. 技术协同创新 通过模型-系统协同设计,在标准8-GPU节点实现突破:
  • FP4量化技术:仅对MoE专家模块进行4位量化,保持原始模型能力
  • DFlash推测解码:块级掩码并行预测,编码场景接受长度达6.30
  • TileRT超低延迟系统:持久化引擎内核+异构流水线协作,消除微秒级执行间隙

【应用变革】 • 实时决策:高频量化交易、医疗影像分析等关键场景 • 编程效率:代码生成速度实现范式级提升 • 思维深度:并行推理路径自验证,提升思考质量

【资源获取】 - 开源模型:HuggingFace已发布MiMo-V2.5-Pro-FP4-DFlash检查点 - 商务合作:business-mimo@xiaomi.com

(演示案例:10秒生成贪吃蛇游戏/1分钟复现MacOS界面)

这项突破源于小米MiMo团队与TileRT系统团队的深度协同,通过算法与基础设施的极致配合,让万亿模型真正进入实时交互时代。更多技术细节可访问TileRT技术博客。

评论总结

以下是评论内容的总结:

1. 模型性能与速度

主要观点:MiMo-2.5-Pro在生成速度和性能上表现突出,部分用户认为这是LLM发展的新方向。
关键引用
- "The generation speed in the demo video is crazy... The Xiaomi team really brought something to the table."(maxloh)
- "Speed is indeed a next big thing... The possibilities with current models but 1000 times faster would be super useful."(holoduke)

2. 价格与性价比

主要观点:尽管速度提升3倍,但价格仍被认为具有竞争力,尤其是与其他提供商相比。
关键引用
- "Multiplying that by 3x for ultra speed is still shockingly cheap."(kingstnap)
- "The margins are getting quite compressed... But still fairly decent."(minraws)

3. 技术实现与优化

主要观点:部分用户对技术细节(如MTP算法、量化模型)提出疑问,认为质量可能因优化而下降。
关键引用
- "Seems like they utilize some very effective MTP algorithm... but for general uses the heavily quantized models very often so worse result."(npn)
- "42B active params, sliding window attention. There's your tradeoff."(moffkalast)

4. 应用场景与用户体验

主要观点:高速模型可能改变工作流程,尤其是在实时交互和语音应用方面。
关键引用
- "A fast agent feels more like a partner... type 'make the fonts bigger' and see it change in real time."(eli)
- "This will be really powerful for voice... your latency budget is so tight."(prplfsh)

5. 市场与竞争

主要观点:中国提供商的优化可能改变市场格局,部分用户对限时发布和资源分配表示担忧。
关键引用
- "These price and speed optimization from Chinese providers... will change the game sooner than later."(amunozo)
- "The gated 'ultra-speed' phenomenon... makes me worry for the future of competition."(h14h)

6. 质疑与批评

主要观点:部分用户认为速度并非瓶颈,或对过度追求增长和速度表示不解。
关键引用
- "Speed here is not a bottleneck."(pullshark91)
- "We're already operating at 50x speed... I am sometimes my own bottleneck."(harel)

7. 其他观察

主要观点:有用户注意到AI生成评论的现象,或对服务可用性表示不满。
关键引用
- "I’m more fascinated by the amount of AI generated comments in this thread!"(Oras)
- "Service unavailable... Come back when you are ready for the users."(trilogic)

总结:评论普遍认可MiMo-2.5-Pro的速度和性价比,但也对技术实现、市场竞争和用户体验提出了多样化的观点。