Hacker News 中文摘要

RSS订阅

MiniMax M2.5发布:SWE-bench验证得分80.2% -- MiniMax M2.5 released: 80.2% in SWE-bench Verified

文章摘要

MiniMax推出新一代AI模型M2.5,在编程、工具使用、办公等实际任务中表现优异,处理速度比前代提升37%,成本大幅降低至每小时1美元,实现高效经济的人工智能应用。

文章总结

MiniMax发布M2.5模型:更快、更强、更智能,专为实际生产力场景打造

2026年2月12日,MiniMax正式推出新一代基础模型M2.5。该模型通过数十万复杂现实环境的强化学习训练,在编程、工具调用、办公等经济价值场景实现突破性进展:

核心性能表现 - 编程基准测试:SWE-Bench Verified得分80.2%,Multi-SWE-Bench 51.3% - 搜索能力测试:BrowseComp得分76.3%(含上下文管理) - 任务执行速度:较M2.1提升37%,与Claude Opus 4.6持平 - 成本效益:100 token/秒时每小时仅需1美元,50 token/秒时降至0.3美元

技术突破 1. 编程能力 - 新增架构师级规划能力,可进行系统设计分解 - 支持10+编程语言的全生命周期开发 - VIBE-Pro基准测试表现与Opus 4.5相当 - 在Droid和OpenCode测试框架下超越Opus 4.6

  1. 搜索与工具调用
  • BrowseComp和Wide Search基准测试领先业界
  • 研发RISE评估体系验证专业级搜索能力
  • 任务处理轮次减少20%,推理效率显著提升
  1. 办公场景
  • 与金融、法律等领域专家共建训练体系
  • GDPval-MM评估框架显示59%的平均胜率
  • 深度优化Word/PPT/Excel等办公套件支持

技术创新 - 强化学习规模扩展:构建数十万训练环境 - Forge框架:实现40倍训练加速 - CISPO算法保障MoE模型稳定性 - 过程奖励机制优化长上下文信用分配

产品应用 - 已全面部署至MiniMax Agent平台 - 支持标准化Office Skills与行业专家模板组合 - 用户已创建超10,000个定制化Expert - 公司内部30%日常任务由M2.5自主完成

成本优势 - 提供M2.5和M2.5-Lightning双版本 - 输出成本仅为Opus/Gemini 3 Pro/GPT-5的5%-10% - 四实例全年持续运行成本仅10,000美元

该模型标志着MiniMax在实现"低成本智能"目标上取得重大进展,为智能体应用开发提供了近乎无限的可能性。完整技术细节将通过后续技术博客公布。

(注:原文中所有图片链接及附录的详细测试方法说明已省略,保留核心数据指标和关键技术描述)

评论总结

以下是评论内容的总结:

正面评价

  1. 性价比高:用户认为MiniMax模型速度快、成本低,适合工具调用和编码任务。

    • "It costs just $1 to run the model continuously for an hour at 100 tokens/sec. At 50 tokens/sec, the cost drops to $0.30."
    • "M2.5 [...] costs half that. Both model versions support caching. Based on output price, the cost of M2.5 is one-tenth to one-twentieth that of Opus, Gemini 3 Pro, and GPT-5."
  2. 开源模型的进步:部分用户认为开源模型(如MiniMax)在编码任务上表现接近商业模型(如Sonnet 4.5),是重大进步。

    • "A reasonably sized OSS model that's this good at coding is a HUGE step forward."
    • "OSS models are catching up."

负面评价

  1. 性能质疑:部分用户对MiniMax的基准测试结果表示怀疑,认为其实际表现不如宣传,尤其在编码任务中容易出错。

    • "I've never found MiniMax remotely competent. It's always been extremely brittle, tended to screw up edits and misformat even simple JavaScript code."
    • "Artificial Analysis put MiniMax 2.1 Coding index on 33, far behind frontier models and I feel it's about right."
  2. 功能缺陷:用户指出模型在代码测试和修改中存在逻辑问题,例如生成无意义的测试报告或错误修改现有代码。

    • "MiniMax 2 and 2.1 have the strong tendency to reward hacking, often write nonsensical test report while the tests actually failed."
    • "It changed the existing code base to make its new code 'pass', when it actually should fix its own code instead."

中立/其他观点

  1. 对基准测试的谨慎态度:用户认为基准测试需结合模型的实际表现和实验室的历史记录来判断可信度。

    • "The benchmarks look too good to be true [...] it's hard to say how actually novel they are."
    • "I'm more cautious about benchmark claims."
  2. 本地化与专业化需求:有用户提出希望有更轻量级或专注于特定语言/框架的模型,以降低成本。

    • "Wouldn't it be nice if we have language specific llms that work on average computers."
    • "Maybe I have no idea what I'm talking about lol."
  3. 价格争议:部分用户认为虽然成本较低,但实际使用场景(如24/7运行)的经济性仍需验证。

    • "This is about $1/hour to run, which is about what I pay for claude code on $200/mo plan."
    • "I'm not sure about it right now. I would be curious if anyone has anything they would literally use running 24/7."

总结

评论中,MiniMax模型因其高性价比和开源特性受到部分用户推崇,但其性能(尤其是编码能力)和基准测试的可信度也遭到质疑。此外,用户对模型的本地化、专业化以及实际成本效益提出了多样化需求。