Hacker News 中文摘要

RSS订阅

Mistral发布Devstral 2(72.2% SWE-Bench认证)及Vibe CLI -- Mistral Releases Devstral 2 (72.2% SWE-Bench Verified) and Vibe CLI

文章摘要

Mistral AI发布了新一代代码模型Devstral 2系列,包含123B和24B两个版本,均采用开源许可。Devstral 2在SWE-bench测试中达到72.2%准确率,成本效率比Claude Sonnet高7倍。同时推出Mistral Vibe CLI工具,支持终端自动化编程任务。小模型可在消费级硬件本地部署,大模型目前提供免费API访问。

文章总结

标题:Devstral 2与Mistral Vibe CLI正式发布

核心内容: 1. 模型发布 - 推出新一代代码模型家族Devstral 2,包含两个版本: * Devstral 2(123B参数):采用修改版MIT许可 * Devstral Small 2(24B参数):采用Apache 2.0许可 - 当前可通过API免费使用

  1. 核心优势
  • 在SWE-bench测试中:
    • Devstral 2达到72.2%准确率
    • Devstral Small 2达到68.0%准确率
  • 成本效益:
    • 比Claude Sonnet节省高达7倍成本
    • 参数规模仅为竞品的1/5至1/41
  1. Mistral Vibe CLI工具
  • 开源终端命令行工具
  • 支持功能:
    • 多文件代码修改
    • 架构级上下文理解
    • Git集成与版本控制
    • 可配置主题和自动补全
  1. 部署方案
  • Devstral 2:需至少4块H100级GPU
  • Devstral Small 2:支持消费级GPU和CPU部署
  • 即将支持NVIDIA NIM部署
  1. 商业信息
  • 免费期结束后API定价:
    • Devstral 2:$0.40/$2.00(输入/输出每百万token)
    • Devstral Small 2:$0.10/$0.30
  1. 生态合作
  • 已集成至Zed IDE插件
  • 与Kilo Code、Cline等开发工具达成合作

(注:原文中的图片链接及部分技术细节已精简,保留了核心产品特性和关键数据)

评论总结

以下是评论内容的总结:

  1. 对Mistral的积极评价

    • 用户赞赏Mistral保持独立,未出售给大公司,认为这对欧盟有利。
    • 引用:"I'm so glad Mistral never sold out. We're really lucky to have them in the EU..." (tucnak)
    • 用户认为Mistral在价格和性能上有竞争力,正在追赶行业领先者。
    • 引用:"Less than a year behind the SOTA, faster, and cheaper. I think Mistral is mounting a good recovery." (esafak)
  2. 对Vibe CLI工具的质疑

    • 多名用户认为"Vibe CLI"名称不专业,暗示其生成的代码缺乏严谨性。
    • 引用:"'Vibe CLI' sounds like an unserious tool... you can obviously not vibe your way to excellency" (embedding-shape)
    • 用户希望有更专业的工具,而不仅仅是"氛围编程"。
    • 引用:"Where are the professional tools, meant to be used for people who don't want to do vibe-coding?" (embedding-shape)
  3. 技术细节讨论

    • 用户对模型大小的表示方式提出疑问。
    • 引用:"How is that a measure of model size? It should either be parameter size..." (whimsicalism)
    • 用户询问基准测试结果的来源。
    • 引用:"Does anyone know where their SWE-bench Verified results are from?" (alexmorley)
  4. 许可和商业模式的担忧

    • 用户指出修改后的MIT许可证对大型公司有限制,可能不符合真正的开源精神。
    • 引用:"the 'Modified MIT license'... doesn't look particularly permissively licensed" (badsectoracula)
    • 用户对缺乏个人订阅选项表示失望。
    • 引用:"I am very disappointed they don't have an equivalent subscription for coding..." (kevin061)
  5. 价格优势的认可

    • 用户注意到其价格比Claude便宜10倍,认为这是卖点。
    • 引用:"10x cheaper price per token than Claude... that's a good selling point." (pzmarzly)
  6. 工具集成建议

    • 用户建议应该贡献给现有工具,而不是创建新CLI。
    • 引用:"Why does every AI provider need to have its own tool, instead of contributing to existing tools..." (jedisct1)
  7. 实际使用示例

    • 用户展示了使用该模型生成SVG的示例,认为效果不错。
    • 引用:"Pretty good for a 123B model!" (simonw)