Hacker News 中文摘要

RSS订阅

克劳德巨作 4.1 -- Claude Opus 4.1

文章摘要

Anthropic发布了Claude Opus 4.1,该版本在代理任务、实际编码和推理能力上进行了升级,尤其在代码重构和大规模代码库的精确修正方面表现突出。Opus 4.1现已面向付费用户和API平台提供,定价与Opus 4相同。该版本在编码性能上达到了74.5%的SWE-bench Verified评分,并在深度研究和数据分析能力上有所提升。

文章总结

标题:Claude Opus 4.1 发布

主要内容:

Anthropic 公司今日发布了 Claude Opus 4.1,这是对 Claude Opus 4 的升级,主要提升了在代理任务、实际编码和推理方面的性能。未来几周内,公司还计划推出更大幅度的模型改进。

Claude Opus 4.1 现已面向付费用户和 Claude Code 用户开放,同时也在 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上提供,定价与 Opus 4 相同。

主要改进:

  1. 编码性能提升:在 SWE-bench Verified 测试中,Claude Opus 4.1 的编码性能达到了 74.5%,显著优于前代版本。
  2. 深度研究与数据分析:新版本在细节跟踪和代理搜索方面表现尤为突出。
  3. 多文件代码重构:GitHub 指出,Opus 4.1 在多文件代码重构方面有显著提升。
  4. 精准调试:Rakuten Group 发现,Opus 4.1 能够在大规模代码库中精确定位并修正错误,且不会引入不必要的调整或错误,非常适合日常调试任务。
  5. 开发者基准测试:Windsurf 报告称,Opus 4.1 在其初级开发者基准测试中比 Opus 4 提升了一个标准差,性能提升幅度与从 Sonnet 3.7 升级到 Sonnet 4 相当。

如何开始使用:

Anthropic 建议所有用户从 Opus 4 升级到 Opus 4.1。开发者可以通过 API 使用 claude-opus-4-1-20250805 来体验新版本。更多信息可参考 Anthropic 的系统卡模型页面定价页面文档

反馈与未来计划:

Anthropic 鼓励用户通过 feedback@anthropic.com 提供反馈,以帮助公司进一步改进模型。未来,Anthropic 将继续推出更强大的模型版本。

附录:

  • 数据来源:包括 OpenAI、Gemini 和 Claude 的相关发布信息。
  • 基准测试报告:Claude 模型为混合推理模型,测试结果展示了在有或无扩展思考情况下的最高得分。
  • TAU-bench 方法论:通过增加提示语,鼓励模型在解决问题时写下其思考过程,以更好地利用其推理能力。
  • SWE-bench 方法论:Claude 4 系列模型继续使用简单的工具集,包括 bash 工具和文件编辑工具,不再包含 Claude 3.7 Sonnet 使用的“规划工具”。

评论总结

评论主要围绕以下几个方面展开:

  1. 模型性能与成本

    • 许多评论认为Opus的性能提升不明显,且成本过高,与Sonnet相比性价比低。例如,minimaxir指出:“Sonnet 3.7和Sonnet 4生成的token数量是Opus 4的17倍。” ramesh31也表示:“Opus的成本/性能比完全不可用,与Sonnet相比几乎没有明显差异,但价格却高出近10倍。”
  2. 模型改进与期待

    • 部分评论对未来的模型改进表示期待。steveklabnik提到:“我们计划在未来几周内发布对模型的重大改进。” 然而,haaz则认为:“根据他们自己的基准测试,改进微乎其微,不足以让人注意到任何差异。”
  3. 用户体验与困惑

    • 一些用户对如何开始使用这些模型感到困惑。ryandrake表示:“我超级困惑,不知道如何开始尝试这些东西。有太多选择路径,让人不知所措。” jzig也提到:“我对Opus在编码方面的优越性感到困惑,因为普遍共识和我自己的经验都认为Sonnet要好得多。”
  4. 发布时机与竞争

    • 评论中提到多个实验室几乎同时发布新模型,引发了对竞争和发布时机的讨论。qsort评论道:“三大实验室在几小时内相继发布了新东西,这个‘动漫剧情’太疯狂了。” NitpickLawyer则调侃道:“在OpenAI发布开源模型时宣布,真是有点厚脸皮。”
  5. 开源与透明度

    • 有评论批评Anthropic从未开源其模型,认为这使其在透明度上不如OpenAI。rvz指出:“Anthropic从未开源任何模型,这使他们在开放性方面比OpenAI更差。”

总结:评论中对Opus的性能提升和成本效益持怀疑态度,同时对未来的改进表示期待。用户在使用过程中感到困惑,并对发布时机和开源问题提出了批评。