Hacker News 中文摘要

文章摘要

Anthropic发布了Claude Opus 4.1，该版本在代理任务、实际编码和推理能力上进行了升级，尤其在代码重构和大规模代码库的精确修正方面表现突出。Opus 4.1现已面向付费用户和API平台提供，定价与Opus 4相同。该版本在编码性能上达到了74.5%的SWE-bench Verified评分，并在深度研究和数据分析能力上有所提升。

文章总结

标题：Claude Opus 4.1 发布

主要内容：

Anthropic 公司今日发布了 Claude Opus 4.1，这是对 Claude Opus 4 的升级，主要提升了在代理任务、实际编码和推理方面的性能。未来几周内，公司还计划推出更大幅度的模型改进。

Claude Opus 4.1 现已面向付费用户和 Claude Code 用户开放，同时也在 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上提供，定价与 Opus 4 相同。

主要改进：

编码性能提升：在 SWE-bench Verified 测试中，Claude Opus 4.1 的编码性能达到了 74.5%，显著优于前代版本。
深度研究与数据分析：新版本在细节跟踪和代理搜索方面表现尤为突出。
多文件代码重构：GitHub 指出，Opus 4.1 在多文件代码重构方面有显著提升。
精准调试：Rakuten Group 发现，Opus 4.1 能够在大规模代码库中精确定位并修正错误，且不会引入不必要的调整或错误，非常适合日常调试任务。
开发者基准测试：Windsurf 报告称，Opus 4.1 在其初级开发者基准测试中比 Opus 4 提升了一个标准差，性能提升幅度与从 Sonnet 3.7 升级到 Sonnet 4 相当。

如何开始使用：

Anthropic 建议所有用户从 Opus 4 升级到 Opus 4.1。开发者可以通过 API 使用 claude-opus-4-1-20250805 来体验新版本。更多信息可参考 Anthropic 的系统卡、模型页面、定价页面和文档。

反馈与未来计划：

Anthropic 鼓励用户通过 feedback@anthropic.com 提供反馈，以帮助公司进一步改进模型。未来，Anthropic 将继续推出更强大的模型版本。

附录：

数据来源：包括 OpenAI、Gemini 和 Claude 的相关发布信息。
基准测试报告：Claude 模型为混合推理模型，测试结果展示了在有或无扩展思考情况下的最高得分。
TAU-bench 方法论：通过增加提示语，鼓励模型在解决问题时写下其思考过程，以更好地利用其推理能力。
SWE-bench 方法论：Claude 4 系列模型继续使用简单的工具集，包括 bash 工具和文件编辑工具，不再包含 Claude 3.7 Sonnet 使用的“规划工具”。

评论总结

评论主要围绕以下几个方面展开：

模型性能与成本：
- 许多评论认为Opus的性能提升不明显，且成本过高，与Sonnet相比性价比低。例如，minimaxir指出：“Sonnet 3.7和Sonnet 4生成的token数量是Opus 4的17倍。” ramesh31也表示：“Opus的成本/性能比完全不可用，与Sonnet相比几乎没有明显差异，但价格却高出近10倍。”
模型改进与期待：
- 部分评论对未来的模型改进表示期待。steveklabnik提到：“我们计划在未来几周内发布对模型的重大改进。” 然而，haaz则认为：“根据他们自己的基准测试，改进微乎其微，不足以让人注意到任何差异。”
用户体验与困惑：
- 一些用户对如何开始使用这些模型感到困惑。ryandrake表示：“我超级困惑，不知道如何开始尝试这些东西。有太多选择路径，让人不知所措。” jzig也提到：“我对Opus在编码方面的优越性感到困惑，因为普遍共识和我自己的经验都认为Sonnet要好得多。”
发布时机与竞争：
- 评论中提到多个实验室几乎同时发布新模型，引发了对竞争和发布时机的讨论。qsort评论道：“三大实验室在几小时内相继发布了新东西，这个‘动漫剧情’太疯狂了。” NitpickLawyer则调侃道：“在OpenAI发布开源模型时宣布，真是有点厚脸皮。”
开源与透明度：
- 有评论批评Anthropic从未开源其模型，认为这使其在透明度上不如OpenAI。rvz指出：“Anthropic从未开源任何模型，这使他们在开放性方面比OpenAI更差。”

总结：评论中对Opus的性能提升和成本效益持怀疑态度，同时对未来的改进表示期待。用户在使用过程中感到困惑，并对发布时机和开源问题提出了批评。

克劳德巨作 4.1 -- Claude Opus 4.1

文章摘要

文章总结

评论总结