Hacker News 中文摘要

RSS订阅

克劳德·奥普斯4.7 -- Claude Opus 4.7

文章摘要

Claude Opus 4.7正式发布,在高级软件工程任务上显著优于4.6版本,能独立处理最复杂的编程工作,严格遵循指令并自我验证输出。新模型提升了图像识别分辨率,在专业文档、幻灯片制作上更具创造性和审美性。虽然整体能力不及Claude Mythos预览版,但在多项基准测试中表现优于4.6版本。

文章总结

克劳德Opus 4.7正式发布:AI模型在复杂任务中的重大突破

核心升级

  1. 工程能力显著提升

    • 在高级软件工程任务中表现优异,尤其擅长处理以往需要人工监督的复杂编码工作。
    • 能够严格遵循指令,并在输出前自我验证结果,确保准确性。
  2. 视觉能力增强

    • 支持更高分辨率的图像识别(长边最高2,576像素),适用于技术图表解析、屏幕截图分析等场景。
  3. 多领域性能优化

    • 在金融、法律等专业领域表现突出,生成的分析报告、演示文稿质量更高。
    • 在基准测试中全面超越Opus 4.6,部分任务解决率提升13%以上。

安全与部署

  • 网络安全限制:通过自动检测和拦截高风险请求的保障措施,为后续Mythos级模型的广泛发布积累经验。
  • 适用场景:已开放至Claude全平台、API及主流云服务(如Amazon Bedrock、Google Vertex AI),定价与Opus 4.6相同(输入每百万token 5美元,输出25美元)。

用户反馈亮点

  • 金融科技:加速开发流程,提升财务解决方案的交付速度。
  • 代码审查:错误检测率提高10%,覆盖更复杂的代码问题。
  • 多步工作流:工具调用准确性提升14%,故障恢复能力更强。

其他更新

  • 新增控制选项:引入xhigh努力级别,优化推理与延迟的平衡。
  • 任务预算功能(Beta):开发者可引导模型的token消耗,优先处理长期任务。

注意事项

  • 迁移影响:新版分词器可能导致输入token增加1-1.35倍,建议参考官方迁移指南调整提示词。

相关链接Claude Opus 4.7系统卡 | 网络安全验证计划

(注:原文中大量企业测试案例及图片数据因篇幅限制未完全呈现,此处保留核心结论。)

评论总结

以下是评论内容的总结,平衡呈现不同观点:

  1. 对Opus 4.7安全限制的批评

    • 认为自动拦截高风险网络安全请求的功能会削弱研究防御能力:"This decision is potentially fatal... You need symmetric capability to research and prevent attacks" (Kim_Bruning)
    • 用户抱怨此前版本已存在过度过滤问题:"Opus would... block requests every time something remotely medical/biological showed up" (ACCount37)
  2. 对模型性能的质疑

    • 多个用户反映4.6版本质量下降:"how bad 4.6 was... hallucinated 17K very wrong tokens" (buildbot)
    • 对新版本实际改进持怀疑态度:"think Opus 4.7 is going to be the same Opus i was experiencing a few months ago" (endymion-light)
  3. 对Mythos模型的期待与质疑

    • 官方称将基于4.7经验推进Mythos发布:"help us work towards... broad release of Mythos-class models" (benleejamin)
    • 用户认为这是营销策略:"funny how they use mythos preview... like a carrot on a stick" (postflopclarity)
  4. 技术改进的积极反馈

    • 认可新tokenizer和xhigh模式:"improves how the model processes text... new xhigh effort level" (mchinen)
    • 图像处理能力提升:"3x higher resolution images... huge for anyone working with graphs" (mbeavitt)
  5. 使用体验问题

    • API调用复杂:"Making API calls to check token counts is retarded" (msp26)
    • 订阅价值争议:"does that mean a 20x plan is now really a 13x plan" (aliljet)
  6. 开发者工具反馈

    • 部分用户成功调用新模型:"was able to test it using claude --model claude-opus-4-7" (nathanielherman)
    • 默认集成延迟:"Seems like it's not in Claude Code natively yet" (cube2222)

关键矛盾点:安全限制与功能实用性之间的平衡,以及版本迭代是否真正带来性能提升。部分用户已转向竞品:"just started using codex... claude is just marketing machine" (throwaway911282)