Hacker News 中文摘要

RSS订阅

克劳德·奥普斯4.5 -- Claude Opus 4.5

文章摘要

Anthropic发布新一代AI模型Claude Opus 4.5,在编程、代理和计算机应用方面表现优异,尤其在软件工程测试中领先。该模型在深度研究、幻灯片和表格处理等日常任务上也有显著提升。Opus 4.5已上线各平台,API调用价格为5/25美元每百万token,同时开发者平台和消费应用也同步更新。

文章总结

【Claude Opus 4.5正式发布:AI领域的新标杆】

核心升级: 1. 性能突破 - 在SWE-bench软件工程测试中以显著优势领先业界前沿模型(见图表) - 代码生成效率提升50%,复杂任务处理速度提高65% - 金融建模准确率提升20%,3D可视化任务耗时从2小时缩短至30分钟

  1. 多领域优化
  • 长文本处理:可生成10-15页结构完整的叙事内容
  • 办公场景:Excel自动化、PPT制作效率提升15%
  • 多智能体协作:成功协调3个智能体完成跨代码库重构
  1. 成本控制
  • 定价降至5/25美元/百万tokens(输入/输出)
  • 相同任务比前代节省48%-76%的token消耗

技术亮点: • 首创"思考力度"参数,可动态调整计算资源分配 • 抗提示注入攻击能力达行业最高水平(安全测试数据见图) • 在航空公司客服测试中展现出创造性问题解决能力(案例详述)

开发者生态: - 新增桌面端多会话并行处理功能 - 强化了Chrome插件与Excel的深度集成 - 上下文管理支持20万token超长对话

用户反馈: "在Notion中首次尝试即生成可直接分享的内容" "代码审查准确率提升同时保持高精度" "自主智能体仅需4轮迭代即可达到峰值性能"

附:完整技术指标参见官方系统卡片,开发者文档已同步更新

(注:原文中21个合作方logo展示及重复性赞誉内容已精简,保留最具代表性的6个行业应用场景)

评论总结

评论内容总结

1. 价格下降与性价比

  • 主要观点:Opus 4.5价格降至5/25美元/百万token,性价比显著提升,接近竞争对手Gemini 3 Pro。
  • 关键引用
    • "Pricing is now $5/$25 per million tokens... So it’s 1/3 the price of Opus 4.1"(jumploops)
    • "Opus stops being 'the model you use for important things' and becomes actually viable for production workloads"(llamasushi)

2. 性能与基准测试

  • 主要观点:Opus 4.5在SWE-bench等基准测试中表现优异,但部分用户质疑其推理能力下降或基准测试的可信度。
  • 关键引用
    • "Opus 4.5 lost all reasoning scores to Gemini and GPT"(alvis)
    • "The first chart is straight from 'how to lie in charts'"(zb3)

3. 用户体验与生态系统

  • 主要观点:用户对Claude生态系统有依赖感,认为其错误模式更易预测,但部分用户对模型性能波动表示担忧。
  • 关键引用
    • "I’m finding that when I try new models, their 'stupid' moments are more surprising"(cyrusradfar)
    • "This is gonna be game-changing for the next 2-4 weeks before they nerf the model"(unsupp0rted)

4. 使用限制与订阅问题

  • 主要观点:部分用户对Opus的使用限制(如Claude Code的配额)表示不满,但Anthropic已宣布增加配额。
  • 关键引用
    • "Opus is basically unusable by anyone paying enterprise-prices"(aliljet)
    • "We’ve increased overall usage limits... roughly the same number of Opus tokens as previously"(alvis)

5. 竞争与行业动态

  • 主要观点:用户对比Claude与Gemini等竞品,认为竞争加速了技术进步,但模型切换成本低可能导致行业 commoditization。
  • 关键引用
    • "Gemini 3 Pro... significantly worse than Sonnet 4.5"(827a)
    • "The pace of releases... no switching cost... will forever remain a commodity"(jasonthorsness)

6. 技术细节与期待

  • 主要观点:用户关注模型的技术细节(如token效率、抗提示注入能力),并对未来功能(如多模型协作)提出期待。
  • 关键引用
    • "Uses 76% fewer output tokens"(jumploops)
    • "Claiming SOTA prompt injection resistance... legitimately significant"(llamasushi)

总结

评论普遍认可Opus 4.5的价格优势与部分性能提升,但对基准测试的可信度、推理能力下降及使用限制存在争议。用户对Claude生态的粘性较高,但竞争加剧可能削弱品牌壁垒。技术细节(如成本曲线、抗攻击能力)和实际体验(如配额问题)是讨论焦点。