Hacker News 中文摘要

文章摘要

Anthropic发布新一代AI模型Claude Opus 4.5，在编程、代理和计算机应用方面表现优异，尤其在软件工程测试中领先。该模型在深度研究、幻灯片和表格处理等日常任务上也有显著提升。Opus 4.5已上线各平台，API调用价格为5/25美元每百万token，同时开发者平台和消费应用也同步更新。

文章总结

【Claude Opus 4.5正式发布：AI领域的新标杆】

核心升级： 1. 性能突破 - 在SWE-bench软件工程测试中以显著优势领先业界前沿模型（见图表） - 代码生成效率提升50%，复杂任务处理速度提高65% - 金融建模准确率提升20%，3D可视化任务耗时从2小时缩短至30分钟

多领域优化

长文本处理：可生成10-15页结构完整的叙事内容
办公场景：Excel自动化、PPT制作效率提升15%
多智能体协作：成功协调3个智能体完成跨代码库重构

成本控制

定价降至5/25美元/百万tokens（输入/输出）
相同任务比前代节省48%-76%的token消耗

技术亮点： • 首创"思考力度"参数，可动态调整计算资源分配 • 抗提示注入攻击能力达行业最高水平（安全测试数据见图） • 在航空公司客服测试中展现出创造性问题解决能力（案例详述）

开发者生态： - 新增桌面端多会话并行处理功能 - 强化了Chrome插件与Excel的深度集成 - 上下文管理支持20万token超长对话

用户反馈： "在Notion中首次尝试即生成可直接分享的内容" "代码审查准确率提升同时保持高精度" "自主智能体仅需4轮迭代即可达到峰值性能"

附：完整技术指标参见官方系统卡片，开发者文档已同步更新

（注：原文中21个合作方logo展示及重复性赞誉内容已精简，保留最具代表性的6个行业应用场景）

评论总结

评论内容总结

1. 价格下降与性价比

主要观点：Opus 4.5价格降至5/25美元/百万token，性价比显著提升，接近竞争对手Gemini 3 Pro。
关键引用：
- "Pricing is now $5/$25 per million tokens... So it’s 1/3 the price of Opus 4.1"（jumploops）
- "Opus stops being 'the model you use for important things' and becomes actually viable for production workloads"（llamasushi）

2. 性能与基准测试

主要观点：Opus 4.5在SWE-bench等基准测试中表现优异，但部分用户质疑其推理能力下降或基准测试的可信度。
关键引用：
- "Opus 4.5 lost all reasoning scores to Gemini and GPT"（alvis）
- "The first chart is straight from 'how to lie in charts'"（zb3）

3. 用户体验与生态系统

主要观点：用户对Claude生态系统有依赖感，认为其错误模式更易预测，但部分用户对模型性能波动表示担忧。
关键引用：
- "I’m finding that when I try new models, their 'stupid' moments are more surprising"（cyrusradfar）
- "This is gonna be game-changing for the next 2-4 weeks before they nerf the model"（unsupp0rted）

4. 使用限制与订阅问题

主要观点：部分用户对Opus的使用限制（如Claude Code的配额）表示不满，但Anthropic已宣布增加配额。
关键引用：
- "Opus is basically unusable by anyone paying enterprise-prices"（aliljet）
- "We’ve increased overall usage limits... roughly the same number of Opus tokens as previously"（alvis）

5. 竞争与行业动态

主要观点：用户对比Claude与Gemini等竞品，认为竞争加速了技术进步，但模型切换成本低可能导致行业 commoditization。
关键引用：
- "Gemini 3 Pro... significantly worse than Sonnet 4.5"（827a）
- "The pace of releases... no switching cost... will forever remain a commodity"（jasonthorsness）

6. 技术细节与期待

主要观点：用户关注模型的技术细节（如token效率、抗提示注入能力），并对未来功能（如多模型协作）提出期待。
关键引用：
- "Uses 76% fewer output tokens"（jumploops）
- "Claiming SOTA prompt injection resistance... legitimately significant"（llamasushi）

总结

评论普遍认可Opus 4.5的价格优势与部分性能提升，但对基准测试的可信度、推理能力下降及使用限制存在争议。用户对Claude生态的粘性较高，但竞争加剧可能削弱品牌壁垒。技术细节（如成本曲线、抗攻击能力）和实际体验（如配额问题）是讨论焦点。

克劳德·奥普斯4.5 -- Claude Opus 4.5