Hacker News 中文摘要

文章摘要

Claude Sonnet 4.5是全球最强的编程模型，擅长构建复杂智能体和计算机操作，在推理和数学能力上有显著提升。该版本配套发布了多项产品升级：Claude Code新增进度检查点、改进终端界面、推出VS Code插件；API增加了上下文编辑和记忆功能；Claude应用可直接执行代码并创建电子表格等文件。这些改进大幅提升了工作效率和任务处理能力。

文章总结

重磅发布Claude Sonnet 4.5：全球最强代码模型实现能力跃升

核心升级亮点

代码能力登顶：在SWE-bench Verified评测中以77.2%准确率刷新纪录，可连续30+小时专注处理复杂多步骤编程任务
计算机操作突破：OSWorld基准测试成绩从4.2版的42.2%跃升至61.4%，浏览器扩展现支持直接操作网页/电子表格
推理与数学飞跃：在法律、金融、医疗等专业领域展现显著提升，STEM任务错误率从9%降至0%

开发者生态升级

Claude Code新增功能：
- 进度检查点（支持版本回滚）
- 终端界面优化+原生VS Code插件
- API新增上下文编辑与记忆工具
开放Agent SDK：提供构建自主AI代理的核心基础设施，包含：
- 长时任务记忆管理
- 权限控制系统
- 多子代理协同机制

安全与对齐突破

风险行为降低：欺骗性/权力寻求等不良行为减少40%
ASL-3防护体系：
- CBRN武器相关内容检测误报率较5月降低50%
- 新增机制可解释性安全测试

商业化进展

定价策略：维持每百万token 3/15美元费率
企业案例：
- 某安全平台漏洞分析效率提升44%
- GitHub Copilot多步骤推理能力显著增强
- Figma原型设计迭代流畅度提升

限时体验

推出"Imagine with Claude"研究预览版，支持实时生成自适应软件（Max用户限时5天体验）

技术细节详见系统卡片，开发者可通过API标识claude-sonnet-4-5直接调用新模型。

（注：保留核心性能数据、关键功能升级及头部企业用例，精简重复性技术参数和次要合作方引述）

评论总结

以下是评论内容的总结，涵盖主要观点和论据，并保持不同观点的平衡性：

1. 模型性能比较

支持Sonnet 4.5性能提升：
- "Sonnet 4.5在SWE基准测试中从72.7提升到77.2，进步显著"（zurfer）
- "Sonnet 4.5比Opus 4.1更好，期待实际验证"（chipgap98）
质疑性能差异：
- "个人体验中GPT-5-codex处理复杂问题远优于Claude Code"（yewenjie）
- "Sonnet 4.5在简单代码修改任务中仍失败，可能过度优化基准"（rudedogg）

2. 价格与实用性

价格过高问题：
- "Claude价格昂贵，自费用户更倾向便宜的Grok和GPT-5 Codex"（mohsen1）
- "Anthropic模型在Cursor中成本过高，可能是基础设施成本高"（ancorevard）
实用性讨论：
- "Claude感觉像实用工具，而Codex更强大但令人不安"（catigula）
- "需分享具体任务和提示细节，才能有效讨论模型表现"（cloverich）

3. 技术问题与改进建议

API兼容性问题：
- "不同LLM的API设计差异大，需工具支持多平台调用"（cryptoz）
- "Sonnet 4.5限制temperature和top_p不能同时指定"（scosman）
基准测试质疑：
- "公司公布的基准与SWEbench数据不符，需验证"（usr19021ag）
- "应公开模型发布后多周性能数据，防止‘优化后降级’"（MichealCodes）

4. 未来发展与期待

计算机应用前景：
- "计算机使用能力的进步可能带来经济颠覆性变革"（alach11）
模型迭代期待：
- "希望未来Opus能始终优于Sonnet"（wohoef）
- "近期大模型聚焦代码领域，但未来发展不确定性令人不安"（schmorptron）

5. 用户体验问题

访问限制问题：
- "Pro用户20分钟后即受限，免费版甚至无法发送消息"（atemerev）
模型个性调整：
- "Sonnet 4.5表达‘快乐’的频率比Claude 4减少50%"（trevin）

关键争议点

性能提升是否真实（基准vs实际任务）
高成本是否合理（相比竞品）
技术细节透明度不足（API差异、基准数据）

（注：部分评论因内容不相关或信息不足未纳入总结，如诗歌风格反馈和无关链接）

克劳德·索内特4.5 -- Claude Sonnet 4.5