文章摘要
Claude Sonnet 4.5是全球最强的编程模型,擅长构建复杂智能体和计算机操作,在推理和数学能力上有显著提升。该版本配套发布了多项产品升级:Claude Code新增进度检查点、改进终端界面、推出VS Code插件;API增加了上下文编辑和记忆功能;Claude应用可直接执行代码并创建电子表格等文件。这些改进大幅提升了工作效率和任务处理能力。
文章总结
重磅发布Claude Sonnet 4.5:全球最强代码模型实现能力跃升
核心升级亮点
- 代码能力登顶:在SWE-bench Verified评测中以77.2%准确率刷新纪录,可连续30+小时专注处理复杂多步骤编程任务
- 计算机操作突破:OSWorld基准测试成绩从4.2版的42.2%跃升至61.4%,浏览器扩展现支持直接操作网页/电子表格
- 推理与数学飞跃:在法律、金融、医疗等专业领域展现显著提升,STEM任务错误率从9%降至0%
开发者生态升级
Claude Code新增功能:
- 进度检查点(支持版本回滚)
- 终端界面优化+原生VS Code插件
- API新增上下文编辑与记忆工具
开放Agent SDK:提供构建自主AI代理的核心基础设施,包含:
- 长时任务记忆管理
- 权限控制系统
- 多子代理协同机制
安全与对齐突破
- 风险行为降低:欺骗性/权力寻求等不良行为减少40%
- ASL-3防护体系:
- CBRN武器相关内容检测误报率较5月降低50%
- 新增机制可解释性安全测试
商业化进展
- 定价策略:维持每百万token 3/15美元费率
- 企业案例:
- 某安全平台漏洞分析效率提升44%
- GitHub Copilot多步骤推理能力显著增强
- Figma原型设计迭代流畅度提升
限时体验
推出"Imagine with Claude"研究预览版,支持实时生成自适应软件(Max用户限时5天体验)
技术细节详见系统卡片,开发者可通过API标识
claude-sonnet-4-5直接调用新模型。
(注:保留核心性能数据、关键功能升级及头部企业用例,精简重复性技术参数和次要合作方引述)
评论总结
以下是评论内容的总结,涵盖主要观点和论据,并保持不同观点的平衡性:
1. 模型性能比较
支持Sonnet 4.5性能提升:
- "Sonnet 4.5在SWE基准测试中从72.7提升到77.2,进步显著"(zurfer)
- "Sonnet 4.5比Opus 4.1更好,期待实际验证"(chipgap98)
质疑性能差异:
- "个人体验中GPT-5-codex处理复杂问题远优于Claude Code"(yewenjie)
- "Sonnet 4.5在简单代码修改任务中仍失败,可能过度优化基准"(rudedogg)
2. 价格与实用性
价格过高问题:
- "Claude价格昂贵,自费用户更倾向便宜的Grok和GPT-5 Codex"(mohsen1)
- "Anthropic模型在Cursor中成本过高,可能是基础设施成本高"(ancorevard)
实用性讨论:
- "Claude感觉像实用工具,而Codex更强大但令人不安"(catigula)
- "需分享具体任务和提示细节,才能有效讨论模型表现"(cloverich)
3. 技术问题与改进建议
API兼容性问题:
- "不同LLM的API设计差异大,需工具支持多平台调用"(cryptoz)
- "Sonnet 4.5限制
temperature和top_p不能同时指定"(scosman)
基准测试质疑:
- "公司公布的基准与SWEbench数据不符,需验证"(usr19021ag)
- "应公开模型发布后多周性能数据,防止‘优化后降级’"(MichealCodes)
4. 未来发展与期待
计算机应用前景:
- "计算机使用能力的进步可能带来经济颠覆性变革"(alach11)
模型迭代期待:
- "希望未来Opus能始终优于Sonnet"(wohoef)
- "近期大模型聚焦代码领域,但未来发展不确定性令人不安"(schmorptron)
5. 用户体验问题
访问限制问题:
- "Pro用户20分钟后即受限,免费版甚至无法发送消息"(atemerev)
模型个性调整:
- "Sonnet 4.5表达‘快乐’的频率比Claude 4减少50%"(trevin)
关键争议点
- 性能提升是否真实(基准vs实际任务)
- 高成本是否合理(相比竞品)
- 技术细节透明度不足(API差异、基准数据)
(注:部分评论因内容不相关或信息不足未纳入总结,如诗歌风格反馈和无关链接)