Hacker News 中文摘要

RSS订阅

克劳德·奥普斯4.6 -- Claude Opus 4.6

文章摘要

Anthropic升级了最强模型Claude Opus 4.6,提升了编码能力、任务规划和代码审查能力,首次在Opus系列中支持100万token的上下文窗口。该模型在金融分析、文档处理等日常工作中表现优异,在多项基准测试中领先行业,包括Terminal-Bench 2.0编码评估和Humanity’s Last Exam综合推理测试,并在GDPval-AA经济价值任务评估中以144 Elo分优势超越GPT-5.2。

文章总结

【Claude Opus 4.6重磅升级:多领域性能突破与安全增强】

核心升级亮点: 1. 智能模型全面进化 - 代码能力显著提升:具备更精细的规划能力、更持久的任务执行能力,支持大规模代码库操作,自我纠错能力增强 - 首次在Opus系列中开放100万token上下文窗口(测试版)

  1. 生产力工具整合
  • 无缝支持Excel财务分析、PPT演示文稿生成等办公场景
  • 在Cowork协作平台实现多任务自主处理
  • 新增Excel结构化数据处理和PPT品牌化模板适配功能(企业版预览)
  1. 行业评测表现
  • Terminal-Bench 2.0编程评测榜首
  • Humanity's Last Exam跨学科推理测试领先
  • GDPval-AA经济价值任务评测超越GPT-5.2约144个Elo分
  • BrowseComp网络信息检索能力最优
  1. 安全性能突破
  • 行业领先的安全对齐表现
  • 新增6项网络安全检测探针
  • 误拒率降至Claude系列最低水平
  • 通过开源软件漏洞修补强化网络防御
  1. 开发者平台更新
  • 新增自适应思考模式(4级强度可调)
  • 上下文压缩技术突破长文本限制(测试版)
  • 支持128K token输出与纯美国境内推理
  1. 产品矩阵升级
  • Claude Code新增多智能体团队协作功能
  • Excel数据处理支持非结构化数据自动解析
  • PowerPoint新增从数据到可视化演示的端到端生成(企业预览版)

技术突破细节: - 在8针1M token的MRCR v2测试中,信息检索准确率达76%(前代仅18.5%) - 法律推理测试BigLaw Bench获得90.2%准确率 - 百万行代码库迁移测试效率提升50%

定价策略: - 维持每百万token 5/25美元标准(超过20万token部分按高级费率计费)

(注:原文中合作伙伴评价案例及详细评测数据表格因篇幅限制未完全呈现,核心信息已提炼至上述要点)

评论总结

以下是评论内容的总结:

  1. 发布与可用性

    • 部分用户反映链接失效或尚未发布:"Broken link :(" (评论1)
    • 有用户表示已看到更新:"I'm seeing it in my claude.ai model picker. Official announcement shouldn't be long now." (评论3)
    • 官方发布确认:"It's out: https://x.com/claudeai/status/2019467372609040752" (评论4)
  2. 功能评价

    • 对代理团队功能表示期待:"In Claude Code, you can now assemble agent teams to work on tasks together." (评论6)
    • 对上下文压缩功能表示赞赏:"Context compaction automatically summarizes and replaces older context... One of the best Claude code features tbh." (评论17)
    • 对1M上下文窗口的期待:"1M context on an Opus-class model is the real headline here imo." (评论21)
  3. 性能与基准测试

    • 对SWE基准测试的小幅下降表示关注:"Somehow regresses on SWE bench?" (评论9)
    • 对性能改进的肯定:"Agentic search benchmarks are a big gap up." (评论5)
    • 对实际效果的质疑:"Works pretty nicely for research still, not seeing a substantial qualitative improvement over Opus 4.5." (评论27)
  4. 经济与成本问题

    • 对运行成本的担忧:"'agent teams'... largely constrained by the economics of running multiple LLM agents." (评论13)
    • 对API定价的关注:"The cost increase by going above 200k tokens is 2x input, 1.5x output." (评论14)
  5. 用户体验与反馈

    • 对免费版本的期待:"I love Claude but use the free version so would love a Sonnet & Haiku update." (评论16)
    • 对移除预填充功能的失望:"Prefilling assistant messages... is not supported on Opus 4.6... That was a really cool feature." (评论29)
    • 对实际效果的肯定:"Anecdotal, but it 1 shot fixed a UI bug that neither Opus 4.5/Codex 5.2-high could fix." (评论30)
  6. 公司战略与市场定位

    • 对公司战略的质疑:"They are doing these broad marketing programs trying to take on ChatGPT for 'normies'. And yet their bread and butter is still clearly coding." (评论26)
  7. 技术细节与疑问

    • 对新模型可用性的疑问:"Is Opus 4.6 available for Claude Code immediately?" (评论8)
    • 对技术实现的猜测:"I wonder if this means they have RL trained this compaction as opposed to just being a general summarization." (评论19)

总结显示,用户对新功能如代理团队和上下文压缩表示期待,但对性能改进的实际效果和经济成本存在不同看法。同时,对公司战略和技术细节也有深入讨论。