Hacker News 中文摘要

RSS订阅

用GPT-5.1-Codex-Max构建更多可能 -- Building more with GPT-5.1-Codex-Max

文章摘要

OpenAI发布了新一代编程模型GPT-5.1-Codex-Max,该模型基于更新的推理架构,在软件工程、数学和研究等任务上表现更智能高效。新模型首次支持跨多上下文窗口处理百万级token的任务,适用于大规模重构和深度调试。现已集成至Codex平台,支持CLI、IDE扩展和云端使用,API即将开放。

文章总结

OpenAI发布新一代编程模型GPT-5.1-Codex-Max

OpenAI正式推出新一代前沿智能编程模型GPT-5.1-Codex-Max,该模型现已集成至Codex平台。作为专为持续性复杂任务设计的突破性产品,该模型在软件开发全周期中展现出更快的响应速度、更强的智能水平以及更高的token使用效率。

核心优势: 1. 突破性上下文处理能力:首次采用"压缩"技术,可在单任务中连贯处理数百万token,支持项目级重构、深度调试等长时间任务 2. 专业领域性能提升:在PR创建、代码审查等实际开发场景中表现优异,特别针对Windows环境进行了专项优化 3. 显著效率提升:相比前代模型,在保持相同性能水平下可减少30%的token消耗,大幅降低开发成本

技术亮点: - 支持超长时任务处理(实测可持续工作24小时以上) - 新增"超高强度"推理模式,适用于非延迟敏感型任务 - 自动上下文压缩技术确保长时间任务不中断

安全措施: - 默认运行在安全沙箱环境中 - 增强网络安全监控机制 - 保留漏洞自动扫描等防御性工具

应用场景: 目前已在CLI、IDE扩展、云服务等平台部署,即将开放API接口。该模型特别适合: - 大规模代码重构 - 复杂系统调试 - 持续性开发任务

性能数据: 在SWE-bench等专业测试中,新模型最高可获得79.9%的准确率,较前代提升显著。

OpenAI内部数据显示,使用Codex的工程师每周代码提交量提升约70%,95%的工程师已成为每周活跃用户。

该模型现已在ChatGPT Plus、Pro等多款产品中提供,标志着AI编程助手向"可靠开发伙伴"目标迈出重要一步。

评论总结

以下是评论内容的总结:

1. 对Codex-Max性能的期待与质疑

  • 部分用户关注基准测试表现:"all i care about is performance on metr benchmark" (LZ_Khan)
  • 对更新幅度的质疑:"They were probably sitting on this for a while...a fairly incremental update" (Reubend)

2. 功能需求与改进建议

  • 期望更强大的代理功能:"ability to launch agents in different git worktrees simultaneously" (spmartin823)
  • 对token效率的关注:"lot of us ended up downgrading to codex 5.0 because of the token burn" (agentifysh)

3. 使用体验对比

  • 与Claude的对比:"Codex more often get better results...but takes like 5 minutes to validate" (jasonthorsness, johnfn)
  • 速度问题:"extremely slow in GitHub copilot...2-5X slower than Claude Sonnet" (syntaxing)

4. 技术质疑

  • 对上下文压缩的疑问:"Why do you need to do it at the token layer?" (simianwords)
  • 对评估结果的怀疑:"ignoring the evals where they were left in the dust" (spectraldrift)

5. 产品改进建议

  • 基础体验优化:"put 1% of effort into making the basic process of paying and signing in suck less" (amluto)
  • 定制化需求:"prefer them to start creating customized models" (999900000999)

6. 正面评价

  • 性能提升:"30% more token-efficient...new benchmark SOTAs" (hansonw)
  • 特定场景优势:"better for longer, harder tasks that have to be correct" (johnfn)

7. 负面体验

  • 代码质量问题:"likes to invent imaginary functions...editing a long book with made-up words" (999900000999)
  • CLI问题:"context management seems to be really weird" (cube2222)

8. 市场策略质疑

  • 发布时间选择:"time their announcements alongside major competitor announcements" (Reubend)
  • 营销质疑:"This post is so misleading" (spectraldrift)

总结显示用户对Codex-Max持谨慎乐观态度,认可其技术优势但期待更多改进,特别是在速度、token效率和定制化方面。与竞争产品的比较也是讨论焦点。