Hacker News 中文摘要

文章摘要

OpenAI发布了新一代编程模型GPT-5.1-Codex-Max，该模型基于更新的推理架构，在软件工程、数学和研究等任务上表现更智能高效。新模型首次支持跨多上下文窗口处理百万级token的任务，适用于大规模重构和深度调试。现已集成至Codex平台，支持CLI、IDE扩展和云端使用，API即将开放。

文章总结

OpenAI发布新一代编程模型GPT-5.1-Codex-Max

OpenAI正式推出新一代前沿智能编程模型GPT-5.1-Codex-Max，该模型现已集成至Codex平台。作为专为持续性复杂任务设计的突破性产品，该模型在软件开发全周期中展现出更快的响应速度、更强的智能水平以及更高的token使用效率。

核心优势： 1. 突破性上下文处理能力：首次采用"压缩"技术，可在单任务中连贯处理数百万token，支持项目级重构、深度调试等长时间任务 2. 专业领域性能提升：在PR创建、代码审查等实际开发场景中表现优异，特别针对Windows环境进行了专项优化 3. 显著效率提升：相比前代模型，在保持相同性能水平下可减少30%的token消耗，大幅降低开发成本

技术亮点： - 支持超长时任务处理（实测可持续工作24小时以上） - 新增"超高强度"推理模式，适用于非延迟敏感型任务 - 自动上下文压缩技术确保长时间任务不中断

安全措施： - 默认运行在安全沙箱环境中 - 增强网络安全监控机制 - 保留漏洞自动扫描等防御性工具

应用场景：目前已在CLI、IDE扩展、云服务等平台部署，即将开放API接口。该模型特别适合： - 大规模代码重构 - 复杂系统调试 - 持续性开发任务

性能数据：在SWE-bench等专业测试中，新模型最高可获得79.9%的准确率，较前代提升显著。

OpenAI内部数据显示，使用Codex的工程师每周代码提交量提升约70%，95%的工程师已成为每周活跃用户。

该模型现已在ChatGPT Plus、Pro等多款产品中提供，标志着AI编程助手向"可靠开发伙伴"目标迈出重要一步。

评论总结

以下是评论内容的总结：

1. 对Codex-Max性能的期待与质疑

部分用户关注基准测试表现："all i care about is performance on metr benchmark" (LZ_Khan)
对更新幅度的质疑："They were probably sitting on this for a while...a fairly incremental update" (Reubend)

2. 功能需求与改进建议

期望更强大的代理功能："ability to launch agents in different git worktrees simultaneously" (spmartin823)
对token效率的关注："lot of us ended up downgrading to codex 5.0 because of the token burn" (agentifysh)

3. 使用体验对比

与Claude的对比："Codex more often get better results...but takes like 5 minutes to validate" (jasonthorsness, johnfn)
速度问题："extremely slow in GitHub copilot...2-5X slower than Claude Sonnet" (syntaxing)

4. 技术质疑

对上下文压缩的疑问："Why do you need to do it at the token layer?" (simianwords)
对评估结果的怀疑："ignoring the evals where they were left in the dust" (spectraldrift)

5. 产品改进建议

基础体验优化："put 1% of effort into making the basic process of paying and signing in suck less" (amluto)
定制化需求："prefer them to start creating customized models" (999900000999)

6. 正面评价

性能提升："30% more token-efficient...new benchmark SOTAs" (hansonw)
特定场景优势："better for longer, harder tasks that have to be correct" (johnfn)

7. 负面体验

代码质量问题："likes to invent imaginary functions...editing a long book with made-up words" (999900000999)
CLI问题："context management seems to be really weird" (cube2222)

8. 市场策略质疑

发布时间选择："time their announcements alongside major competitor announcements" (Reubend)
营销质疑："This post is so misleading" (spectraldrift)

总结显示用户对Codex-Max持谨慎乐观态度，认可其技术优势但期待更多改进，特别是在速度、token效率和定制化方面。与竞争产品的比较也是讨论焦点。

用GPT-5.1-Codex-Max构建更多可能 -- Building more with GPT-5.1-Codex-Max