Hacker News 中文摘要

RSS订阅

GPT-5代码库 -- GPT-5-Codex

文章摘要

OpenAI发布了GPT-5-Codex,这是GPT-5的优化版本,专注于现实世界的软件工程任务,擅长快速交互和独立处理复杂任务,具备代码审查功能,能捕捉关键错误。Codex已整合为单一产品体验,支持本地与云端无缝切换,适用于终端、IDE、网页、GitHub及ChatGPT iOS应用,并包含在ChatGPT Plus、Pro、Business、Edu和Enterprise计划中,旨在成为理解上下文、可靠协作的编程伙伴。

文章总结

Codex升级介绍

OpenAI近日发布了GPT-5-Codex,这是GPT-5的优化版本,专为Codex中的自动化编码任务设计。GPT-5-Codex在真实世界的软件工程任务中表现出色,无论是快速交互式会话还是独立处理复杂任务,都能游刃有余。其代码审查功能能够在代码发布前捕捉关键错误。GPT-5-Codex已集成到Codex的各个使用场景中,包括云端任务、代码审查,开发者还可以通过Codex CLI和IDE扩展在本地任务中使用。

自今年4月推出Codex CLI和5月推出Codex网页版以来,Codex已逐步演变为更高效的编码助手。两周前,OpenAI将Codex整合为一个统一的产品体验,通过ChatGPT账户连接,使用户能够在本地环境和云端之间无缝切换工作。Codex现已支持终端、IDE、网页、GitHub以及ChatGPT iOS应用,并包含在ChatGPT Plus、Pro、Business、Edu和Enterprise计划中。

GPT-5-Codex的特点

GPT-5-Codex专为Codex中的自动化软件工程任务优化,训练内容包括从零构建完整项目、添加功能和测试、调试、大规模重构以及代码审查。它更具可控性,更好地遵循AGENTS.md指令,并生成更高质量的代码,用户只需简单描述需求,无需编写冗长的风格或代码整洁度指令。

GPT-5-Codex根据任务复杂性动态调整思考时间,结合了与开发者交互式配对和独立执行长时间任务的能力。在测试中,GPT-5-Codex曾独立处理复杂任务超过7小时,迭代实现、修复测试失败并最终成功交付。

在代码审查方面,GPT-5-Codex经过专门训练,能够发现关键缺陷。它通过浏览代码库、推理依赖关系并运行代码和测试来验证正确性。在开源仓库的最近提交中,GPT-5-Codex的审查评论更少出现错误或不重要的情况,使用户更专注于关键问题。

Codex的更新

Codex CLI现已开源,社区反馈对其改进至关重要。新版本围绕自动化编码工作流重建,支持在CLI中附加和共享图像(如截图、线框图和图表),以构建设计决策的共享上下文。终端UI也进行了升级,工具调用和差异格式化更清晰,审批模式简化为三个级别。

Codex IDE扩展将Codex代理引入VS Code、Cursor和其他VS Code分支,使用户能够无缝预览本地更改并编辑代码。扩展还支持在云端和本地环境之间平滑移动工作,创建新云端任务、跟踪进行中的工作并审查已完成任务,而无需离开编辑器。

开发者如何使用Codex

OpenAI致力于构建安全可靠的AI代理,默认情况下,Codex在沙盒环境中运行,网络访问被禁用,以减少潜在风险。开发者可以自定义安全设置,匹配其风险承受能力。OpenAI鼓励开发者在更改或部署到生产环境前审查代理的工作,Codex提供引用、终端日志和测试结果以辅助审查。

定价和可用性

Codex包含在ChatGPT Plus、Pro、Business、Edu和Enterprise计划中,使用量随计划规模扩展。Business计划可购买信用额度以超出包含限制,而Enterprise计划提供共享信用池,仅支付开发者实际使用的费用。对于通过API密钥使用Codex CLI的开发者,OpenAI计划很快在API中提供GPT-5-Codex。

Codex正成为OpenAI一直设想的编码伙伴——更快、更可靠,并深度集成到开发者已使用的工具中。OpenAI期待看到开发者用它构建的项目,并将继续改进Codex,使其成为开发者最雄心勃勃项目的更好队友。

评论总结

评论主要围绕Codex模型的性能、使用体验和未来发展展开,观点多样且各有侧重。

  1. 性能提升与代码重构

    • 正面评价:Codex在内部代码重构基准测试中表现显著提升(33.9%到51.3%),被认为是一个类似于Opus 4.1的升级,显示出OpenAI对Codex的重视。
      • 引用:“Only an 1.7% upgrade on SWE-Bench compared to GPT-5, but 33.9 vs 51.3% on their internal code refactoring benchmark.” (Tiberium)
    • 质疑与改进空间:尽管在代码重构上有进步,但仍有用户遇到模型删除文件后重写时遗漏关键细节的问题,建议改进工具调用。
      • 引用:“I kept running into bugs introduced when the model would delete a file and then rewrite in (missing crucial or important details).” (jumploops)
  2. 使用体验与模型可控性

    • 正面评价:Codex CLI在VSCode扩展中的表现令人印象深刻,用户对其速度和可控性表示满意,甚至有人因此放弃了Claude Code的订阅。
      • 引用:“Codex CLI IDE just works, very impressed with the quality.” (robotswantdata)
    • 改进建议:用户希望Codex在多个平台(如VSCode插件、移动应用等)上的体验能够更加一致,并建议进行用户调研以优化产品。
      • 引用:“I like using Codex, but it is a mess with such massive potential that needs a dedicated team lead whose only focus is to untangle this mess.” (Topfi)
  3. 未来发展与模型定位

    • 正面评价:Codex被视为OpenAI迈向专业化模型的标志,用户对其在代码审查等领域的潜力表示期待。
      • 引用:“OpenAI is starting its new era of specialized models.” (simianwords)
    • 质疑与改进空间:部分用户对Codex的命名混乱和功能分散表示不满,认为需要更清晰的定位和整合。
      • 引用:“Codex meanwhile can mean anything from a service for code reviews with Github integration to a series of dedicated models going back to 2021.” (Topfi)

总体而言,Codex在代码重构和可控性方面获得了积极评价,但在跨平台一致性和功能整合上仍有改进空间。用户对其未来发展充满期待,但也希望OpenAI能够解决当前的产品混乱问题。