Hacker News 中文摘要

RSS订阅

GPT-5.3-Codex -- GPT-5.3-Codex

文章摘要

OpenAI推出最新代码模型GPT-5.3-Codex,这是目前最强大的编程助手。该模型在GPT-5.2-Codex的基础上提升了编码能力、推理能力和专业知识,速度提高25%,能处理涉及研究、工具使用和复杂执行的长时任务。它首次实现了自我开发辅助,帮助团队调试训练过程和管理部署。在多项基准测试中创下行业新高,标志着代码助手向全能开发者伙伴的转变。

文章总结

标题:GPT-5.3-Codex:新一代智能编码助手

OpenAI推出全新模型GPT-5.3-Codex,这是目前最强大的智能编码模型。该模型在GPT-5.2-Codex的编码性能和GPT-5.2的推理与专业知识能力基础上实现了全面提升,运行速度提高25%,能够处理涉及研究、工具使用和复杂执行等长期任务。用户可以像与同事协作一样,在模型工作时进行实时交互和指导,而不会丢失上下文。

突破性能力: 1. 在SWE-Bench Pro、Terminal-Bench等基准测试中创下行业新高 2. 能够从零开始构建功能复杂的游戏和应用程序 3. 网页开发理解能力显著提升,能自动生成更完善的默认页面 4. 支持软件生命周期的全流程工作,包括调试、部署、监控等

交互协作: - 提供实时进度更新 - 支持中途干预和指导 - 能够解释工作内容并响应反馈

技术突破: - 首个用于自我开发的AI模型,加速了自身训练和部署过程 - 研究团队使用早期版本监控训练过程,分析模型行为差异 - 工程团队利用其优化系统架构,解决边缘案例

网络安全: - 首个被归类为"高能力"的网络安全模型 - 推出"网络安全可信访问"试点计划 - 投入1000万美元API信用额度支持网络安全防御

技术规格: - 基于NVIDIA GB200 NVL72系统训练和服务 - 付费ChatGPT用户可通过多种渠道使用 - 运行效率提升25%

性能对比(部分指标): | 测试项目 | GPT-5.3 | GPT-5.2-Codex | GPT-5.2 | |------------------|---------|---------------|---------| | SWE-Bench Pro | 56.8% | 56.4% | 55.6% | | Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% | | OSWorld-Verified | 64.7% | 38.2% | 37.9% |

未来展望: GPT-5.3-Codex标志着编码助手向全能计算机操作员的转变,为知识工作开辟了新可能。从最初专注于编码,发展为能在计算机上完成端到端工作的通用协作伙伴。

评论总结

以下是评论内容的总结:

1. 关于AI公司发布节奏的争议

部分评论认为AI公司(如OpenAI和Anthropic)近期密集发布新模型显得过于仓促,缺乏协调: - "AI labs现在30分钟内就推送重大公告"(评论1) - "这像是两家公司在互相抢先发布"(评论4) - "同一天发布对读者简直是折磨"(评论15)

2. 模型性能比较

用户对GPT-5.3-Codex和Claude Opus 4.6的性能表现存在不同看法: - 基准测试对比:"Opus 4.6得分为65.4,GPT-5.3-Codex得分为77.3"(评论2) - 实际体验差异:"解决了5.2无法处理的问题,但速度更慢"(评论14) - 比较困难:"评估标准不统一难以直接比较"(评论17)

3. 发布策略质疑

部分用户对发布时机和版本号提出质疑: - "Anthropic可能是为了避免与GPT-5.3比较而仓促发布"(评论2) - "在未发布5.3基础版前先发布Codex版很奇怪"(评论15) - "如果知道新版本要来,就不会用完旧版配额"(评论9)

4. 网络安全能力

对GPT-5.3-Codex的网络安全特性有专门讨论: - "首个被归类为高网络安全能力的模型"(评论18) - "需要更多关注由AI编写软件的安全性"(评论18)

5. 用户极端评价

存在两极分化的用户体验: - 积极评价:"使我效率提升12.71倍,是有史以来最伟大的模型"(评论16) - 戏谑评价:"GPT-5.3-Codex好到成了我妻子"(评论19)

6. 其他关注点

  • 技术细节:"与NVIDIA GB200 NVL72系统合作开发"(评论8)
  • 使用限制:"是否还能通过Opencode使用"(评论11)
  • 价格疑问:"有任何定价说明吗?"(评论7)

注:所有评论均未显示具体评分(None),因此无法评估社区认可度。不同观点保持平衡呈现,极端评价和中性分析均被包含。