文章摘要
OpenAI发布了新一代人工智能模型GPT-5.4,展示了其在自然语言处理方面的最新进展。该模型是GPT系列的最新升级版本,延续了OpenAI在AI领域的技术创新。
文章总结
OpenAI发布GPT-5.4:专为专业工作设计的先进模型
2026年3月5日,OpenAI正式推出GPT-5.4,该模型是当前最强大、最高效的专业工作前沿模型,已集成至ChatGPT(作为GPT-5.4 Thinking)、API及Codex平台。同时发布的GPT-5.4 Pro面向需要处理复杂任务的用户,提供极致性能。
核心升级
综合能力提升
- 结合了GPT-5.3-Codex的顶尖编码能力,优化了工具使用、软件环境适配及电子表格、演示文稿等专业任务处理。
- 在ChatGPT中,GPT-5.4 Thinking支持实时调整思考路径,并能更精准地进行深度网络搜索,尤其擅长处理特定查询和长上下文问题。
计算机操作与视觉能力
- 首次在通用模型中实现原生计算机操作功能,支持通过API控制鼠标、键盘及处理截图,适用于自动化工作流。
- 视觉理解能力增强,在MMMU-Pro测试中达到81.2%准确率(无工具辅助),文档解析误差降低至0.109(GPT-5.2为0.140)。
工具使用优化
- 新增工具搜索功能,显著减少多工具工作流的令牌消耗(测试中降低47%)。
- 在Toolathlon基准测试中,多步骤工具使用的准确率提升至54.6%(GPT-5.2为45.7%)。
专业领域表现
- 在GDPval测试中,83.0%的任务表现优于行业专家(GPT-5.2为70.9%)。
- 电子表格建模任务得分从68.4%提升至87.3%,演示文稿设计的人类偏好率提高至68.0%。
安全与部署
- 延续GPT-5.3-Codex的网络安全防护框架,减少错误率(单个事实错误降低33%)。
- 提供1M令牌的上下文窗口(实验性支持),API定价调整为输入$2.5/百万令牌,输出$15/百万令牌。
可用性与定价
- ChatGPT:Plus、Team和Pro用户即日可用,GPT-5.2 Thinking保留至2026年6月5日。
- API:
gpt-5.4标准版与gpt-5.4-pro高性能版同步上线。 - 企业工具:新增Excel插件及Playwright Interactive技能,支持可视化调试。
用户反馈
- Mercor资本:称其“在长周期交付物(如幻灯片、财务模型)中表现最佳”。
- Harvey法律平台:在复杂法律文件分析中准确率达91%。
GPT-5.4标志着OpenAI在推理、编码和代理工作流上的重大突破,为开发者、企业及专业用户提供更高效的AI协作体验。
(注:原文中的导航菜单、脚注及部分技术细节已简化,保留核心功能与性能数据。)
评论总结
总结评论内容如下:
技术功能质疑
- 对GPT-5.4通过截图识别和坐标点击操作界面的方式提出质疑,认为应使用API更高效: "Why not use Gmail APIs? No need to do any screenshot interpretation or coordinate-based clicking."(mattas)
- 对Codex模型的存在意义表示困惑: "What is the point of gpt codex?"(simianwords)
长上下文窗口评价
- 认可100万token的上下文窗口是重要升级,但质疑其实际效果: "1 million tokens is great until you notice the long context scores fall off a cliff past 256K"(jryio) "benchmark score seems to go down significantly past that"(strongpigeon)
- 价格优势受到关注: "GPT-5.4 ($2.50/M input, $15/M output) is much cheaper than Opus 4.6"(minimaxir)
模型改进反馈
- 对新增的"思考过程提示"功能表示赞赏: "This was definitely missing before...Great addition"(timpera)
- 对军事应用的改进表示震惊: "Wow insane improvements in targeting systems for military targets"(elmean)
市场反应
- 部分用户表示已取消订阅: "Already cancelled my sub"(alpineman)
- 开发者关注新模型对不同任务的性价比: "better for which tasks, at what latency, at what cost?"(kotevcode)
技术问题
- 有用户报告访问问题: "it shows a 404 as of now"(ignorantguy)
注:部分评论(如ilaksh关于GPT-5预测的调侃)因未提供实质性观点未纳入总结。所有引用均保留原始中英文内容。