文章摘要
OpenAI推出GPT-5.2模型,专为专业工作设计,能显著提升工作效率,在电子表格、演示文稿、编程等任务上表现优异。该模型在多项基准测试中创下新纪录,包括GDPval测试中在44个职业领域的知识工作任务上超越行业专业人士。GPT-5.2在软件工程、科学问题、数学等领域的表现均优于前代模型。
文章总结
OpenAI发布GPT-5.2:专业领域智能助手新标杆
OpenAI正式推出GPT-5.2系列模型,这是目前最强大的专业知识工作辅助工具。根据企业用户反馈,ChatGPT平均每天为用户节省40-60分钟,重度用户每周可节省超过10小时。
核心升级亮点 1. 专业任务处理 - 电子表格制作效率提升11倍,成本不到专家人工的1% - 演示文稿制作质量显著提高,错误率降低30% - 投资银行分析任务平均得分提升9.3%(从59.1%到68.4%)
- 技术能力突破
- SWE-Bench Pro软件工程测试得分55.6%(GPT-5.1为50.8%)
- 长文本理解能力提升,256k tokens范围内准确率接近100%
- 视觉识别错误率降低50%,特别擅长技术图表解析
- 学术研究支持
- GPQA Diamond科学问答基准测试达92.4%
- FrontierMath高等数学测试取得40.3%的突破性成绩
- 在统计学习理论等专业领域已能辅助完成验证性证明
产品矩阵 - 即时版:日常办公学习首选,响应速度更快 - 思考版:复杂任务处理专家,适合编程/长文档分析 - 专业版:顶尖科研助手,数学/科学问题解决能力最强
安全与可用性 - 强化心理健康相关对话的安全响应机制 - 新增年龄预测功能保护未成年用户 - 即日起向付费用户开放,API同步更新 - 定价:输入$1.75/百万token,输出$14/百万token
技术合作 - 与NVIDIA和微软深度合作 - 采用H100/H200/GB200-NVL72等先进算力支持 - 训练基础设施实现390倍成本优化
OpenAI表示,虽然GPT-5.2在专业领域取得重大突破,但建议用户对关键输出进行复核。该模型是持续改进计划的重要一步,团队将继续优化过度谨慎响应等问题。
(注:本文保留了核心性能数据和产品信息,精简了重复的基准测试细节和部分技术术语解释)
评论总结
主要观点总结:
1. 对模型性能的质疑
- 部分用户认为改进有限,只是小幅提升("Marginal gains for exorbitantly pricey and closed model" - villgax)
- 质疑缺乏具体指标和基准测试("devoid of any metrics, benchmarks or quantitative analyses" - egeres)
2. 价格争议
- 价格上涨引发不满("An almost 50% price increase" - ImprobableTruth)
- 价格对比数据("gpt-5.2 $1.75 $0.175 $14.00 / gpt-5.1 $1.25 $0.125 $10.00" - tabletcorry)
3. 基准测试的有效性
- 有用户认为基准测试可能被操控("random luck means you can almost always find a couple showing what you want to show" - doctoboggan)
- 也有用户认可测试结果("ARC AGI v2: 17.6% -> 52.9% / SWE Verified: 76.3% -> 80%" - josalhor)
4. 与竞争对手的比较
- 用户注意到OpenAI不再与其他公司的模型对比("They used to compare to competing models from Anthropic, Google DeepMind, DeepSeek, etc." - minadotcom)
- 部分用户仍希望看到更多对比数据("So how much better is it than opus or Gemini?" - gigatexal)
5. 技术细节的疑问
- 对快速迭代的困惑("5.1 was just released, yet they are claiming big improvements" - ComputerGuru)
- 对训练方法和成本的猜测("is a new model training just too expensive?" - sfmike)
6. 实际应用体验
- 语音聊天功能受到好评("the last remaining killer feature of ChatGPT is the quality of the voice chat" - zug_zug)
- 图像输入错误率降低被认为很实用("the halving of error rates for image inputs is pretty awesome" - coolfox)
7. 发布质量质疑
- 发现文档中的拼写错误("typo in the first section" - Ninjinka)
- 对宣传图片准确性的批评("did it still get at least three placements of components completely wrong?" - breakingcups)
8. 对未来影响的讨论
- 对AI取代人类工作的担忧("much of the office workers will stop being useful" - JanSt)
- 对支持服务全AI化的不满("their support is 100% done by AI" - dandiep)
代表性引用:
性能质疑:
- "I didn't see much concrete evidence this was noticeably better than 5.1" (doctoboggan)
- "Marginal gains for exorbitantly pricey and closed model" (villgax)
价格争议:
- "An almost 50% price increase. Benchmarks look nice, but 50% more nice...?" (ImprobableTruth)
- "gpt-5.2 $1.75 $0.175 $14.00 / gpt-5.1 $1.25 $0.125 $10.00" (tabletcorry)
基准测试:
- "ARC AGI v2: 17.6% -> 52.9% / SWE Verified: 76.3% -> 80%" (josalhor)
- "random luck means you can almost always find a couple showing what you want to show" (doctoboggan)