Hacker News 中文摘要

文章摘要

OpenAI推出GPT-5.2模型，专为专业工作设计，能显著提升工作效率，在电子表格、演示文稿、编程等任务上表现优异。该模型在多项基准测试中创下新纪录，包括GDPval测试中在44个职业领域的知识工作任务上超越行业专业人士。GPT-5.2在软件工程、科学问题、数学等领域的表现均优于前代模型。

文章总结

OpenAI发布GPT-5.2：专业领域智能助手新标杆

OpenAI正式推出GPT-5.2系列模型，这是目前最强大的专业知识工作辅助工具。根据企业用户反馈，ChatGPT平均每天为用户节省40-60分钟，重度用户每周可节省超过10小时。

核心升级亮点 1. 专业任务处理 - 电子表格制作效率提升11倍，成本不到专家人工的1% - 演示文稿制作质量显著提高，错误率降低30% - 投资银行分析任务平均得分提升9.3%（从59.1%到68.4%）

技术能力突破

SWE-Bench Pro软件工程测试得分55.6%（GPT-5.1为50.8%）
长文本理解能力提升，256k tokens范围内准确率接近100%
视觉识别错误率降低50%，特别擅长技术图表解析

学术研究支持

GPQA Diamond科学问答基准测试达92.4%
FrontierMath高等数学测试取得40.3%的突破性成绩
在统计学习理论等专业领域已能辅助完成验证性证明

产品矩阵 - 即时版：日常办公学习首选，响应速度更快 - 思考版：复杂任务处理专家，适合编程/长文档分析 - 专业版：顶尖科研助手，数学/科学问题解决能力最强

安全与可用性 - 强化心理健康相关对话的安全响应机制 - 新增年龄预测功能保护未成年用户 - 即日起向付费用户开放，API同步更新 - 定价：输入$1.75/百万token，输出$14/百万token

技术合作 - 与NVIDIA和微软深度合作 - 采用H100/H200/GB200-NVL72等先进算力支持 - 训练基础设施实现390倍成本优化

OpenAI表示，虽然GPT-5.2在专业领域取得重大突破，但建议用户对关键输出进行复核。该模型是持续改进计划的重要一步，团队将继续优化过度谨慎响应等问题。

（注：本文保留了核心性能数据和产品信息，精简了重复的基准测试细节和部分技术术语解释）

评论总结

主要观点总结：

1. 对模型性能的质疑

部分用户认为改进有限，只是小幅提升（"Marginal gains for exorbitantly pricey and closed model" - villgax）
质疑缺乏具体指标和基准测试（"devoid of any metrics, benchmarks or quantitative analyses" - egeres）

2. 价格争议

价格上涨引发不满（"An almost 50% price increase" - ImprobableTruth）
价格对比数据（"gpt-5.2 $1.75 $0.175 $14.00 / gpt-5.1 $1.25 $0.125 $10.00" - tabletcorry）

3. 基准测试的有效性

有用户认为基准测试可能被操控（"random luck means you can almost always find a couple showing what you want to show" - doctoboggan）
也有用户认可测试结果（"ARC AGI v2: 17.6% -> 52.9% / SWE Verified: 76.3% -> 80%" - josalhor）

4. 与竞争对手的比较

用户注意到OpenAI不再与其他公司的模型对比（"They used to compare to competing models from Anthropic, Google DeepMind, DeepSeek, etc." - minadotcom）
部分用户仍希望看到更多对比数据（"So how much better is it than opus or Gemini?" - gigatexal）

5. 技术细节的疑问

对快速迭代的困惑（"5.1 was just released, yet they are claiming big improvements" - ComputerGuru）
对训练方法和成本的猜测（"is a new model training just too expensive?" - sfmike）

6. 实际应用体验

语音聊天功能受到好评（"the last remaining killer feature of ChatGPT is the quality of the voice chat" - zug_zug）
图像输入错误率降低被认为很实用（"the halving of error rates for image inputs is pretty awesome" - coolfox）

7. 发布质量质疑

发现文档中的拼写错误（"typo in the first section" - Ninjinka）
对宣传图片准确性的批评（"did it still get at least three placements of components completely wrong?" - breakingcups）

8. 对未来影响的讨论

对AI取代人类工作的担忧（"much of the office workers will stop being useful" - JanSt）
对支持服务全AI化的不满（"their support is 100% done by AI" - dandiep）

代表性引用：

性能质疑：
- "I didn't see much concrete evidence this was noticeably better than 5.1" (doctoboggan)
- "Marginal gains for exorbitantly pricey and closed model" (villgax)
价格争议：
- "An almost 50% price increase. Benchmarks look nice, but 50% more nice...?" (ImprobableTruth)
- "gpt-5.2 $1.75 $0.175 $14.00 / gpt-5.1 $1.25 $0.125 $10.00" (tabletcorry)
基准测试：
- "ARC AGI v2: 17.6% -> 52.9% / SWE Verified: 76.3% -> 80%" (josalhor)
- "random luck means you can almost always find a couple showing what you want to show" (doctoboggan)

GPT-5.2 -- GPT-5.2