Hacker News 中文摘要

RSS订阅

GPT-5.2 -- GPT-5.2

文章摘要

OpenAI推出GPT-5.2模型,这是目前最强大的专业知识工作模型系列。该模型在电子表格制作、演示文稿创建、代码编写、图像理解等任务上表现更优,能为用户创造更大经济价值。测试数据显示,GPT-5.2在GDPval等多项基准测试中创下新纪录,在44个职业领域的知识工作任务上表现优于行业专业人士。

文章总结

OpenAI发布GPT-5.2:专业领域最强AI模型

OpenAI正式推出GPT-5.2系列模型,这是目前最强大的专业知识工作AI工具。根据企业用户反馈,现有ChatGPT平均每天为用户节省40-60分钟,重度用户每周可节省10小时以上。GPT-5.2在以下方面表现更出色: - 电子表格创建 - 演示文稿制作 - 代码编写 - 图像理解 - 长文本处理 - 工具使用 - 复杂多步骤项目管理

核心性能提升

  1. 专业任务表现

    • 在GDPval基准测试中(涵盖44种职业),GPT-5.2 Thinking以70.9%的胜率超越行业专家
    • 完成专业任务的速度是人类的11倍,成本不足1%
  2. 编程能力

    • SWE-Bench Pro测试得分55.6%(支持4种编程语言)
    • 前端开发能力显著提升,尤其擅长3D元素等复杂UI
  3. 长文本处理

    • 256k tokens上下文窗口下保持高准确率
    • 特别适合处理合同、论文等多文件项目
  4. 视觉理解

    • 图表识别错误率降低50%
    • 能准确定位图像中的组件位置(如图示主板元件识别)
  5. 数学与科学

    • GPQA Diamond测试得分92.4%(研究生水平科学问答)
    • FrontierMath测试解决40.3%的专家级数学问题

产品版本

  • GPT-5.2 Instant:日常任务快速响应
  • GPT-5.2 Thinking:深度复杂任务处理
  • GPT-5.2 Pro:最高精度专业问答

安全改进

  • 自杀/自残类敏感话题响应优化
  • 正在开发年龄预测系统以保护未成年用户
  • 错误响应减少30%

价格与可用性

  • API价格:输入$1.75/百万tokens,输出$14/百万tokens
  • ChatGPT:今日起逐步向付费用户开放
  • API:开发者即刻可用(gpt-5.2为模型名称)

合作伙伴

  • 采用NVIDIA H100/H200和微软Azure基础设施训练
  • 训练效率较前代提升390倍

(注:原文中大量基准测试数据表格已精简,保留关键指标对比)

评论总结

总结评论内容:

  1. 重复内容问题
  • 观点:认为当前内容是重复发布
  • 论据:提供了之前发布的链接作为证明
  • 关键引用: "Dupe of https://news.ycombinator.com/item?id=46234788"("这是https://news.ycombinator.com/item?id=46234788的重复内容") "paging @dang for merging"("呼叫@dang进行合并")
  1. 内容安全与定价问题
  • 观点:质疑内容安全措施放松导致需求增加和价格上涨
  • 论据:推测成人内容安全防护被取消
  • 关键引用: "Is this the version where all adult content safety guards dropped?"("这是取消了所有成人内容安全防护的版本吗?") "No wonder they bump the price, the demand spike will be huge."("难怪他们要涨价,需求激增会很大")