Hacker News 中文摘要

RSS订阅

GPT-5.5发布 -- Introducing GPT-5.5

文章摘要

OpenAI发布了新一代AI模型GPT-5.5,这是目前最智能、最易用的版本。该模型能更快理解用户意图,擅长编程、数据分析、文档处理等复杂任务,并能自主规划多步骤工作流程。相比前代,GPT-5.5在保持响应速度的同时显著提升了智能水平,执行相同任务时消耗更少资源。新模型特别强化了编程、科研等专业领域的推理能力,并配备了更完善的安全防护措施。

文章总结

OpenAI发布GPT-5.5:更智能、更高效的人工智能模型

OpenAI正式推出GPT-5.5,这是目前最智能、最直观的模型,标志着计算机工作方式的新突破。

核心优势

  1. 更强的任务处理能力

    • 能够快速理解用户意图,独立完成复杂任务,包括代码编写与调试、在线研究、数据分析、文档与表格创建、软件操作等。
    • 支持多步骤任务规划,自动使用工具、检查工作并处理模糊信息。
  2. 显著的性能提升

    • 代理编码(agentic coding)、计算机使用、知识工作和早期科学研究等领域表现尤为突出。
    • 在保持与GPT-5.4相同响应速度的同时,智能水平显著提高,且完成任务所需的token更少,效率更高。
  3. 广泛的应用场景

    • 编码:在Terminal-Bench 2.0(测试复杂命令行工作流)上达到82.7%的准确率,优于GPT-5.4的75.1%。
    • 专业工作:在GDPval(测试44种职业的知识工作能力)上以84.9%的得分领先。
    • 科学研究:在GeneBench(遗传学数据分析)和BixBench(生物信息学)等科学基准测试中表现优异,甚至帮助发现了一个关于拉姆齐数的新数学证明。
  4. 计算机使用与工具整合

    • 在OSWorld-Verified(测试模型自主操作计算机环境的能力)上达到78.7%的准确率。
    • 能够更自然地完成知识工作的全流程:查找信息、理解关键点、使用工具、检查输出并生成有用结果。

安全与部署

  • OpenAI为GPT-5.5配备了迄今为止最严格的安全措施,包括内部和外部红队测试、高级网络安全和生物能力评估。
  • 目前向ChatGPT和Codex的Plus、Pro、Business和Enterprise用户开放,API版本即将推出。

用户反馈

  • NVIDIA工程师称:“失去GPT-5.5就像被截肢一样。”
  • 早期测试者反馈,GPT-5.5在代码重构、系统理解和自动化任务方面表现远超GPT-5.4和Claude Opus 4.7。

未来展望

GPT-5.5不仅是一个更强大的编码工具,更代表了一种新的工作方式,帮助用户以更高的效率完成复杂任务。OpenAI正在构建全球代理AI基础设施,推动人工智能在科研和计算机工作中的广泛应用。

价格
- API定价为每100万输入token 5美元,输出token 30美元,比GPT-5.4更高,但效率显著提升。

更多细节可参考OpenAI官方系统卡定价页面

评论总结

评论内容总结:

  1. 模型性能与创新

    • 部分用户认为GPT-5.5在基准测试中表现优异,且效率更高(如用更少的token获得更高分数)。
      引用:"Benchmarks are favorable enough they're comparing to non-OpenAI models again."(评论4)
      引用:"GPT‑5.5 improves on GPT‑5.4’s scores while using fewer tokens."(评论19)
    • 但也有人质疑其创新性,认为可能只是“更大模型更好”的重复。
      引用:"Maybe there's some genuine innovation beyond bigger model better this time?"(评论4)
  2. 技术优化与效率

    • 用户关注OpenAI通过Codex优化GPU利用率,提升生成速度20%的做法。
      引用:"The ability for agentic LLMs to improve computational efficiency/speed is a highly impactful domain..."(评论5)
    • 效率对比成为焦点,例如与Opus的token消耗差异。
      引用:"For a 56.7 score... GPT 5.5 used 22m output tokens. Opus 4.7 used 111m."(评论18)
  3. 应用场景与行业影响

    • 生成式AI在游戏开发(如3D地牢原型)中的潜力被看好。
      引用:"The game that this prompt generated is particularly impressive... similiar to flash era."(评论8)
    • 对生产力提升的质疑:部分用户认为AI可能只是娱乐工具,而非生产力革命。
      引用:"AI's main application has been information space... I doubt you will get more productivity from it."(评论13)
  4. 发布策略与用户体验

    • 用户对OpenAI快速迭代模型(如5.4到5.5)表示惊讶,但抱怨价格和访问限制。
      引用:"Worth the 100% price increase over GPT-5.4?"(评论17)
      引用:"tighter limits/higher prices."(评论28)
    • 分阶段发布策略引发等待不满。
      引用:"the rollout... will be gradual... slightly annoying to wait."(评论14)
  5. 行业竞争与透明度

    • 用户希望行业更关注“低token高分数”的竞争,而非单纯堆料。
      引用:"competing more on highest scores with lowest tokens... a win for everybody."(评论29)
    • 对OpenAI的透明度提出要求,如数据隐私证明。
      引用:"Some technical proof that data is never read by open ai."(评论26)

其他观点:

  • 幽默/吐槽:如“伦理训练权重”的调侃(评论1)或“等待鹈鹕出现”的无厘头留言(评论20)。
  • 功能需求:如支持MCP协议(评论10)或询问迷你版模型(评论9)。

总结:评论围绕性能、效率、价格、应用和行业竞争展开,认可技术进步的同时,对创新性、透明度和实际价值提出质疑。