Hacker News 中文摘要

RSS订阅

GPT-5:迟来、过度炒作与令人失望。这还不是最糟的。 -- GPT-5: Overdue, overhyped and underwhelming. And that's not the worst of it

文章摘要

GPT-5的发布被过度炒作,但实际表现令人失望,未能巩固OpenAI的领先地位。尽管Sam Altman在发布前自信满满,甚至引用《星球大战》电影造势,但GPT-5的表现远未达到预期。更糟糕的是,一篇新研究论文揭示了更深层次的问题,进一步加剧了生成式AI领域的困境。

文章总结

GPT-5:迟到、过度炒作与令人失望的表现,但这还不是最糟糕的部分

生成式AI最近经历了一个糟糕的时期,而GPT-5的迟到和表现平平甚至不是最糟糕的部分。在讨论最糟糕的部分之前(剧透:一篇新的研究论文),我们先回顾一下GPT-5的混乱首秀。

OpenAI原本希望通过GPT-5巩固其主导地位,但结果却令人失望。尽管Sam Altman在直播前自信满满地引用了《星球大战》中的“死星”场景,暗示GPT-5将带来革命性突破,但现实却远未达到预期。直播中,Altman声称GPT-5将像与“真正的博士级专家”对话一样智能,然而几天后,几乎没有人买账。

用户对GPT-5的失望情绪迅速蔓延。3000人甚至发起请愿,要求恢复旧版模型。OpenAI的Reddit社区通常支持该公司,但这次却充斥着负面评论。Altman的“死星”推文也被网友调侃为“未老先衰”。

GPT-5的表现并未带来实质性的突破。尽管OpenAI承诺它将超越前代模型,但用户很快发现了大量荒谬的错误和幻觉。例如,GPT-5在处理伯努利效应的演示时表现糟糕,自动路由机制也被批评为一团糟。与GPT-3和GPT-4相比,GPT-5的进步微乎其微,甚至在某些基准测试中表现更差。

用户的失望情绪源于过高的期望。许多人曾认为GPT-5将接近通用人工智能(AGI),但事实证明,它仍然是一个基于大规模语言模型的工具,无法解决根本性的问题。OpenAI的声誉因此大幅下滑,市场对其未来主导地位的信心也急剧下降。

更糟糕的是,亚利桑那州立大学的一项最新研究揭示了大型语言模型(LLMs)的核心弱点:它们无法在训练数据分布之外进行有效的泛化。这一发现验证了作者多年来对LLMs的批评,即单纯依靠规模扩展无法实现AGI。

OpenAI面临的挑战不仅限于技术层面。公司内部人才流失严重,许多前员工创立了竞争对手公司。与此同时,Elon Musk、Anthropic和Google等竞争对手正在迅速追赶。OpenAI与微软的关系也出现了裂痕。尽管OpenAI拥有品牌知名度和良好的用户体验,但其估值是否能够维持在当前水平仍存疑。

Altman的声誉也因GPT-5的失败而受损。他曾多次暗示OpenAI已接近实现AGI,但GPT-5的表现证明这些言论不过是夸大其词。如果他不过度炒作,用户或许会对GPT-5的渐进式改进感到满意。

生成式AI领域的整体前景也不容乐观。其他系统如Grok在总结科学论文时也出现了严重错误,甚至无法准确报告现有科学研究的结论。这表明,AI在创新科学方面的能力仍然有限。

最终,GPT-5的失败揭示了单纯依靠规模扩展无法实现AGI的现实。作者呼吁业界关注神经符号AI和显式世界模型,认为只有通过结合符号推理和深度学习,才能真正迈向AGI。

总之,GPT-5的发布不仅未能满足用户的高期望,还暴露了生成式AI领域的深层次问题。未来,业界需要寻找新的技术路径,而不仅仅是依赖规模扩展。

评论总结

评论内容总结:

  1. GPT-5的性能与成本

    • 一些用户认为GPT-5是OpenAI的降本措施,性能提升有限,甚至不如之前的版本(如O3)。
    • 引用:"GPT5 is really a cost cutting measure" (mikert89);"GPT5-thinking is much faster but doesnt produce the same quality results as o3" (adeptima)。
    • 但也有用户认为GPT-5在某些任务上表现优异,尤其是在代码修复和研究反馈方面。
    • 引用:"GPT-5 was able to fix a variety of bugs" (resters);"GPT-5-pro was able to offer some high quality critiques" (resters)。
  2. GPT-5的局限性

    • 用户指出GPT-5在对话连贯性、上下文理解和深度研究方面存在问题。
    • 引用:"It seems to lose the thread of the conversation quite abruptly" (calrain);"Deep research is broken" (SerCe)。
    • 此外,GPT-5在处理未知问题时容易“幻觉”,无法承认自己不知道。
    • 引用:"ChatGPT 5 just hallucinated some APIs" (chmod775)。
  3. 对Gary Marcus的批评

    • 一些评论认为Gary Marcus的文章过于负面,缺乏实质性分析,更多是迎合反AI情绪。
    • 引用:"Gary Marcus would have wrote this article in all possible scenarios" (hexage1814);"He just sounds bitter with a weird grudge against Altman" (Havoc)。
    • 但也有用户支持Marcus,认为他对AI领域的批评有助于保持透明度和行业诚信。
    • 引用:"Marcus has been proven correct on several fronts" (mentalgear)。
  4. 对AI发展的期望

    • 许多用户认为GPT-5只是渐进式改进,不应期待奇迹或AGI(人工通用智能)。
    • 引用:"GPT-5 is just the latest incremental advance" (kylecazar);"Nobody has any fucking idea" (joshuamoyers)。
    • 也有观点认为,AI领域的进步更多依赖于架构创新,而非单纯的数据扩展。
    • 引用:"Every refinement in AI from here on will come from architectural changes" (rpmisms)。
  5. 用户体验与性能

    • 用户普遍反映GPT-5的响应速度较慢,且UI体验不佳。
    • 引用:"The existing UI prompt unbearably slow" (asciii);"It goes into thinking mode all the time making the responses slow" (osigurdson)。
    • 但也有用户认为GPT-5在某些任务上表现优于其他模型,如Claude和Gemini。
    • 引用:"It’s about 1/5 the price of Claude Sonnet 4.1, with roughly comparable results" (chromaton)。

总结:
评论对GPT-5的评价呈现两极分化,一方面认可其在某些任务上的表现和成本优势,另一方面批评其在对话连贯性、深度研究和用户体验上的不足。同时,对Gary Marcus的文章也存在争议,部分用户认为其批评缺乏深度,而另一些用户则认为其观点有助于行业反思。总体而言,用户对GPT-5的期望较为理性,认为其是渐进式改进而非革命性突破。