Hacker News 中文摘要

RSS订阅

GPT-5.4迷你版与纳米版 -- GPT‑5.4 Mini and Nano

文章摘要

OpenAI发布了GPT-5.4 mini和nano两款小型高效模型。mini版在编码、推理等任务上表现接近大模型,速度提升2倍;nano版是最小最经济的版本,适合简单任务。这些模型专为需要低延迟的实时应用场景设计,在响应速度、工具使用和专业任务处理上表现优异。

文章总结

OpenAI发布GPT-5.4 mini和nano两款高效小模型

OpenAI今日推出GPT-5.4 mini和nano两款新型号,这是其迄今为止性能最强的小型模型。这两款模型继承了GPT-5.4的核心优势,同时针对高负载场景进行了优化,具有更快的响应速度和更高的运行效率。

性能表现: - GPT-5.4 mini在编程、推理、多模态理解和工具使用方面较GPT-5 mini有显著提升,运行速度提高2倍以上。在SWE-Bench Pro和OSWorld-Verified等测试中接近大型GPT-5.4模型的性能。 - GPT-5.4 nano是速度最快、成本最低的版本,适合分类、数据提取、排序等简单支持性任务。

核心优势: 1. 编程场景:特别适合需要快速迭代的编程工作流,包括代码编辑、调试等低延迟任务。 2. 系统协同:可与大型模型配合使用,例如让GPT-5.4负责规划协调,GPT-5.4 mini处理具体子任务。 3. 计算机应用:在多模态任务表现优异,能快速解析复杂界面截图。

技术参数: - GPT-5.4 mini支持40万token上下文窗口 - API定价:输入token $0.75/百万,输出token $4.50/百万 - GPT-5.4 nano定价:输入token $0.20/百万,输出token $1.25/百万

应用场景: - 代码助手(Codex) - 计算机使用系统 - 实时图像推理应用 - 需要快速响应的代理系统

测试数据显示,GPT-5.4 mini在多项基准测试中表现优异,特别是在编程相关测试(SWE-Bench Pro 54.4%)和计算机使用测试(OSWorld-Verified 72.1%)方面接近大型模型水平。

这两款模型现已通过API、Codex和ChatGPT提供服务,其中GPT-5.4 mini在Codex中的使用成本仅为GPT-5.4的30%。

评论总结

以下是评论内容的总结,涵盖主要观点和论据,并保持不同观点的平衡性:

1. 模型性能与实用性

  • 支持者认为小型模型(如mini/nano)在简单任务中足够高效且成本更低,适合日常应用。
    • "For many 'simple' LLM tasks, GPT-5-mini was sufficient 99% of the time." (powera)
    • "when a smaller model releases a new version, the jump in quality is often massive... and they're also getting dramatically cheaper." (BoumTAC)
  • 质疑者指出性能提升有限且价格显著上涨,性价比存疑。
    • "models are getting more expensive and not actually getting cheaper?" (HugoDias)
    • "Based on SWE-Bench... latency for mini is considerably higher... Long context performance is also not great." (cbg0)

2. 价格与成本争议

  • 用户对比新旧版本价格,认为涨幅不合理(2-4倍),质疑是否物有所值。
    • "GPT 5 mini: Input $0.25 / Output $2.00... GPT 5.4 mini: Input $0.75 / Output $4.50" (HugoDias)
    • "Claude Sonnet 4.6... costs 4x more on input and 3x more on output" (kseniamorph)

3. 技术透明度与开源

  • 部分用户呼吁公开模型权重,否则对更新兴趣有限。
    • "I will be impressed when they release the weights... Until then, this is not that interesting." (ryao)
    • "OpenAI don't talk about the 'size' or 'weights' of these models any more." (derefr)

4. 应用场景与局限性

  • 开发者关注特定场景(如Codex集成、PDF处理)的适配性。
    • "In Codex, GPT‑5.4 mini... uses only 30% of the quota... for about one-third the cost." (beklein)
    • "which model... to process TONS of pdfs very very fast, and very accurate?" (fastpdfai)
  • 批评者指出模型在长上下文、指令理解等方面表现不佳。
    • "they seem not to understand the instructions... other models don’t have problem with the same prompt." (pscanf)

5. 行业竞争与评测标准

  • 用户认为缺乏与竞品(如Anthropic、Google)的客观对比。
    • "Not comparing with equivalent models from Anthropic or Google, interesting..." (yomismoaqui)
    • "Most 'Model X > Model Y' takes... seem based on an hour of unscientific manual prompting." (mikkelam)

6. 负面情绪与公司质疑

  • 部分用户表达对版本迭代疲劳、模型功能下降或公司决策的不满。
    • "I am feeling the version fatigue... incremental bs versions." (system2)
    • "Crazy how OAI is way behind now and the only one to blame is Sam..." (beernet)

7. 其他亮点

  • 速度优势:"GPT-5.4 Mini averages about 180-190 t/s... Gemini 3 Flash is about 130 t/s." (Tiberium)
  • 命名调侃:"They could call them something like 'sonnet' and 'haiki' maybe." (bananamogul)

总结:评论呈现两极分化,支持者认可小型模型的性价比和应用潜力,反对者则聚焦价格上涨、性能局限及缺乏透明度。开发者关注具体场景适配,而部分用户对OpenAI的长期策略提出质疑。