Hacker News 中文摘要

RSS订阅

开发者必备的GPT-5 -- GPT-5 for Developers

文章摘要

OpenAI发布了GPT-5,这是其API平台上的最新模型,专为编码和代理任务设计。GPT-5在关键编码基准测试中表现优异,擅长生成高质量代码、修复错误、编辑代码及解答复杂代码库问题。该模型具有高度可控性和协作性,能够准确执行详细指令,并在工具调用前后提供解释。GPT-5在前端编码方面表现突出,在内部测试中优于其他模型。通过与初创企业和企业的早期测试者合作,GPT-5在真实世界的编码任务中展现了卓越性能,被评价为“最智能的模型”和“最佳前端AI模型”。

文章总结

GPT-5 开发者版发布:更强大的编码与任务执行能力

OpenAI 近日发布了 GPT-5,这是其 API 平台中的最新模型,专为编码和任务执行优化。GPT-5 在多个关键编码基准测试中表现优异,尤其在 SWE-bench Verified 和 Aider polyglot 测试中分别获得了 74.9% 和 88% 的高分。该模型不仅能够生成高质量的代码,还能高效处理修复漏洞、编辑代码和解答复杂代码库问题等任务。

编码协作与前端开发
GPT-5 被设计为真正的编码协作工具,能够根据详细指令执行任务,并在工具调用前后提供清晰的解释。在前端开发方面,GPT-5 在内部测试中击败了 OpenAI o3,70% 的情况下表现更优。通过与初创企业和大型企业的早期测试者合作,GPT-5 在真实世界的编码任务中展现了卓越的能力。例如,Cursor 称其为“最智能的模型”,Windsurf 表示其工具调用错误率仅为其他前沿模型的一半,而 Vercel 则认为它是“最佳的前端 AI 模型”。

长期任务执行与工具调用
GPT-5 在长期任务执行方面同样表现出色,尤其是在 τ 2-bench telecom 测试中取得了 96.7% 的成绩。该模型能够可靠地串联数十个工具调用,无论是顺序还是并行执行,都能保持高效。ManusNotion 等公司也对其在复杂任务中的快速响应和深度推理能力给予了高度评价。

API 新功能
为了给开发者提供更多控制权,GPT-5 引入了新的 verbosity 参数(低、中、高),用于控制回答的简洁性或详细程度。此外,reasoning_effort 参数现在支持最小值,以便在不进行深入推理的情况下快速获得答案。GPT-5 还支持自定义工具,允许开发者通过纯文本而非 JSON 调用工具。

模型版本与定价
GPT-5 提供了三种版本:gpt-5gpt-5-minigpt-5-nano,开发者可以根据性能、成本和延迟需求进行选择。GPT-5 的定价为每百万输入 token 1.25 美元,每百万输出 token 10 美元。该模型还将在微软的多个平台上推出,包括 Microsoft 365 Copilot 和 GitHub Copilot。

安全性与可靠性
GPT-5 在安全性方面也有显著提升,减少了幻觉现象,并更诚实地向用户传达其行为和能力。开发者可以在高风险场景下验证其输出,以确保准确性。

总结
GPT-5 是 OpenAI 迄今为止最强大的编码模型,不仅在基准测试中超越了 o3,还在真实世界的应用中展现了卓越的性能。无论是编码协作、前端开发还是复杂任务执行,GPT-5 都为开发者提供了更高效、更可靠的解决方案。

评论总结

评论内容总结:

  1. 模型性能与对比

    • 有评论提到GPT-5在长任务处理上表现出色,但在某些基准测试(如Tau2-bench airline)上表现不如GPT-3。
      • 引用:"GPT‑5 also excels at long-running agentic tasks—achieving SOTA results on τ2-bench telecom (96.7%)" (评论2)
      • 引用:"it performs worse than o3 on Tau2-bench airline" (评论11)
    • 有用户认为GPT-5与Claude Opus 4.1在软件开发能力上差异不大,主要关注点在于上下文管理能力。
      • 引用:"Between Opus and GPT-5, it's not clear there's a substantial difference in software development expertise." (评论3)
  2. 实际使用体验

    • 一些用户对Claude模型的可靠性和实际使用效果表示赞赏,期待GPT-5能在实际应用中表现出色。
      • 引用:"the only models that actually work in any sort of reliable way are claude models." (评论4)
    • 有用户对GPT-5在RAG场景中的表现表示满意,特别是在减少幻觉生成方面。
      • 引用:"I used gpt-5-mini with reasoning_effort="minimal", and that model finally resisted a hallucination that every other model generated." (评论15)
  3. API与发布问题

    • 有用户反映GPT-5的API尚未完全推出,部分用户无法访问。
      • 引用:"Tried using gpt-5 family with response API and got error "gpt-5 does not exist or you don't have access to it"." (评论8)
    • 有用户对OpenAI的发布策略表示不满,认为其试图通过Responses API锁定用户。
      • 引用:"Looks like they're trying to lock us into using the Responses API for all the good stuff." (评论18)
  4. 功能与创新

    • 有用户对GPT-5支持上下文无关语法和正则表达式表示兴奋,期待其在实际应用中的表现。
      • 引用:"Context-free grammar and regex support are exciting." (评论13)
    • 有用户对GPT-5的定价表示认可,认为其性价比高。
      • 引用:"If the model is as good as the benchmarks say, the pricing is fantastic." (评论11)
  5. 批评与期望

    • 有用户对OpenAI未能实现AGI表示失望,认为其发布的模型仍局限于代码生成。
      • 引用:"We were promised AGI and all we got was code generators..." (评论14)
    • 有用户对GPT-5的发布表示不满,认为其基准测试结果并不能完全反映实际性能。
      • 引用:"This was really a bad release for OpenAI, if benchmarks are even somewhat indicative of how the model will perform in practice." (评论10)

总结:评论中对GPT-5的性能、实际使用体验、API发布问题、功能创新以及OpenAI的发布策略和期望存在不同观点。部分用户对其在长任务处理和定价方面表示认可,但也有用户对其在特定基准测试上的表现和未能实现AGI表示失望。