Hacker News 中文摘要

RSS订阅

开发者版GPT-5.1 -- GPT-5.1 for Developers

文章摘要

OpenAI发布了GPT-5.1模型,该模型能根据任务复杂度动态调整响应速度,在简单任务上更快更高效,并新增"无推理"模式。优化了提示缓存和优先级处理,提升了编码能力和交互体验,新增了代码编辑和运行命令工具。

文章总结

标题:开发者专属GPT-5.1正式发布

核心内容:

  1. 模型升级
  • GPT-5.1作为GPT-5系列新成员,在API平台正式推出
  • 采用动态思维机制,根据任务复杂度自动调整思考时间,简单任务响应速度提升2-3倍
  • 新增"无推理"模式(reasoning_effort='none'),适用于低延迟场景
  1. 性能优化
  • 扩展提示缓存保留时间至24小时,后续问题响应速度提升且成本降低
  • 优先级处理客户体验显著优于GPT-5
  • 在SWE-bench测试中达成76.3%的准确率,较GPT-5提升3.5个百分点
  1. 编程增强
  • 与Cursor等多家初创公司合作优化代码个性化和可操控性
  • 改进内容包括:
    • 更直观的编码体验
    • 减少过度思考
    • 提升代码质量
    • 优化工具调用时的用户提示
  1. 新增工具
  • apply_patch工具:通过结构化差异实现可靠代码编辑
  • shell工具:支持在本地环境执行命令行操作
  1. 实际案例
  • Balyasny资产管理公司报告显示处理速度提升2-3倍,token消耗减少50%
  • Pace保险公司测试显示代理效率提升50%且准确率更高
  • Sierra公司实测"无推理"模式下工具调用性能提升20%
  1. 技术细节
  • 提供4种推理强度设置(无/低/中/高)
  • 缓存输入token价格较非缓存低90%
  • 保持与GPT-5相同的定价策略
  1. 未来规划
  • 将持续投资开发更智能的代理工作流模型
  • 即将推出针对长期编码任务优化的gpt-5.1-codex系列

(注:移除了原文中的大量外部链接、具体公司评价细节及部分技术参数表格,保留核心功能描述和关键性能数据)

评论总结

以下是评论内容的总结:

  1. 对GPT-5.1的积极评价

    • 用户对GPT-5.1的编码能力表示认可,认为其在解决复杂问题(如Swift并发语义)上表现优异。
      "Codex with 5.1 high managed to thoughtfully paw through the documentation...correctly resolve the issue."
      "The 'apply_patch' addition is nice, as have been struggling to get any AI API to correctly return diffs"
  2. 与其他模型的比较

    • 用户认为Claude 4.5 Sonnet在编码任务中存在缺陷,而Gemini CLI体验较差。
      "Claude 4.5 Sonnet definitely struggles with Swift 6.2 Concurrency semantics..."
      "Gemini CLI is an altogether embarrassing experience..."
  3. 对产品命名和文档的批评

    • 用户对GPT-5.1的命名和文档的混乱表示不满,认为信息不清晰。
      "Man these names are so confusing..."
      "The docs make no mention if gpt-5.1-chat-latest is included in the 'free' offer..."
  4. 对模型发布动态的观察

    • 用户注意到模型发布的关注度相比一年前有所下降。
      "Crazy how the dynamics have changed around model releases in just a single year."
  5. 对合作对象的疑问

    • 用户质疑为何没有与GitHub合作。
      "Why no GitHub?"
  6. 对GPT-5.1与Codex关系的疑问

    • 用户询问GPT-5.1是改进、替代还是与现有Codex不同。
      "So is this better, different or replacing current codex ?"

总结:评论中对GPT-5.1的编码能力普遍持肯定态度,但也存在对产品命名、文档清晰度以及与其他模型比较的批评。部分用户对模型发布的关注度变化和合作对象提出了疑问。