文章摘要
OpenAI最新发布的GPT-5与Claude 4 Sonnet在复杂代理编码任务中进行了对比测试。尽管GPT-5尚处于预览阶段且存在一些待优化的问题,但两者在任务中的表现均令人印象深刻。测试任务为审查Ruler工具的当前实现,Claude Sonnet在编码领域已有一定积累,而GPT-5则展现了其作为新模型的潜力。
文章总结
GPT-5与Claude 4 Sonnet在复杂代理编码中的表现对比
2025年8月8日,OpenAI发布了GPT-5,并宣称这是其迄今为止最强大的代理编码模型。作者在GitHub Copilot中测试了GPT-5,并与Claude 4 Sonnet进行了对比。测试任务是将其开发的TypeScript工具Ruler移植到Rust语言中。
GPT-5的表现: GPT-5在任务开始时表现出了强大的规划能力,详细分析了代码库并制定了详细的移植计划。它在执行任务时表现出高度的自主性,能够持续工作并完成大部分任务,几乎不需要人工干预。然而,GPT-5在编写Rust代码时选择了将所有内容放在一个文件中,导致代码结构不够优雅。此外,GPT-5在任务过程中两次卡住,需要人工干预才能继续。
Claude 4 Sonnet的表现: Claude 4 Sonnet在执行任务时速度更快,但它的工作方式与GPT-5不同。Claude倾向于尝试多种方法,过程中会犯一些明显的错误,但最终能够通过多次迭代完成任务。它的代码结构更为优雅,模块化设计使得代码更易于维护。然而,Claude在执行过程中不够严谨,经常偏离指令,且无法提供可靠的任务状态报告。
总结: - GPT-5:擅长规划和执行任务,代码功能完整但结构不佳,任务过程中偶尔需要人工干预。 - Claude 4 Sonnet:代码结构优雅,执行速度快,但不够严谨,经常偏离指令,且无法提供可靠的任务状态报告。
GitHub Copilot的使用体验: GitHub Copilot在代理编码方面表现出色,支持多种工具和IDE交互。然而,终端命令需要手动批准,这在长时间任务中增加了用户的工作量。作者希望未来GitHub Copilot能够提供自动批准命令的功能,以减少人工干预。
结论: GPT-5在智能性和任务执行能力上表现出色,适合复杂的编码任务;而Claude 4 Sonnet在代码质量和交互体验上更胜一筹。两者各有优势,具体选择取决于用户的需求和偏好。
评论总结
评论总结
模型比较与成本
- 观点:Claude Opus 是 Anthropic 最强的模型,但成本高,未与 GPT-5 直接比较。
- 引用:
- "Claude Opus is their most capable model for coding, but it seemed inappropriate to compare it with GPT-5 because it costs 10 times as much."
- "This should have been compared with Opus... if Claude Opus 4.1 is significantly better than GPT 5 then that could offset the extra expense."
模型性能与使用体验
- 观点:GPT-5 在某些任务上表现更好,但 Claude 在处理复杂代码库时更可靠。
- 引用:
- "GPT5 (in Cursor) feels smarter in isolation, but CC with Opus is faster and better at real tasks involving a large codebase."
- "Claude Code was just more reliable... it was much slower in terms of setting up the project."
模型训练与适用场景
- 观点:Claude 更适合生产代码,GPT-5 更适合一次性脚本。
- 引用:
- "Claude is trained for claude code and that’s how it’s used in the field too."
- "ChatGPT 5 demo yesterday, I noticed most of the code seemed oriented towards one-off scripts rather than maintainable codebases."
模型行为与策略
- 观点:Claude 通过“摸索”逐步解决问题,GPT-5 则倾向于一次性正确执行。
- 引用:
- "Claude frantically tried different things... but then recovering. This meant it eventually got to correct implementation with many more steps."
- "I sure hope GPt-5 is muddling on the backend, else I suspect it will be very brittle."
工具与扩展性
- 观点:Claude Code 支持 TDD 等实践,GPT-5 和 Copilot 的扩展性尚不明确。
- 引用:
- "I have been using Claude Code with TDD through hooks, which significantly improved my workflow for production code."
- "Does anyone know if ChatGPT 5 or Copilot have similar extensibility to enforce practices like TDD?"
模型评价与客观性
- 观点:模型评价缺乏客观标准,容易受到个人偏见和营销影响。
- 引用:
- "At the moment it feels like most people 'reviewing' models depends on their believes and agenda."
- "The blurring boundaries between technical overview, news, opinions and marketing is truly concerning."
成本与效率
- 观点:如果 Sonnet 成本更高且需要更多尝试,GPT-5 可能更适合日常使用。
- 引用:
- "If Sonnet is more expensive AND more chatty/requires more attempts for the same result, seems like that would favor GPT5 for daily driver."
混合使用建议
- 观点:结合 GPT-5 的规划能力和 Claude 的执行能力可能产生更好效果。
- 引用:
- "Using ChatGPT-5 for planning/analysis and using Claude for execution."