文章摘要
作者在预览GPT-5模型两周后,认为其表现稳定且令人印象深刻,虽然仍是大型语言模型,但错误率低且表现优异。文章总结了GPT-5的关键特性、在OpenAI模型家族中的定位、具有竞争力的定价策略,以及系统卡中的更多细节,如提示注入问题。
文章总结
GPT-5:关键特性、定价与模型卡
2025年8月7日,作者Simon Willison分享了他对GPT-5模型家族的预览体验。GPT-5是OpenAI最新推出的大型语言模型(LLM),虽然并未与之前的模型有显著差异,但在日常使用中表现出色,极少出错,且在处理复杂任务时常常令人印象深刻。
关键模型特性
GPT-5在ChatGPT中是一个混合模型,能够根据对话类型、复杂性、工具需求和用户意图(如提示中的“仔细思考”)自动选择不同的子模型。系统卡中提到,GPT-5包含一个智能且快速的模型用于回答大多数问题,一个深度推理模型用于处理更复杂的问题,以及一个实时路由器来决定使用哪个模型。当使用量达到上限时,系统会切换到迷你版模型处理剩余请求。
在API中,GPT-5提供了三个版本:常规版、迷你版和纳米版,每个版本都可以在四种推理级别(最小、低、中、高)下运行。模型的输入限制为272,000个token,输出限制为128,000个token,支持文本和图像输入,但仅支持文本输出。
在OpenAI模型家族中的定位
GPT-5系列模型旨在取代OpenAI现有的多数模型。系统卡中的表格展示了GPT-5与之前模型的对应关系。例如,GPT-4o对应GPT-5主模型,GPT-4o迷你版对应GPT-5迷你版。GPT-5 Pro模型目前仅通过ChatGPT提供,且仅限于每月200美元的订阅用户。
定价策略
GPT-5的定价极具竞争力,输入和输出token的成本分别为每百万1.25美元和10美元。迷你版和纳米版的价格更低,分别为每百万0.25美元/2美元和0.05美元/0.40美元。与GPT-4o相比,GPT-5的输入成本降低了一半,输出成本保持不变。此外,OpenAI还提供了token缓存的折扣,对于在几分钟内重复使用的输入token,折扣高达90%。
系统卡中的其他要点
GPT-5的训练数据包括公开的互联网信息、合作伙伴提供的数据以及用户和研究人员生成的内容。OpenAI通过高级数据过滤流程减少训练数据中的个人信息。GPT-5在减少幻觉、提高指令遵循和减少奉承行为方面取得了显著进展,特别是在写作、编码和健康等常见使用场景中表现突出。
安全性与提示注入
GPT-5引入了“安全完成”机制,旨在最大化输出的安全性,而不是简单地拒绝用户请求。尽管GPT-5在提示注入攻击中的成功率较低(56.8%),但提示注入仍然是一个未完全解决的问题,开发者在使用时仍需谨慎。
API中的思考痕迹
GPT-5的API提供了“思考痕迹”功能,用户可以通过设置reasoning参数来获取模型的推理摘要。此外,API还提供了reasoning_effort=minimal选项,以加快响应速度。
Pelican SVG生成测试
作者还测试了GPT-5生成“骑自行车的鹈鹕”SVG图像的能力。GPT-5生成的图像质量较高,鹈鹕和自行车的细节都较为准确。迷你版和纳米版的生成效果稍逊,但仍能识别出鹈鹕的基本特征。
总的来说,GPT-5在性能、定价和安全性方面都有显著提升,尽管提示注入问题仍未完全解决,但其在多个领域的表现令人期待。
评论总结
评论内容总结:
模型命名与简化:
- 有评论认为新的命名规则更清晰,有助于理解和使用(评论4:This new naming conventions, while not perfect are alot clearer and I am sure will help my coworkers.)。
- 但也有评论指出,模型选项的复杂性增加,用户在选择时可能会感到困惑(评论7:Is it actually simpler? For those who are currently using GPT 4.1, we're going from 3 options to at least 8...)。
模型性能与改进:
- 有评论对模型的推理能力表示期待,认为不同推理级别的输出差异可能很大(评论8:Would been interesting to see a comparison between low, medium and high reasoning_effort pelicans...)。
- 但也有评论认为GPT-5的改进是渐进的,而非颠覆性的(评论14:It does sort of give me the vibe that the pure scaling maximalism really is dying off though...)。
定价与市场竞争:
- 有评论指出OpenAI的定价策略较为激进,可能反映了市场竞争的激烈(评论10:The aggressive pricing here seems unusual for OpenAI. If they had a large moat, they wouldn't need to do this.)。
API与用户体验:
- 有评论对API的改进表示赞赏,特别是减少了响应延迟(评论15:Without that option the API will often provide a lengthy delay...)。
- 但也有评论对移除温度参数控制表示担忧,认为这会影响任务的稳定性(评论9:Can anyone explain to me why they've removed parameter controls for temperature and top-p in reasoning models...)。
模型应用与公平性:
- 有评论对模型在招聘、商业等领域的应用表示失望,认为其公平性评估过于简单(评论2:Despite the fact that their models are used in hiring, business, education, etc this multibillion company uses one benchmark with very artificial questions...)。
总结:评论中对GPT-5的命名、性能、定价、API改进等方面有不同看法,既有期待也有担忧,反映了用户对新技术复杂性和实用性的关注。