文章摘要
Marginlab发布了Claude Code Opus 4.5性能追踪器,旨在通过每日基准测试和统计分析,监测该模型在软件工程任务中的性能退化情况。追踪器直接使用最新模型进行测试,不依赖定制框架,并提供性能警报功能。(最后更新:2026年1月29日)
文章总结
《Claude Code Opus 4.5性能追踪报告 | Marginlab》
核心内容: 1. 项目目标 - 监测Claude Code Opus 4.5在软件工程任务中的性能退化情况 - 采用统计显著性检测(p值<0.05) - 每日更新基准测试数据
- 关键指标(截至2026年1月29日)
- 基准通过率:58%(历史平均值)
- 当日通过率:50%(50次评估)
- 7日通过率:53%(250次评估)
- 30日通过率:54%(655次评估)
- 检测到过去30天存在显著性能退化
- 监测方法
- 使用SWE-Bench-Pro精选子集进行每日评估
- 直接通过Claude Code CLI测试最新版本
- 每日测试50个实例,周/月数据采用滚动聚合
- 采用伯努利随机变量模型计算95%置信区间
- 数据可视化
- 每日趋势图:显示±14%的显著性阈值带
- 周趋势图:采用±5.6%的平滑阈值
- 提供性能变化概览仪表盘
- 背景说明
- 独立第三方监测,与模型供应商无关联
- 受Anthropic 2025年9月发布的性能退化分析报告启发
- 同时监测模型和框架的变化影响
- 订阅服务
- 提供性能显著下降的邮件提醒功能
(注:已剔除网站导航栏、图片引用、重复的统计说明等非核心内容,保留关键数据指标和监测方法论的核心细节)
评论总结
评论内容总结:
1. 关于Claude性能下降的观察
- 观点:有用户报告Claude在SWE-Bench-Pro上的准确率在过去一个月显著下降约4%。
- 引用:"FYI the MarginLab Claude Code degradation tracker is showing a statistically significant ~4% drop in SWE-Bench-Pro accuracy over the past month" (评论1)
- 引用:"I've been using CC more or less 8 hrs/day for the past 2 weeks, and if anything it feels like CC is getting better and better at actual tasks." (评论4)
2. 关于性能下降原因的讨论
- 观点:性能波动可能由多种因素引起,如模型量化、A/B测试、工具更新或服务器负载。
- 引用:"Wouldn't be surprised if they slowly start quantizing their models over time." (评论9)
- 引用:"There are much better explanations for this oscillation: A) They have multiple checkpoints and are A/B testing..." (评论12)
3. 关于测试方法的质疑
- 观点:当前测试方法可能存在样本量不足或统计方法不准确的问题。
- 引用:"It seems like they run this test on a subset of 50 tasks, and that they only run the test once per day." (评论10)
- 引用:"Doesn't really work like that. I'd remove the 'statistically significant' labelling because it's misleading." (评论13)
4. 用户个人体验的差异
- 观点:部分用户报告性能下降,而另一些用户则认为性能有所提升或保持稳定。
- 引用:"I have yet to experience any degradation in coding tasks I use to evaluate Opus 4.5..." (评论20)
- 引用:"After a certain number of tokens per day, it becomes unusable." (评论16)
5. 关于建立AI性能监控系统的建议
- 观点:建议建立类似医药行业的AI性能监控系统,以跟踪和报告AI模型的性能变化。
- 引用:"We should have something like that for all coding agents... Call it the AI 'health' of things benchmark." (评论11)
6. 其他建议和反馈
- 观点:用户提出了一些改进建议,如增加RSS支持、优化图表显示等。
- 引用:"That will be great if there's RSS support." (评论21)
- 引用:"The chart would benefit from having weekends highlighted." (评论22)
总结:
评论中主要围绕Claude性能是否下降、可能的原因以及测试方法的有效性展开讨论。部分用户通过数据或亲身经历报告性能下降,而另一些用户则认为性能稳定或提升。测试方法的样本量和统计显著性受到质疑,同时有用户建议建立更系统的AI性能监控机制。整体讨论体现了对AI模型性能透明度和稳定性的高度关注。