Hacker News 中文摘要

RSS订阅

Claude代码每日基准测试用于退化追踪 -- Claude Code Daily Benchmarks for Degradation Tracking

原文链接 | HN讨论 | 2026-01-30 00:43:53

文章摘要

Marginlab发布了Claude Code Opus 4.5性能追踪器，旨在通过每日基准测试和统计分析，监测该模型在软件工程任务中的性能退化情况。追踪器直接使用最新模型进行测试，不依赖定制框架，并提供性能警报功能。（最后更新：2026年1月29日）

文章总结

《Claude Code Opus 4.5性能追踪报告 | Marginlab》

核心内容： 1. 项目目标 - 监测Claude Code Opus 4.5在软件工程任务中的性能退化情况 - 采用统计显著性检测（p值<0.05） - 每日更新基准测试数据

关键指标（截至2026年1月29日）

基准通过率：58%（历史平均值）
当日通过率：50%（50次评估）
7日通过率：53%（250次评估）
30日通过率：54%（655次评估）
检测到过去30天存在显著性能退化

监测方法

使用SWE-Bench-Pro精选子集进行每日评估
直接通过Claude Code CLI测试最新版本
每日测试50个实例，周/月数据采用滚动聚合
采用伯努利随机变量模型计算95%置信区间

数据可视化

每日趋势图：显示±14%的显著性阈值带
周趋势图：采用±5.6%的平滑阈值
提供性能变化概览仪表盘

背景说明

独立第三方监测，与模型供应商无关联
受Anthropic 2025年9月发布的性能退化分析报告启发
同时监测模型和框架的变化影响

订阅服务

提供性能显著下降的邮件提醒功能

（注：已剔除网站导航栏、图片引用、重复的统计说明等非核心内容，保留关键数据指标和监测方法论的核心细节）

评论总结

评论内容总结：

1. 关于Claude性能下降的观察

观点：有用户报告Claude在SWE-Bench-Pro上的准确率在过去一个月显著下降约4%。
- 引用："FYI the MarginLab Claude Code degradation tracker is showing a statistically significant ~4% drop in SWE-Bench-Pro accuracy over the past month" (评论1)
- 引用："I've been using CC more or less 8 hrs/day for the past 2 weeks, and if anything it feels like CC is getting better and better at actual tasks." (评论4)

2. 关于性能下降原因的讨论

观点：性能波动可能由多种因素引起，如模型量化、A/B测试、工具更新或服务器负载。
- 引用："Wouldn't be surprised if they slowly start quantizing their models over time." (评论9)
- 引用："There are much better explanations for this oscillation: A) They have multiple checkpoints and are A/B testing..." (评论12)

3. 关于测试方法的质疑

观点：当前测试方法可能存在样本量不足或统计方法不准确的问题。
- 引用："It seems like they run this test on a subset of 50 tasks, and that they only run the test once per day." (评论10)
- 引用："Doesn't really work like that. I'd remove the 'statistically significant' labelling because it's misleading." (评论13)

4. 用户个人体验的差异

观点：部分用户报告性能下降，而另一些用户则认为性能有所提升或保持稳定。
- 引用："I have yet to experience any degradation in coding tasks I use to evaluate Opus 4.5..." (评论20)
- 引用："After a certain number of tokens per day, it becomes unusable." (评论16)

5. 关于建立AI性能监控系统的建议

观点：建议建立类似医药行业的AI性能监控系统，以跟踪和报告AI模型的性能变化。
- 引用："We should have something like that for all coding agents... Call it the AI 'health' of things benchmark." (评论11)

6. 其他建议和反馈

观点：用户提出了一些改进建议，如增加RSS支持、优化图表显示等。
- 引用："That will be great if there's RSS support." (评论21)
- 引用："The chart would benefit from having weekends highlighted." (评论22)

总结：

评论中主要围绕Claude性能是否下降、可能的原因以及测试方法的有效性展开讨论。部分用户通过数据或亲身经历报告性能下降，而另一些用户则认为性能稳定或提升。测试方法的样本量和统计显著性受到质疑，同时有用户建议建立更系统的AI性能监控机制。整体讨论体现了对AI模型性能透明度和稳定性的高度关注。