Hacker News 中文摘要

RSS订阅

Claude代码每日基准测试用于退化追踪 -- Claude Code Daily Benchmarks for Degradation Tracking

文章摘要

Marginlab发布了Claude Code Opus 4.5性能追踪器,旨在通过每日基准测试和统计分析,监测该模型在软件工程任务中的性能退化情况。追踪器直接使用最新模型进行测试,不依赖定制框架,并提供性能警报功能。(最后更新:2026年1月29日)

文章总结

《Claude Code Opus 4.5性能追踪报告 | Marginlab》

核心内容: 1. 项目目标 - 监测Claude Code Opus 4.5在软件工程任务中的性能退化情况 - 采用统计显著性检测(p值<0.05) - 每日更新基准测试数据

  1. 关键指标(截至2026年1月29日)
  • 基准通过率:58%(历史平均值)
  • 当日通过率:50%(50次评估)
  • 7日通过率:53%(250次评估)
  • 30日通过率:54%(655次评估)
  • 检测到过去30天存在显著性能退化
  1. 监测方法
  • 使用SWE-Bench-Pro精选子集进行每日评估
  • 直接通过Claude Code CLI测试最新版本
  • 每日测试50个实例,周/月数据采用滚动聚合
  • 采用伯努利随机变量模型计算95%置信区间
  1. 数据可视化
  • 每日趋势图:显示±14%的显著性阈值带
  • 周趋势图:采用±5.6%的平滑阈值
  • 提供性能变化概览仪表盘
  1. 背景说明
  • 独立第三方监测,与模型供应商无关联
  • 受Anthropic 2025年9月发布的性能退化分析报告启发
  • 同时监测模型和框架的变化影响
  1. 订阅服务
  • 提供性能显著下降的邮件提醒功能

(注:已剔除网站导航栏、图片引用、重复的统计说明等非核心内容,保留关键数据指标和监测方法论的核心细节)

评论总结

评论内容总结:

1. 关于Claude性能下降的观察

  • 观点:有用户报告Claude在SWE-Bench-Pro上的准确率在过去一个月显著下降约4%。
    • 引用:"FYI the MarginLab Claude Code degradation tracker is showing a statistically significant ~4% drop in SWE-Bench-Pro accuracy over the past month" (评论1)
    • 引用:"I've been using CC more or less 8 hrs/day for the past 2 weeks, and if anything it feels like CC is getting better and better at actual tasks." (评论4)

2. 关于性能下降原因的讨论

  • 观点:性能波动可能由多种因素引起,如模型量化、A/B测试、工具更新或服务器负载。
    • 引用:"Wouldn't be surprised if they slowly start quantizing their models over time." (评论9)
    • 引用:"There are much better explanations for this oscillation: A) They have multiple checkpoints and are A/B testing..." (评论12)

3. 关于测试方法的质疑

  • 观点:当前测试方法可能存在样本量不足或统计方法不准确的问题。
    • 引用:"It seems like they run this test on a subset of 50 tasks, and that they only run the test once per day." (评论10)
    • 引用:"Doesn't really work like that. I'd remove the 'statistically significant' labelling because it's misleading." (评论13)

4. 用户个人体验的差异

  • 观点:部分用户报告性能下降,而另一些用户则认为性能有所提升或保持稳定。
    • 引用:"I have yet to experience any degradation in coding tasks I use to evaluate Opus 4.5..." (评论20)
    • 引用:"After a certain number of tokens per day, it becomes unusable." (评论16)

5. 关于建立AI性能监控系统的建议

  • 观点:建议建立类似医药行业的AI性能监控系统,以跟踪和报告AI模型的性能变化。
    • 引用:"We should have something like that for all coding agents... Call it the AI 'health' of things benchmark." (评论11)

6. 其他建议和反馈

  • 观点:用户提出了一些改进建议,如增加RSS支持、优化图表显示等。
    • 引用:"That will be great if there's RSS support." (评论21)
    • 引用:"The chart would benefit from having weekends highlighted." (评论22)

总结:

评论中主要围绕Claude性能是否下降、可能的原因以及测试方法的有效性展开讨论。部分用户通过数据或亲身经历报告性能下降,而另一些用户则认为性能稳定或提升。测试方法的样本量和统计显著性受到质疑,同时有用户建议建立更系统的AI性能监控机制。整体讨论体现了对AI模型性能透明度和稳定性的高度关注。