Hacker News 中文摘要

RSS订阅

近期Claude代码质量报告更新 -- An update on recent Claude Code quality reports

文章摘要

Anthropic公司针对用户反馈的Claude响应质量下降问题进行了调查,发现三个独立的技术问题分别影响了Claude Code、Claude Agent SDK和Claude Cowork。这些问题包括:3月4日调整的默认推理强度设置不当、3月26日引入的会话清理功能存在bug等。所有问题已在4月20日发布的v2.1.116版本中修复。公司强调从未故意降低模型性能,API服务未受影响,并承诺改进流程防止类似问题再次发生。

文章总结

标题:关于近期Claude代码质量问题的更新说明

过去一个月,我们收到部分用户关于Claude响应质量下降的反馈。经排查发现这些问题源于三项独立变更,分别涉及Claude Code、Claude Agent SDK和Claude Cowork组件(API服务未受影响)。截至4月20日(v2.1.116版本),所有问题均已修复。

核心问题分析:

  1. 推理强度调整(3月4日)
  • 将Claude Code默认推理强度从"高"降为"中"以解决界面卡顿问题
  • 4月7日根据用户反馈恢复为"高"强度(影响Sonnet 4.6和Opus 4.6)
  1. 缓存机制缺陷(3月26日)
  • 闲置会话清理功能出现逻辑错误,导致持续丢失历史推理记录
  • 引发重复性回答和工具调用异常(4月10日修复)
  1. 系统提示词变更(4月16日)
  • 新增的响应长度限制意外影响代码生成质量
  • 4月20日回滚该调整(影响Sonnet 4.6/Opus 4.6/4.7)

改进措施: - 建立更严格的系统提示词变更审核流程 - 强化代码审查工具(现支持更多代码库上下文分析) - 优化内部测试机制(要求使用公开版本进行验证) - 通过@ClaudeDevs推特账号和GitHub线程同步技术决策

补偿方案: 已为所有订阅用户重置使用限额。

我们诚挚感谢用户通过/feedback命令和可复现案例报告帮助定位问题。后续将建立更完善的问题预防机制,包括更全面的模型评估体系、渐进式发布策略和专项测试期设置。

(注:原文中的技术细节图片链接及部分内部流程描述已酌情精简,保留核心事件时间线、影响范围和整改方案等关键信息。)

评论总结

总结评论内容:

  1. 对Anthropic处理问题的批评
  • 用户认为Anthropic在模型性能下降时没有诚实沟通(评论1:"we never degrade model performance" is frustrating)
  • 对修复时间过长表示不满(评论7:"Such a severe bug affecting millions of users")
  • 认为公司不理解用户主要诉求(评论8:"they have zero understanding of the main complaints")
  1. 对具体技术问题的反馈
  • 会话恢复功能存在缺陷(评论1:"resuming the session made Claude stupid")
  • 系统提示词修改影响编码质量(评论5:"it hurt coding quality, and was reverted")
  • 模型响应变得懒惰(评论10:"Claudez for the version of claude that's lazy")
  1. 对测试和质量保证的质疑
  • 缺乏有效的质量验证机制(评论16:"how the heck they validate quality before shipping")
  • 建议建立测试体系(评论13:"Regressions caused by changes...are extremely easy to quantify")
  • 提议先进行实验性更改(评论15:"Make new system prompt changes 'experimental' first")
  1. 用户体验变化
  • 部分用户偏好详细解释(评论17:"I have a harder time with compact explanations")
  • 模型响应出现异常(评论11:"Claude responding to its own internal prompts")
  • 功能稳定性问题(评论14:"context management, reasoning effort...needs to be very stable")
  1. 对公司回应的评价
  • 认为公告是"企业废话"(评论9:"Corporate bs begins...")
  • 对修复表示肯定但质疑效果(评论12:"is it any good again")
  • 认为损害已经造成(评论3:"Damage is done for me though")