文章摘要
在8月至9月初期间,Claude的响应质量因三个基础设施漏洞而间歇性下降。尽管用户反馈初期难以区分问题与正常波动,但随着报告频率增加,我们展开调查并最终解决了这些漏洞。我们强调,模型质量不会因需求、时间或服务器负载而降低,问题仅源于基础设施漏洞。我们认识到用户对Claude一致性的高期望,并承诺通过改进流程防止类似问题再次发生。
文章总结
近期三个问题的回顾与解决
在8月至9月初期间,Claude的响应质量因三个基础设施问题而间歇性下降。目前这些问题已得到解决,以下是事件的具体回顾。
事件背景
8月初,部分用户报告Claude的响应质量下降。起初,这些报告难以与正常的用户反馈波动区分开来。然而,随着报告频率和持续性的增加,我们在8月底展开了调查,最终发现了三个独立的基础设施问题。
问题概述
我们明确表示,Claude的模型质量不会因需求、时间或服务器负载而降低。用户报告的问题完全由基础设施问题引起。我们深知用户对Claude的响应质量有很高的期望,因此对基础设施变更的影响有严格的标准。然而,在最近的这些事件中,我们未能达到这一标准。
问题详情
上下文窗口路由错误
8月5日,部分Sonnet 4请求被错误地路由到为即将推出的1M token上下文窗口配置的服务器。8月29日,负载均衡的变更进一步增加了受影响请求的数量,导致更多用户遇到问题。我们于9月4日修复了路由逻辑,并在9月16日完成了所有平台的部署。输出损坏
8月25日,Claude API的TPU服务器部署了一个错误配置,导致在生成token时出现错误。例如,英文提示可能会生成泰语或中文字符,或代码中出现明显的语法错误。我们于9月2日回滚了该变更,并增加了对意外字符输出的检测测试。近似top-k XLA:TPU编译错误
8月25日,我们部署了代码以改进Claude在文本生成时的token选择。然而,这一变更无意中触发了XLA:TPU编译器中的一个潜在错误,影响了Claude Haiku 3.5的请求。我们于9月4日回滚了该变更,并与XLA:TPU团队合作修复了编译器错误。
问题诊断的挑战
这些问题的重叠性使得诊断变得尤为困难。我们的验证过程通常依赖于基准测试、安全评估和性能指标,但这些评估未能捕捉到用户报告的质量下降。此外,我们的隐私保护措施也限制了工程师对用户互动的访问,进一步增加了诊断的难度。
改进措施
为了防止类似问题再次发生,我们正在采取以下改进措施: - 更敏感的评估:开发能够更可靠地区分正常和异常响应的评估方法。 - 更广泛的评估覆盖:在真实生产系统中持续运行评估,以捕捉如上下文窗口负载均衡错误等问题。 - 更快的调试工具:开发基础设施和工具,以便在不牺牲用户隐私的情况下更好地调试社区反馈。
用户反馈的重要性
用户的反馈在帮助我们识别和解决问题方面发挥了关键作用。我们鼓励用户继续通过Claude Code中的/bug命令或Claude应用中的“thumbs down”按钮提交反馈。开发者和研究人员的新颖评估方法也为我们提供了宝贵的补充信息。
我们感谢社区的支持,并将继续努力提升Claude的稳定性和响应质量。
评论总结
评论内容总结:
技术问题与修复:
- 评论1详细描述了Claude在2025年8月至9月间因基础设施问题导致的输出质量下降,包括上下文窗口路由错误、输出损坏和近似top-k编译错误。Anthropic提出了更敏感的持续评估和更好的调试工具作为解决方案。
- "Short-context requests sometimes routed to long-context servers."
- "Runtime optimizations wrongly boosted improbable tokens."
- 评论1详细描述了Claude在2025年8月至9月间因基础设施问题导致的输出质量下降,包括上下文窗口路由错误、输出损坏和近似top-k编译错误。Anthropic提出了更敏感的持续评估和更好的调试工具作为解决方案。
问题的影响与透明度:
- 评论3和评论4讨论了问题的普遍性和透明度。评论3指出Anthropic未明确说明XLA bug的影响范围,且30%的用户受到路由bug的影响。评论4则认为问题的影响被夸大,实际影响较小。
- "30% of all users have been impacted at least once, just from the first routing bug."
- "Incorrect routing affected less than 0.0004% of requests on Google Cloud's Vertex AI."
- 评论3和评论4讨论了问题的普遍性和透明度。评论3指出Anthropic未明确说明XLA bug的影响范围,且30%的用户受到路由bug的影响。评论4则认为问题的影响被夸大,实际影响较小。
用户反馈与信任:
- 评论8和评论14表达了用户对服务质量的担忧。评论8批评Anthropic未提供补偿,评论14虽然认可Claude的价值,但对近期问题表示不满,并质疑问题是否已完全解决。
- "And yet no offers of credits to make things right for the users."
- "The last several weeks have strongly made me question my subscription."
- 评论8和评论14表达了用户对服务质量的担忧。评论8批评Anthropic未提供补偿,评论14虽然认可Claude的价值,但对近期问题表示不满,并质疑问题是否已完全解决。
技术细节与疑问:
- 评论7和评论9对技术细节提出疑问。评论7询问LLM如何出现此类bug,评论9推测1M上下文服务器在低上下文时表现较差的原因。
- "How would a human introduce a bug like the one described in TFA?"
- "Perhaps this is due to some KV cache compression, eviction or sparse attention scheme being applied on these 1M context servers?"
- 评论7和评论9对技术细节提出疑问。评论7询问LLM如何出现此类bug,评论9推测1M上下文服务器在低上下文时表现较差的原因。
公司策略与透明度:
- 评论10和评论12讨论了Anthropic的策略和透明度。评论10指出Anthropic从未发布开源模型,评论12对Anthropic直接影响AWS Bedrock基础设施表示惊讶。
- "Anthropic is the only AI company that has never released any open-source/weight models."
- "I’m pretty surprised that Anthropic can directly impact the infra for AWS Bedrock as this article suggests."
- 评论10和评论12讨论了Anthropic的策略和透明度。评论10指出Anthropic从未发布开源模型,评论12对Anthropic直接影响AWS Bedrock基础设施表示惊讶。
未来展望与建议:
- 评论13和评论11提出了未来改进的建议。评论13建议研究如何使LLM服务更具确定性,评论11建议告知用户其体验来自哪个硬件平台。
- "The value of figuring out how to make their LLM serving deterministic might help them track this down."
- "If you are going to run a non deterministic system on three very different hardware platforms doesn’t it behoove you to tell your users where their experience is coming from?"
- 评论13和评论11提出了未来改进的建议。评论13建议研究如何使LLM服务更具确定性,评论11建议告知用户其体验来自哪个硬件平台。
总结:评论中对Anthropic的技术问题、透明度、用户反馈和未来改进提出了多方面的讨论和批评,同时也认可了Claude的价值。