Hacker News 中文摘要

文章摘要

在8月至9月初期间，Claude的响应质量因三个基础设施漏洞而间歇性下降。尽管用户反馈初期难以区分问题与正常波动，但随着报告频率增加，我们展开调查并最终解决了这些漏洞。我们强调，模型质量不会因需求、时间或服务器负载而降低，问题仅源于基础设施漏洞。我们认识到用户对Claude一致性的高期望，并承诺通过改进流程防止类似问题再次发生。

文章总结

近期三个问题的回顾与解决

在8月至9月初期间，Claude的响应质量因三个基础设施问题而间歇性下降。目前这些问题已得到解决，以下是事件的具体回顾。

事件背景

8月初，部分用户报告Claude的响应质量下降。起初，这些报告难以与正常的用户反馈波动区分开来。然而，随着报告频率和持续性的增加，我们在8月底展开了调查，最终发现了三个独立的基础设施问题。

问题概述

我们明确表示，Claude的模型质量不会因需求、时间或服务器负载而降低。用户报告的问题完全由基础设施问题引起。我们深知用户对Claude的响应质量有很高的期望，因此对基础设施变更的影响有严格的标准。然而，在最近的这些事件中，我们未能达到这一标准。

问题详情

上下文窗口路由错误
8月5日，部分Sonnet 4请求被错误地路由到为即将推出的1M token上下文窗口配置的服务器。8月29日，负载均衡的变更进一步增加了受影响请求的数量，导致更多用户遇到问题。我们于9月4日修复了路由逻辑，并在9月16日完成了所有平台的部署。
输出损坏
8月25日，Claude API的TPU服务器部署了一个错误配置，导致在生成token时出现错误。例如，英文提示可能会生成泰语或中文字符，或代码中出现明显的语法错误。我们于9月2日回滚了该变更，并增加了对意外字符输出的检测测试。
近似top-k XLA:TPU编译错误
8月25日，我们部署了代码以改进Claude在文本生成时的token选择。然而，这一变更无意中触发了XLA:TPU编译器中的一个潜在错误，影响了Claude Haiku 3.5的请求。我们于9月4日回滚了该变更，并与XLA:TPU团队合作修复了编译器错误。

问题诊断的挑战

这些问题的重叠性使得诊断变得尤为困难。我们的验证过程通常依赖于基准测试、安全评估和性能指标，但这些评估未能捕捉到用户报告的质量下降。此外，我们的隐私保护措施也限制了工程师对用户互动的访问，进一步增加了诊断的难度。

改进措施

为了防止类似问题再次发生，我们正在采取以下改进措施： - 更敏感的评估：开发能够更可靠地区分正常和异常响应的评估方法。 - 更广泛的评估覆盖：在真实生产系统中持续运行评估，以捕捉如上下文窗口负载均衡错误等问题。 - 更快的调试工具：开发基础设施和工具，以便在不牺牲用户隐私的情况下更好地调试社区反馈。

用户反馈的重要性

用户的反馈在帮助我们识别和解决问题方面发挥了关键作用。我们鼓励用户继续通过Claude Code中的/bug命令或Claude应用中的“thumbs down”按钮提交反馈。开发者和研究人员的新颖评估方法也为我们提供了宝贵的补充信息。

我们感谢社区的支持，并将继续努力提升Claude的稳定性和响应质量。

评论总结

评论内容总结：

技术问题与修复：
- 评论1详细描述了Claude在2025年8月至9月间因基础设施问题导致的输出质量下降，包括上下文窗口路由错误、输出损坏和近似top-k编译错误。Anthropic提出了更敏感的持续评估和更好的调试工具作为解决方案。
  - "Short-context requests sometimes routed to long-context servers."
  - "Runtime optimizations wrongly boosted improbable tokens."
问题的影响与透明度：
- 评论3和评论4讨论了问题的普遍性和透明度。评论3指出Anthropic未明确说明XLA bug的影响范围，且30%的用户受到路由bug的影响。评论4则认为问题的影响被夸大，实际影响较小。
  - "30% of all users have been impacted at least once, just from the first routing bug."
  - "Incorrect routing affected less than 0.0004% of requests on Google Cloud's Vertex AI."
用户反馈与信任：
- 评论8和评论14表达了用户对服务质量的担忧。评论8批评Anthropic未提供补偿，评论14虽然认可Claude的价值，但对近期问题表示不满，并质疑问题是否已完全解决。
  - "And yet no offers of credits to make things right for the users."
  - "The last several weeks have strongly made me question my subscription."
技术细节与疑问：
- 评论7和评论9对技术细节提出疑问。评论7询问LLM如何出现此类bug，评论9推测1M上下文服务器在低上下文时表现较差的原因。
  - "How would a human introduce a bug like the one described in TFA?"
  - "Perhaps this is due to some KV cache compression, eviction or sparse attention scheme being applied on these 1M context servers?"
公司策略与透明度：
- 评论10和评论12讨论了Anthropic的策略和透明度。评论10指出Anthropic从未发布开源模型，评论12对Anthropic直接影响AWS Bedrock基础设施表示惊讶。
  - "Anthropic is the only AI company that has never released any open-source/weight models."
  - "I’m pretty surprised that Anthropic can directly impact the infra for AWS Bedrock as this article suggests."
未来展望与建议：
- 评论13和评论11提出了未来改进的建议。评论13建议研究如何使LLM服务更具确定性，评论11建议告知用户其体验来自哪个硬件平台。
  - "The value of figuring out how to make their LLM serving deterministic might help them track this down."
  - "If you are going to run a non deterministic system on three very different hardware platforms doesn’t it behoove you to tell your users where their experience is coming from?"

总结：评论中对Anthropic的技术问题、透明度、用户反馈和未来改进提出了多方面的讨论和批评，同时也认可了Claude的价值。

近期三起事件的事后分析 -- A postmortem of three recent issues