Hacker News 中文摘要

RSS订阅

亚马逊DynamoDB服务在US-East-1区域中断事件总结 -- Summary of the Amazon DynamoDB Service Disruption in US-East-1 Region

文章摘要

2025年10月19日至20日,AWS弗吉尼亚北部(us-east-1)区域发生服务中断。主要影响包括:19日23:48至20日2:40 DynamoDB API错误率升高;20日5:30至14:09部分网络负载均衡器连接错误;20日2:25至10:36新EC2实例启动失败。故障由DynamoDB自动DNS管理系统缺陷引发。

文章总结

关于2025年10月19日至20日弗吉尼亚北部(us-east-1)区域服务中断的说明

事件时间线: 1. DynamoDB服务中断(10月19日23:48至20日02:40 PDT) - 因DNS管理系统中的潜在竞争条件故障,导致dynamodb.us-east-1.amazonaws.com端点解析失败 - 全球表用户可访问其他区域副本,但存在复制延迟 - 02:25恢复DNS记录,02:40完全恢复

  1. EC2实例启动故障(10月19日23:48至20日13:50 PDT)
  • 受DynamoDB中断影响,DropletWorkflow Manager(DWFM)无法更新主机租约
  • 网络管理器积压导致新实例网络配置延迟(06:21-10:36)
  • 13:50完全恢复实例启动能力
  1. 网络负载均衡器(NLB)故障(10月20日05:30-14:09 PDT)
  • 因EC2网络配置延迟导致健康检查异常
  • 09:36临时禁用自动故障转移,14:09完全恢复

影响范围: - Lambda函数:创建/更新受阻,事件源处理延迟(至14:15恢复) - 容器服务(ECS/EKS/Fargate):容器启动失败(至14:20恢复) - Amazon Connect:通话/聊天异常(至13:20恢复) - AWS管理控制台:IAM用户登录失败(至20日01:25恢复) - Redshift:集群操作受阻,部分集群直至21日04:05恢复

根本原因与改进措施: 1. DynamoDB: - 修复DNS执行器的竞争条件问题 - 增加DNS计划应用验证机制 - 全球范围禁用问题自动化系统直至修复

  1. EC2:
  • 新增DWFM恢复流程测试套件
  • 改进数据传播系统的节流机制
  1. NLB:
  • 新增健康检查故障转移速率控制

后续行动: 我们将持续分析此次事件对各服务的具体影响,进一步优化故障恢复流程。对于给客户业务造成的影响,我们深表歉意。AWS始终致力于提升服务可用性标准,此次事件的经验将帮助我们构建更具韧性的系统架构。

(说明:原文3,500+单词压缩至中文约800字,保留所有关键时间节点、受影响服务、根本原因和技术改进措施,删除具体技术实现细节和重复说明。采用技术文档的标准表述方式,使用"PDT"统一时间格式,专业术语保留英文原名如DWFM/NLB等。)

评论总结

总结评论内容:

  1. 关于事故原因的推测(DNS更新竞争条件):
  • 主要观点认为根本原因是DNS更新过程中的竞争条件导致陈旧数据覆盖新数据
  • 关键引用: "basically race condition 101 stale read"(yla92) "looks like some kind of stale read"(galaxy01)
  1. 对AWS处理方式的评价:
  • 部分评论肯定AWS的透明度,但也指出分析不够深入
  • 关键引用: "kudos to AWS for being so transparent"(shayonj) "no satisfying explanation of why there were unusually high delays"(jasode)
  1. 技术改进建议:
  • 建议使用条件读写、CAS或单写租约等机制避免类似问题
  • 关键引用: "Would conditional read/write solve this?"(galaxy01) "lack of CAS on per-endpoint plan version"(shayonj)
  1. 其他观察:
  • 对新端点可能触发问题的推测
  • 对时区报告格式的批评
  • 关键引用: "new endpoints were the straw that broke the camel's back"(joeyhage) "report with timezone not using UTC is a crime"(gslin)

注:所有评论均未显示评分(None),因此无法评估认可度。