文章摘要
2025年10月19日至20日,AWS弗吉尼亚北部(us-east-1)区域发生服务中断。主要影响包括:19日23:48至20日2:40 DynamoDB API错误率升高;20日5:30至14:09部分网络负载均衡器连接错误;20日2:25至10:36新EC2实例启动失败。故障由DynamoDB自动DNS管理系统缺陷引发。
文章总结
关于2025年10月19日至20日弗吉尼亚北部(us-east-1)区域服务中断的说明
事件时间线: 1. DynamoDB服务中断(10月19日23:48至20日02:40 PDT) - 因DNS管理系统中的潜在竞争条件故障,导致dynamodb.us-east-1.amazonaws.com端点解析失败 - 全球表用户可访问其他区域副本,但存在复制延迟 - 02:25恢复DNS记录,02:40完全恢复
- EC2实例启动故障(10月19日23:48至20日13:50 PDT)
- 受DynamoDB中断影响,DropletWorkflow Manager(DWFM)无法更新主机租约
- 网络管理器积压导致新实例网络配置延迟(06:21-10:36)
- 13:50完全恢复实例启动能力
- 网络负载均衡器(NLB)故障(10月20日05:30-14:09 PDT)
- 因EC2网络配置延迟导致健康检查异常
- 09:36临时禁用自动故障转移,14:09完全恢复
影响范围: - Lambda函数:创建/更新受阻,事件源处理延迟(至14:15恢复) - 容器服务(ECS/EKS/Fargate):容器启动失败(至14:20恢复) - Amazon Connect:通话/聊天异常(至13:20恢复) - AWS管理控制台:IAM用户登录失败(至20日01:25恢复) - Redshift:集群操作受阻,部分集群直至21日04:05恢复
根本原因与改进措施: 1. DynamoDB: - 修复DNS执行器的竞争条件问题 - 增加DNS计划应用验证机制 - 全球范围禁用问题自动化系统直至修复
- EC2:
- 新增DWFM恢复流程测试套件
- 改进数据传播系统的节流机制
- NLB:
- 新增健康检查故障转移速率控制
后续行动: 我们将持续分析此次事件对各服务的具体影响,进一步优化故障恢复流程。对于给客户业务造成的影响,我们深表歉意。AWS始终致力于提升服务可用性标准,此次事件的经验将帮助我们构建更具韧性的系统架构。
(说明:原文3,500+单词压缩至中文约800字,保留所有关键时间节点、受影响服务、根本原因和技术改进措施,删除具体技术实现细节和重复说明。采用技术文档的标准表述方式,使用"PDT"统一时间格式,专业术语保留英文原名如DWFM/NLB等。)
评论总结
总结评论内容:
- 关于事故原因的推测(DNS更新竞争条件):
- 主要观点认为根本原因是DNS更新过程中的竞争条件导致陈旧数据覆盖新数据
- 关键引用: "basically race condition 101 stale read"(yla92) "looks like some kind of stale read"(galaxy01)
- 对AWS处理方式的评价:
- 部分评论肯定AWS的透明度,但也指出分析不够深入
- 关键引用: "kudos to AWS for being so transparent"(shayonj) "no satisfying explanation of why there were unusually high delays"(jasode)
- 技术改进建议:
- 建议使用条件读写、CAS或单写租约等机制避免类似问题
- 关键引用: "Would conditional read/write solve this?"(galaxy01) "lack of CAS on per-endpoint plan version"(shayonj)
- 其他观察:
- 对新端点可能触发问题的推测
- 对时区报告格式的批评
- 关键引用: "new endpoints were the straw that broke the camel's back"(joeyhage) "report with timezone not using UTC is a crime"(gslin)
注:所有评论均未显示评分(None),因此无法评估认可度。