Hacker News 中文摘要

文章摘要

Hightouch团队在10月20日AWS故障后尝试扩容事件处理系统时，意外发现Aurora RDS存在竞态条件漏洞。该问题后被AWS确认，文章分享了他们如何诊断这个AWS系统级错误的过程和经验。

2025年10月20日，AWS在us-east-1区域因DNS管理服务中的竞态条件故障导致大规模服务中断。Hightouch Events产品（用于收集用户行为数据）在此次事件中积压了大量待处理数据，促使我们决定在10月23日升级Aurora RDS实例规格以提升处理能力。

Hightouch事件系统采用三层架构： 1. Kubernetes集群运行事件收集器和批处理工作节点 2. Kafka处理事件流 3. PostgreSQL（Aurora版）作为虚拟队列元数据存储

在10月20日的AWS中断期间，我们观察到： - 服务无法连接AWS MSK管理的Kafka代理 - 因EC2节点无法扩容导致服务自动扩展失败 - 实时数据转换功能因AWS STS错误而失效

我们设计的分阶段升级方案： 1. 新增临时读副本（实例#3） 2. 升级现有读副本（实例#2）并设为最高故障转移优先级 3. 触发故障转移将实例#2提升为写入节点（预期中断<15秒） 4. 升级原写入节点（实例#1）为读副本 5. 移除临时读副本

2025年10月23日16:39（EDT），首次故障转移尝试出现异常： - AWS控制台显示实例#2短暂提升后，写入权限又回退到实例#1 - 后端服务出现"cannot execute UPDATE in a read-only transaction"错误 - 5分钟内两次故障转移均失败

通过分析日志和指标发现： 1. 数据库日志显示两个实例同时收到写入请求 2. 存储层拒绝并发写入导致双实例崩溃 3. 故障转移期间存在竞态条件：旧写入节点降级与新写入节点升级未同步完成

验证性测试证实： - 停止所有写入服务后，故障转移成功完成 - AWS确认这是其内部信号处理缺陷，与客户配置无关 - 临时解决方案：故障转移前暂停所有写入操作

（注：文中所有时间标记为原文设定的2025年未来时间）

总结评论内容：