文章摘要
微软Azure云服务出现故障,用户无法访问Azure门户,引发广泛关注和讨论。
文章总结
Azure 服务中断事件讨论摘要
事件概述
- 问题描述:Azure 门户(Azure Portal)及部分服务出现访问故障,用户无法登录或管理资源。受影响区域包括加拿大中部(Canada Central)和美国东部2区(US-East 2)。
- 用户反馈:多名用户报告称,Azure Front Door、CDN 及部分依赖 Azure 的第三方服务(如 GitHub Actions、Codespaces)也出现故障。
- 官方响应:微软在状态页更新中承认 DNS 问题导致门户访问异常,但初期状态页显示“无活跃事件”,引发用户对信息透明度的质疑。后续通过 Twitter/X 确认 Azure Front Door 服务存在间歇性故障。
关键讨论点
故障范围
- 部分用户称虚拟机(VM)和基础服务仍正常运行,但管理界面不可用。
- 其他用户指出,依赖 Azure Front Door 的网站完全无法访问,需临时切换 DNS 解析至备用地址。
云服务可靠性争议
- 有用户对比小型云提供商(如 Hetzner、DigitalOcean),认为其稳定性优于 Azure/AWS 等巨头,且价格更低。
- 反驳观点指出,大型云服务商因承载更多关键业务,故障影响更显著,但多区域部署和故障转移能力仍是优势。
状态页的信任危机
- 用户批评 Azure 状态页更新滞后,实际故障一小时后才标记为“红色”,且未提及 Front Door 问题。
- 有人调侃:“状态页从不标红,完全没用。”
故障原因猜测
- 多数指向 DNS 故障,部分用户推测与跨云服务商(如 AWS 同日故障)或骨干网络问题有关。
- 微软内部消息称事件被定为“Sev-0”(最高优先级),甚至影响内部工单系统访问。
影响案例
- 英国国民西敏寺银行(NatWest)官网因依赖 Azure 服务短暂下线。
- 企业用户反馈 SSO(单点登录)和身份验证服务(Entra ID)中断,影响内部系统访问。
用户建议与吐槽
- 应急措施:绕过 Front Door 直接解析服务 IP,或暂缓部署等待恢复。
- 长期策略:讨论多云架构的可行性,但普遍认为实施复杂且成本高昂。
- 调侃:“当所有竞争对手同时宕机,大家只能一起放假。”
当前状态
部分服务已逐步恢复,但完全解决仍需时间。微软承诺每小时更新进展。
(注:原文中重复内容及无关导航链接已删减,保留核心事件脉络与用户观点。)
评论总结
评论总结:
1. 服务中断的全球影响
- 用户报告全球多个地区(以色列、西欧、瑞典、瑞士、英国、澳大利亚、挪威等)的Azure服务、门户网站和相关服务(如Intune、Entra、SSO登录等)出现中断。
- "Down here too (region West Europe)" (xuf)
- "Intune, Azure, Entra down in Switzerland" (uuuubbbb)
2. DNS和Azure Front Door问题
- 用户指出DNS查询延迟或失败,以及Azure Front Door的问题可能是导致服务中断的原因。
- "DNS A records for azureedge.net tenants are taking 2-6 seconds and often return nothing." (reid)
- "It seems Azure FrontDoor is affected, because our private VM works fine in different regions." (chemodax)
3. 状态页面未及时更新
- 用户批评Azure状态页面未及时反映问题,削弱了对其的信任。
- "It's very confusing that status page is green" (chemodax)
- "It must be manually updated, someone has to actively decide to acknowledge an issue, and they're just... not." (patching-trowel)
4. 对业务的影响
- 用户表示服务中断对业务造成严重影响,尤其是在高峰期。
- "All of our sites went down. This is my company’s busiest time of year. Hooray." (baconbrand)
- "We saw all incoming traffic to our app drop to zero at about 15:45." (elFarto)
5. 可能的根本原因猜测
- 用户猜测可能是CDN、BGP或基础设施问题,甚至提到可能与Cloudflare的故障有关。
- "downdetector reports coincident cloudflare outage. is microsoft using cloudflare for management plane, or is there common infra?" (kryogen1c)
- "My best guess at the moment is something global like the CDN is having problems affecting things everywhere." (NDizzle)
6. 微软的回应和缓解措施
- 微软通过状态页面更新,承认DNS和Azure Front Door问题,并尝试通过程序化访问(如PowerShell、CLI)缓解问题。
- "We have failed the portal away from Azure Front Door (AFD) to attempt to mitigate the portal access issues." (mystcb)
- "Customers can attempt to use programmatic methods (PowerShell, CLI, etc.) to access/utilize resources if they are unable to access the portal directly." (mystcb)
7. 对其他服务的影响
- 用户提到其他依赖Azure的服务(如MyGet、银行网站、国家数字ID服务)也受到影响。
- "Looks like MyGet is impacted too. Seems like they use Azure." (a_f)
- "Even the national digital id service is down." (tyfon)
8. 用户对微软服务的普遍不满
- 部分用户表达了对微软服务频繁故障的不满。
- "Just another day with microsoft. Honestly pretty tiring as something is always generally broken." (llama052)