Hacker News 中文摘要

RSS订阅

告诉HN:Azure服务中断 -- Tell HN: Azure outage

文章摘要

微软Azure云服务出现故障,用户无法访问Azure门户,引发广泛关注和讨论。

文章总结

Azure 服务中断事件讨论摘要

事件概述

  • 问题描述:Azure 门户(Azure Portal)及部分服务出现访问故障,用户无法登录或管理资源。受影响区域包括加拿大中部(Canada Central)和美国东部2区(US-East 2)。
  • 用户反馈:多名用户报告称,Azure Front Door、CDN 及部分依赖 Azure 的第三方服务(如 GitHub Actions、Codespaces)也出现故障。
  • 官方响应:微软在状态页更新中承认 DNS 问题导致门户访问异常,但初期状态页显示“无活跃事件”,引发用户对信息透明度的质疑。后续通过 Twitter/X 确认 Azure Front Door 服务存在间歇性故障。

关键讨论点

  1. 故障范围

    • 部分用户称虚拟机(VM)和基础服务仍正常运行,但管理界面不可用。
    • 其他用户指出,依赖 Azure Front Door 的网站完全无法访问,需临时切换 DNS 解析至备用地址。
  2. 云服务可靠性争议

    • 有用户对比小型云提供商(如 Hetzner、DigitalOcean),认为其稳定性优于 Azure/AWS 等巨头,且价格更低。
    • 反驳观点指出,大型云服务商因承载更多关键业务,故障影响更显著,但多区域部署和故障转移能力仍是优势。
  3. 状态页的信任危机

    • 用户批评 Azure 状态页更新滞后,实际故障一小时后才标记为“红色”,且未提及 Front Door 问题。
    • 有人调侃:“状态页从不标红,完全没用。”
  4. 故障原因猜测

    • 多数指向 DNS 故障,部分用户推测与跨云服务商(如 AWS 同日故障)或骨干网络问题有关。
    • 微软内部消息称事件被定为“Sev-0”(最高优先级),甚至影响内部工单系统访问。
  5. 影响案例

    • 英国国民西敏寺银行(NatWest)官网因依赖 Azure 服务短暂下线。
    • 企业用户反馈 SSO(单点登录)和身份验证服务(Entra ID)中断,影响内部系统访问。

用户建议与吐槽

  • 应急措施:绕过 Front Door 直接解析服务 IP,或暂缓部署等待恢复。
  • 长期策略:讨论多云架构的可行性,但普遍认为实施复杂且成本高昂。
  • 调侃:“当所有竞争对手同时宕机,大家只能一起放假。”

当前状态

部分服务已逐步恢复,但完全解决仍需时间。微软承诺每小时更新进展。

(注:原文中重复内容及无关导航链接已删减,保留核心事件脉络与用户观点。)

评论总结

评论总结:

1. 服务中断的全球影响

  • 用户报告全球多个地区(以色列、西欧、瑞典、瑞士、英国、澳大利亚、挪威等)的Azure服务、门户网站和相关服务(如Intune、Entra、SSO登录等)出现中断。
    • "Down here too (region West Europe)" (xuf)
    • "Intune, Azure, Entra down in Switzerland" (uuuubbbb)

2. DNS和Azure Front Door问题

  • 用户指出DNS查询延迟或失败,以及Azure Front Door的问题可能是导致服务中断的原因。
    • "DNS A records for azureedge.net tenants are taking 2-6 seconds and often return nothing." (reid)
    • "It seems Azure FrontDoor is affected, because our private VM works fine in different regions." (chemodax)

3. 状态页面未及时更新

  • 用户批评Azure状态页面未及时反映问题,削弱了对其的信任。
    • "It's very confusing that status page is green" (chemodax)
    • "It must be manually updated, someone has to actively decide to acknowledge an issue, and they're just... not." (patching-trowel)

4. 对业务的影响

  • 用户表示服务中断对业务造成严重影响,尤其是在高峰期。
    • "All of our sites went down. This is my company’s busiest time of year. Hooray." (baconbrand)
    • "We saw all incoming traffic to our app drop to zero at about 15:45." (elFarto)

5. 可能的根本原因猜测

  • 用户猜测可能是CDN、BGP或基础设施问题,甚至提到可能与Cloudflare的故障有关。
    • "downdetector reports coincident cloudflare outage. is microsoft using cloudflare for management plane, or is there common infra?" (kryogen1c)
    • "My best guess at the moment is something global like the CDN is having problems affecting things everywhere." (NDizzle)

6. 微软的回应和缓解措施

  • 微软通过状态页面更新,承认DNS和Azure Front Door问题,并尝试通过程序化访问(如PowerShell、CLI)缓解问题。
    • "We have failed the portal away from Azure Front Door (AFD) to attempt to mitigate the portal access issues." (mystcb)
    • "Customers can attempt to use programmatic methods (PowerShell, CLI, etc.) to access/utilize resources if they are unable to access the portal directly." (mystcb)

7. 对其他服务的影响

  • 用户提到其他依赖Azure的服务(如MyGet、银行网站、国家数字ID服务)也受到影响。
    • "Looks like MyGet is impacted too. Seems like they use Azure." (a_f)
    • "Even the national digital id service is down." (tyfon)

8. 用户对微软服务的普遍不满

  • 部分用户表达了对微软服务频繁故障的不满。
    • "Just another day with microsoft. Honestly pretty tiring as something is always generally broken." (llama052)