Hacker News 中文摘要

RSS订阅

NASA如何打造阿耳忒弥斯II号的容错计算机 -- How NASA built Artemis II’s fault-tolerant computer

文章摘要

NASA为Artemis II任务开发了高容错计算机系统,采用多重冗余设计确保在太空极端环境下的可靠性。该系统通过先进技术实现故障检测与自动恢复,保障载人登月任务的安全执行。

文章总结

NASA如何打造Artemis II的容错计算机系统

摘要
为支持载人重返月球的Artemis II任务,NASA开发了迄今为止最强大的容错计算机系统。与阿波罗时代的计算机相比,Orion飞船的计算机架构几乎管理着所有关键系统,从生命支持到通信路由。

关键细节
1. 八核冗余设计
- Orion飞船配备了两台车辆管理计算机(VMC),每台包含两个飞行控制模块(FCM),总计四个FCM。
- 每个FCM由一对自检处理器组成,实际运行八颗CPU,确保即使遭遇宇宙射线导致的位翻转或硬件故障,系统仍能正常运行。
- 采用“静默失效”机制,一旦检测到错误,故障计算机会立即停止输出错误结果,而非传递错误数据。

  1. 严格的确定性架构

    • 通过时间触发以太网(TTE)和ARINC653调度器确保所有FCM同步运行,输入和输出严格对齐。
    • 每秒钟校准一次时钟漂移,若某模块未能按时完成任务,系统会自动将其重置并重新同步。
  2. 硬件加固

    • 采用三重模块冗余(TMR)内存,每次读取时自动纠正单比特错误。
    • 网络接口卡采用双通道设计,持续比较数据流,确保通信链路中的位翻转不会导致错误指令。
  3. 独立备份系统

    • 主系统外,Orion还搭载了完全独立的备份飞行软件(BFS),运行不同的硬件和操作系统,以避免共模故障。
    • 若主系统全部失效,BFS可接管任务,确保飞船安全进入稳定状态。
  4. 极端情况应对

    • 即使全船断电(“死总线”状态),飞船也能在恢复供电后自动进入安全模式,调整太阳能板对准太阳以恢复电力,并重新建立与地球的通信。

背景与意义
Artemis II的计算机系统代表了从阿波罗时代至今的巨大飞跃。现代软件管理着飞船的每个关键功能,而NASA通过冗余设计、严格同步和独立备份,确保了系统在深空极端环境下的可靠性。这一技术不仅支撑着月球任务,未来也可能应用于自动驾驶、工业电网等地面高可靠性领域。

(注:原文中大量关于网站Cookie政策的无关内容已删除,仅保留与主题相关的技术细节。)

评论总结

这篇评论主要围绕三个核心观点展开:

  1. 标题与内容准确性争议(评论1、5、6)
  • "Headline needs its how-dectomy reverted to make sense"(starkparker)
  • "NASA didn't build this...This is like a CEO claiming credit for everything a company does"(y1n0)
  1. 现代软件开发与系统架构的反思(评论2)
  • "most of us have completely forgotten how to build deterministic systems"(dmk)
  • "Time-triggered Ethernet...feels like it's from a parallel universe"(dmk)
  1. 太空数据中心的技术挑战(评论3、4、7)
  • "How big of a challenge are hardware faults and radiation for orbital data centers?"(object-a)
  • "I'd love to know how often one of the FCMs has 'failed silent'"(__d)
  • "Is radiation actually flipping bits and at what frequency"(jbritton)

其中评论6仅提供了外部链接,未表达明确观点。所有评论均未显示评分数据。