Hacker News 中文摘要

RSS订阅

NVIDIA-SMI在约66天后无限期挂起 -- nvidia-smi hangs indefinitely after ~66 days

文章摘要

NVIDIA开源GPU内核模块项目报告了一个问题:在使用570.133.20版OpenRM驱动和6.6.0内核的B200设备上,nvidia-smi工具在系统运行约66天12小时后会无限期挂起。该问题已在GitHub上提交为第971号issue。

文章总结

文章主要内容概述

标题:NVIDIA B200显卡在运行约66天12小时后出现nvidia-smi无限挂起问题
来源:GitHub Issue #971
发布时间:2025年11月22日

问题描述

用户报告在使用NVIDIA B200显卡、驱动版本570.133.20(OpenRM)和Linux内核6.6.0时,系统持续运行约66天12小时后,nvidia-smi命令会无限挂起。问题首次出现在OpenEuler 2.0操作系统环境中,且确认在相同版本的专有驱动中未复现。

关键现象

  1. 日志信息

    • dmesg显示重复的NVLink相关错误,例如:
      NVRM: knvlinkUpdatePostRxDetectLinkMask_IMPL: Failed to update Rx Detect Link mask! NVRM: knvlinkDiscoverPostRxDetLinks_GH100: Getting peerX's postRxDetLinkMask failed!
    • 系统负载显著升高(如uptime显示负载达17-18),需重启恢复。
  2. 复现条件

    • 长期运行(约66天)后触发。
    • 影响所有调用nvidia-smi的进程(如监控工具),导致功能异常。

其他用户反馈

  • 类似问题在Ubuntu 24.04(内核6.8.0)和驱动580.82.07/580.105.08中也被报告,表明问题可能跨驱动版本存在。
  • 大规模集群(如256块B200)在66天后出现任务随机失败。

NVIDIA官方回应

  • 问题定位:跨NVLink通信故障导致,但单GPU仍可运行。
  • 修复进展:已通过内部Bug(NVBUG 5746052和5607938)跟踪,修复进行中,但暂无明确发布时间。
  • 影响范围:确认影响570和580系列驱动。

临时解决方案

需定期重启系统以避免触发问题。


精简说明

文章核心描述了NVIDIA B200显卡在长期运行后因NVLink通信故障导致nvidia-smi挂起的Bug,涉及多版本驱动和系统环境,官方已确认问题但修复时间未定。

评论总结

这篇评论主要围绕一个持续运行66天后出现故障的技术问题展开讨论,以下是主要观点总结:

  1. 关于故障现象的描述
  • 用户wincy指出:"B200s和nvlink导致运行66天12小时后出现故障,重启集群才能恢复"
  • 用户nulone补充:"NVLink postRxDetLinkMask错误出现在挂起前"
  1. 关于故障原因的推测
  • 用户userbinator认为:"可能是计数器溢出导致"
  • 用户yoshicoder建议:"可以检查是否是2的幂次方时间单位导致的"
  1. 相关经验分享
  • 用户jorl17详细分享了类似案例:"树莓派设备运行约7-9天后USB堆栈崩溃的解决经历",包括: "必须等待一周才能验证修复效果" "最终通过修改串口访问模式等多层方案解决"
  1. 其他观点
  • 语言准确性争议(grayhatter): "有明确模式就不能称为随机故障"
  • 幽默评论(zeehio): "如果是66.6天会更有恶魔色彩"
  1. 简短评论
  • blackoil提到:"中国特定代码泄露到主线"
  • 用户userbinator指出:"注意到AI生成的评论"

(注:所有评论均无评分信息)