文章摘要
NVIDIA开源GPU内核模块项目报告了一个问题:在使用570.133.20版OpenRM驱动和6.6.0内核的B200设备上,nvidia-smi工具在系统运行约66天12小时后会无限期挂起。该问题已在GitHub上提交为第971号issue。
文章总结
文章主要内容概述
标题:NVIDIA B200显卡在运行约66天12小时后出现nvidia-smi无限挂起问题
来源:GitHub Issue #971
发布时间:2025年11月22日
问题描述
用户报告在使用NVIDIA B200显卡、驱动版本570.133.20(OpenRM)和Linux内核6.6.0时,系统持续运行约66天12小时后,nvidia-smi命令会无限挂起。问题首次出现在OpenEuler 2.0操作系统环境中,且确认在相同版本的专有驱动中未复现。
关键现象
日志信息:
dmesg显示重复的NVLink相关错误,例如:
NVRM: knvlinkUpdatePostRxDetectLinkMask_IMPL: Failed to update Rx Detect Link mask! NVRM: knvlinkDiscoverPostRxDetLinks_GH100: Getting peerX's postRxDetLinkMask failed!- 系统负载显著升高(如
uptime显示负载达17-18),需重启恢复。
复现条件:
- 长期运行(约66天)后触发。
- 影响所有调用
nvidia-smi的进程(如监控工具),导致功能异常。
其他用户反馈
- 类似问题在Ubuntu 24.04(内核6.8.0)和驱动580.82.07/580.105.08中也被报告,表明问题可能跨驱动版本存在。
- 大规模集群(如256块B200)在66天后出现任务随机失败。
NVIDIA官方回应
- 问题定位:跨NVLink通信故障导致,但单GPU仍可运行。
- 修复进展:已通过内部Bug(NVBUG 5746052和5607938)跟踪,修复进行中,但暂无明确发布时间。
- 影响范围:确认影响570和580系列驱动。
临时解决方案
需定期重启系统以避免触发问题。
精简说明
文章核心描述了NVIDIA B200显卡在长期运行后因NVLink通信故障导致nvidia-smi挂起的Bug,涉及多版本驱动和系统环境,官方已确认问题但修复时间未定。
评论总结
这篇评论主要围绕一个持续运行66天后出现故障的技术问题展开讨论,以下是主要观点总结:
- 关于故障现象的描述
- 用户wincy指出:"B200s和nvlink导致运行66天12小时后出现故障,重启集群才能恢复"
- 用户nulone补充:"NVLink postRxDetLinkMask错误出现在挂起前"
- 关于故障原因的推测
- 用户userbinator认为:"可能是计数器溢出导致"
- 用户yoshicoder建议:"可以检查是否是2的幂次方时间单位导致的"
- 相关经验分享
- 用户jorl17详细分享了类似案例:"树莓派设备运行约7-9天后USB堆栈崩溃的解决经历",包括: "必须等待一周才能验证修复效果" "最终通过修改串口访问模式等多层方案解决"
- 其他观点
- 语言准确性争议(grayhatter): "有明确模式就不能称为随机故障"
- 幽默评论(zeehio): "如果是66.6天会更有恶魔色彩"
- 简短评论
- blackoil提到:"中国特定代码泄露到主线"
- 用户userbinator指出:"注意到AI生成的评论"
(注:所有评论均无评分信息)