Hacker News 中文摘要

RSS订阅

GMP或损害Zen 5处理器性能? -- GMP damaging Zen 5 CPUs?

文章摘要

在运行GMP测试时,两枚Ryzen 9950X CPU在几个月内相继损坏,原因尚不明确。尽管与广泛报道的Asrock主板问题相似,但使用的并非该品牌主板。可能的原因是Zen 5 CPU在运行GMP时功耗超出规格,或冷却方案不足。两次故障均发生在低温环境下,CPU背面出现约25mm²的变色区域。

文章总结

GMP与AMD Zen 5 CPU的问题

背景

在几个月内,我们通过运行GMP测试烧毁了两颗Ryzen 9950X CPU。这显然不是预期中的结果。我们在此提供尽可能多的信息,以帮助分析问题。

导致这些CPU在运行GMP时损坏的原因尚不清楚。虽然与广泛报道的Asrock主板问题类似,但我们使用的主板品牌不同(见下文)。可能是Zen 5 CPU在运行GMP时消耗的功率超过了额定值,或者我们的散热方案不足。

第一次故障发生在2025年冬季(大约是2月),系统位于瑞典斯德哥尔摩的一间专用房间,室温低于20°C。第二次故障发生在2025年8月24日,位于一间专用机房,室温略高于20°C。

两次故障后,我们取出CPU,发现针脚侧有一块约25mm²的变色区域。以下是第二颗CPU的两张不同角度的照片:

Image 1Image 2

我们为两个系统都使用了Noctua散热方案。第一次系统安装散热器时居中,第二次则按照Noctua的建议,将散热器偏移到CPU的较热侧。以下是第二颗系统的照片,显示了偏移安装的情况:

Image 3

以下是散热器的特写,显示了偏移安装导致散热膏被挤压到一侧的情况:

Image 4

这是CPU正面的清洁照片,可见的损坏位于背面:

Image 5

系统配置

第一次系统的配置:

操作系统:GNU/Linux Ubuntu
主板:Asus Prime B650M-K (BIOS 3057 [2024-11-19刷新])
CPU:AMD Zen5 X16 4300MHz (Ryzen 9950X)
内存:32768MB DDR5-4800 ECC (Samsung M324R4GA3BB0-CQK)
硬盘:NVMe SSD M.2 250GB Samsung 980 Pro
机箱:Fractal Design Core 1100,带额外风扇
电源:Corsair SF450
散热器:Noctua NH-U9S

第二次系统的配置:

操作系统:GNU/Linux Gentoo 内核 6.12.31
主板:Asus Prime B650M-A WIFI II (BIOS 3278 [2025-08-16刷新])
CPU:AMD Zen5 X16 4300MHz (Ryzen 9950X)
内存:49152MB DDR5-5600 ECC (Kingston KSM56E46BD8KM-48HM)
硬盘:NVMe SSD M.2 250GB Samsung 980 Pro
机箱:Fractal Design Core 1100,带额外风扇
电源:Corsair RM650
散热器:Noctua NH-U9S

分析与推测

我们并不确定问题的根源,以下是一些观察和思考:

  • 两次故障发生时,环境温度都较低。
  • 使用的主板质量较高(我们多年来使用了约50块ASUS主板,仅有一次故障)。
  • 偏移安装看起来不太合理,但这是推荐的安装方式。
  • 第二次CPU故障可能是由于散热器安装不当导致的。散热膏被挤压的情况看起来确实很奇怪。
  • 第一次故障发生时,散热器是居中安装的。我们第二次采用偏移安装是为了降低系统再次故障的风险。
  • Ryzen 9950X的TDP为170W,而使用的散热器额定散热能力为165W,这似乎有些紧张。尽管机箱内有额外风扇且环境温度较低,但这5W的差距可能仍有影响。
  • 我们有一台配置相似的7950X系统,虽然运行温度略高,但长期稳定运行。
  • 系统在CPU损坏时处于最大负载状态,运行着高度优化的汇编循环,可能涉及“热”指令。
  • 现代CPU会在过热时降频,因此CPU是否因过热损坏仍存疑。
  • 我们没有进行超频、超压或其他硬件操作。
  • 偏移安装导致的极薄散热膏层可能存在问题,因为系统在加热和冷却时会发生微小的形变。如果散热膏被挤压掉,可能会在CPU和散热器之间形成微小的空隙。
  • 两颗9950X CPU都没有立即损坏,而是在高负载下运行几个月后以相同的方式损坏,这表明可能存在逐渐但可预测的退化过程。

评论总结

评论主要围绕Zen 5 CPU的过热和电源问题展开,以下是主要观点和论据的总结:

  1. 过热与电源问题

    • 多位用户提到Zen 5 CPU在运行特定负载时出现过热甚至损坏的情况。例如,fxtentacle指出:“GMP的紧密循环可能导致Zen 5核心使用超出规定的功率,使冷却解决方案不足。”
    • tux3强调现代CPU的动态电压和频率调节(DVFS)应能防止过热,因此如果CPU烧毁,可能是设计或制造问题:“如果GMP导致CPU自毁,那一定是出了大问题,而不是用户错误或环境温度过高。”
  2. 冷却与散热问题

    • tw04认为散热器安装不当可能是问题之一:“看起来是散热器安装不当和Noctua的偏移建议错误。”
    • gpapilion提到服务器也曾因过热逐渐损坏,强调散热解决方案的精确性:“逐渐损坏与过热一致,散热解决方案需要更严格的公差。”
  3. 主板与电源管理

    • FuriouslyAdrift指出主板可能是问题的根源,特别是ASRock和Asus Prime B650M主板的不稳定性:“ASRock因不稳定的XMP和CPU电压而受到批评,建议稍微降压以防万一。”
    • mastax提到主板默认启用的Precision Boost Overdrive可能导致更高的功率和温度:“为了以‘标准’运行CPU,需要手动禁用Precision Boost Overdrive。”
  4. TDP与散热器选择

    • db48x批评TDP数值的误导性,认为它不能用于选择正确的散热系统:“TDP数值完全是编造的,不能用于选择正确的散热系统。”
    • caycep建议关闭PBO并启用Eco模式以降低风险:“我想知道如果关闭PBO并启用Eco模式,风险是否会降低。”
  5. 其他观点

    • fithisux对x86-64架构提出批评,认为其向后兼容性阻碍了平台发展:“x86-64 ISA是个问题,需要重大重构,向后兼容性正在扼杀平台。”
    • lloydatkinson和onthetrain对GMP的含义表示困惑:“我只是想知道GMP是什么。”

总结:评论中普遍认为Zen 5 CPU的过热和电源问题可能与设计、散热、主板和电源管理有关,部分用户建议通过调整设置或更换硬件来缓解问题。