Hacker News 中文摘要

RSS订阅

在AMD MI300X上部署DeepSeek-V4-Flash -- Bringing Up DeepSeek-V4-Flash on AMD MI300X

文章摘要

Doubleword公司正在构建面向大规模推理的云计算平台,需应对当前算力短缺问题。AMD于2023年12月发布的MI300X加速器(配备192GB HBM3显存)在硬件规格和价格(约为H100一半)上具有优势,但受限于软件生态成熟度,其市场认可度仍不及NVIDIA的H100/H200产品。目前MI300X的租赁价格显著低于同等级NVIDIA产品。

文章总结

标题:在AMD MI300X上运行DeepSeek-V4-Flash模型的技术实践

核心内容:

  1. 硬件背景
  • AMD MI300X作为NVIDIA H100的竞品,于2023年12月发布
  • 具备192GB HBM3显存(H100为80GB),FP8计算性能相当,价格约为H100的一半
  • 当前租赁价格显著低于同等级NVIDIA设备
  1. 主要技术挑战 (1) FP8标准不兼容问题
  • AMD MI300X采用独特的fnuz FP8格式(不支持-0和inf)
  • 与行业主流OCP标准存在指数偏差差异,导致数值计算出现2倍误差
  • 解决方案:修改vLLM框架的FP8处理路径以适配fnuz格式

(2) 注意力机制优化缺失 - DeepSeek V4采用稀疏注意力机制(top-k选择+滑动窗口) - AMD的AITER内核库对CDNA3架构(gfx942)支持不完善 - 解决方案:为缺失路径添加ROCm特定实现,并设置gfx942平台检测

(3) HIP图形处理 - AMD的HIP图形功能类似CUDA图形 - 需确保捕获区域是设备输入的纯函数 - 通过重构稀疏MLA解码元数据实现静态张量分配

  1. 其他技术问题
  • MoE路由中的专家掩码形状错误
  • Triton内核中填充通道越界写入问题
  1. 优化成果
  • 初始性能分析显示主要耗时在稀疏MLA路径和MXFP4 MoE路径
  • 通过减少簿记开销、优化启动形状等改进,实现8.6%的性能提升
  • 最终达到单GPU 2699 token/s的输出速度
  1. 商业价值评估
  • MI300X具有显存容量和即时可用性优势
  • 租赁成本约为竞品的一半
  • 软件层面的限制(FP8标准、内核支持)会随AMD新芯片迭代逐步解决
  1. 行业展望
  • 随着AMD软件生态改善和AI编程工具发展,此类移植工作成本正在降低
  • 作者团队已将相关修改开源,并计划向上游vLLM项目提交通用改进

(注:删减了部分技术细节引用链接和IEEE 754标准历史等背景信息,保留了关键的技术问题和解决方案描述)

评论总结

这篇评论主要围绕AMD硬件在AI推理中的应用和价格问题展开讨论:

  1. 对AMD硬件潜力的看好
  • 开发者表示看好AMD在低交互推理场景的应用,但指出软件适配需要更多工作 "We at doubleword are bullish for AMD for low-interactivity inference - it does just take a bigger lift on the software side..." "我训练使用AMD MI250X并成功运行了Gemma 4 31B - 但在软件方面需要大量工作"
  1. 价格担忧
  • 用户对服务价格表示担忧,特别是缓存输入与非缓存输入没有价格区分 "With these prices you'll end up with thousands in monthly costs quickly" "以这样的价格,你很快就会面临每月数千美元的成本"
  1. 行业竞争期待
  • 用户期待更多硬件厂商进入市场,特别是中国厂商可能带来的竞争 "Hopefully more hardware companies will be on the market in the coming years" "希望未来几年能有更多硬件公司进入市场"
  1. 技术支持与进展
  • 有用户提供了相关技术补丁的GitHub链接
  • 公司CEO表示感谢客户支持 "Nice work and thanks for being a customer"