Hacker News 中文摘要

RSS订阅

在Nvidia GPU上以每秒500个令牌运行GPT-OSS-120B -- Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs

文章摘要

Baseten作为OpenAI GPT-OSS-120B的开源合作伙伴,通过其优化的推理堆栈和工程团队的专业能力,成功在NVIDIA GPU上实现了每秒500+ tokens的高性能处理,显著降低了延迟并提升了吞吐量,成为该模型在公开数据中的领先运行者。

文章总结

如何在NVIDIA GPU上以每秒500+个令牌的速度运行GPT OSS 120B

在OpenAI发布开源模型GPT OSS 120B的当天,我们迅速行动,力求为客户提供最佳性能体验。作为OpenAI自2019年以来的首个开源大语言模型(LLM)的发布合作伙伴,我们希望开发者能够充分利用这一新模型。

在发布当天,我们通过OpenRouter的实际使用数据,在NVIDIA GPU上的延迟和吞吐量方面表现优异,成为行业领先者。

优化推理性能的关键

优化新模型的性能是一项巨大的工程挑战。凭借我们灵活的推理堆栈和模型性能工程团队的集体专业知识,我们能够每小时对新模型进行性能改进。事实上,在撰写这篇博客的过程中,我们已将每秒处理的令牌数增加了100个,同时保持了100%的正常运行时间。

模型性能优化工作包括:

  • 在多个推理框架(TensorRT-LLM、vLLM和SGLang)上进行测试和基准测试
  • 确保与Hopper和Blackwell GPU架构的兼容性
  • 集成NVIDIA Dynamo等关键推理堆栈组件
  • 应用我们最喜欢的性能优化技术,如KV缓存感知路由和Eagle的推测解码

实现SOTA性能的步骤

  1. 首次推理运行
    首先,我们尽可能运行基线推理。这需要在推理框架、硬件架构和模型服务器层面提供支持。我们并行化这一工作,多个工程师分别尝试vLLM、SGLang和TensorRT-LLM。幸运的是,我们很快让TensorRT-LLM运行起来,这通常是LLM最有效的推理框架。

  2. 修复兼容性错误
    每当新模型架构发布时,将其集成到现有框架中都会遇到一些细微的错误和问题。GPT OSS的发布引入了多项新技术,包括新的响应格式Harmony。我们的大部分工程工作都是迭代修复错误,并测试模型的速度和准确性。我们还向开源社区贡献了有效的修复方案。

  3. 优化模型配置
    虽然OpenAI声称GPT OSS 120B可以在单个H100 GPU上运行,但优化部署通常将模型并行化到4或8个GPU上以提高性能和吞吐量。我们选择了张量并行(Tensor Parallelism),因为它提供了更好的延迟。此外,我们采用了TensorRT-LLM MoE后端,该后端在Blackwell架构上表现优异。

下一步性能优化

尽管我们已经实现了SOTA的延迟和吞吐量,但GPT OSS 120B的性能仍有很大的提升空间。我们正在研究添加推测解码技术,该技术使用较小的“草稿”模型预测未来令牌,然后由目标模型验证。我们特别青睐Eagle 3进行推测,但我们的推理堆栈支持10多种算法,以确保为每个模型和工作负载选择最佳方案。

如果你对这种性能优化工作感兴趣,我们正在积极招聘模型性能工程师。对于大多数AI工程团队来说,这种性能优化工作不应妨碍你在产品中测试新模型。无论你是寻找GPT OSS 120B还是任何开源或自定义模型,都可以联系我们,帮助优化你的延迟和吞吐量!

评论总结

  1. 模型调优的复杂性

    • 评论1指出,模型的优化和调优过程比预期的复杂,并非“开箱即用”。
    • 引用:“I didn't realize how much massaging needed to be done to get the models to perform well.”
    • 引用:“I just sort of assumed they worked out of the box.”
  2. 推测解码的实用性争议

    • 评论2对推测解码的实际意义提出质疑,认为其无法绕过目标模型的推理过程,因此可能无法显著提升效率。
    • 引用:“How does the target model validate the draft tokens without running the inference as normal?”
    • 引用:“You can't trust the draft tokens before they are validated, so you're still stuck waiting for the target model.”
  3. 硬件性能与模型部署

    • 评论3和评论7关注硬件性能,尤其是4090显卡的速度表现。
    • 引用:“What's the best speed people have gotten on 4090s?”
    • 引用:“TLDR: tensorrt.”
  4. 开源模型与硬件限制

    • 评论5和评论6讨论了开源模型的易用性及其硬件依赖性,强调硬件是开发者面临的主要限制。
    • 引用:“I had it running on my Mac in five minutes, thanks to Llama.”
    • 引用:“I like seeing oss model providers talking about hardware, because that's a limiting point for most developers.”
  5. TensorRT-LLM的优缺点

    • 评论8详细分析了TensorRT-LLM的性能优势与部署复杂性,认为其虽然高效但配置过程繁琐,且对硬件环境要求严格。
    • 引用:“It is usually the hardest to setup correctly and is often out of the date regarding the relevant architectures.”
    • 引用:“The big question is whether it's worth it, since when running the GPT-OSS-120B on H100 using vLLM is flawless in comparison.”

总结:评论主要围绕模型调优的复杂性、推测解码的实用性、硬件性能、开源模型的易用性以及TensorRT-LLM的优缺点展开。观点多样,既有对技术细节的深入探讨,也有对实际应用中的挑战和限制的反思。