Hacker News 中文摘要

文章摘要

Baseten作为OpenAI GPT-OSS-120B的开源合作伙伴，通过其优化的推理堆栈和工程团队的专业能力，成功在NVIDIA GPU上实现了每秒500+ tokens的高性能处理，显著降低了延迟并提升了吞吐量，成为该模型在公开数据中的领先运行者。

文章总结

如何在NVIDIA GPU上以每秒500+个令牌的速度运行GPT OSS 120B

在OpenAI发布开源模型GPT OSS 120B的当天，我们迅速行动，力求为客户提供最佳性能体验。作为OpenAI自2019年以来的首个开源大语言模型（LLM）的发布合作伙伴，我们希望开发者能够充分利用这一新模型。

在发布当天，我们通过OpenRouter的实际使用数据，在NVIDIA GPU上的延迟和吞吐量方面表现优异，成为行业领先者。

优化推理性能的关键

优化新模型的性能是一项巨大的工程挑战。凭借我们灵活的推理堆栈和模型性能工程团队的集体专业知识，我们能够每小时对新模型进行性能改进。事实上，在撰写这篇博客的过程中，我们已将每秒处理的令牌数增加了100个，同时保持了100%的正常运行时间。

模型性能优化工作包括：

在多个推理框架（TensorRT-LLM、vLLM和SGLang）上进行测试和基准测试
确保与Hopper和Blackwell GPU架构的兼容性
集成NVIDIA Dynamo等关键推理堆栈组件
应用我们最喜欢的性能优化技术，如KV缓存感知路由和Eagle的推测解码

实现SOTA性能的步骤

首次推理运行
首先，我们尽可能运行基线推理。这需要在推理框架、硬件架构和模型服务器层面提供支持。我们并行化这一工作，多个工程师分别尝试vLLM、SGLang和TensorRT-LLM。幸运的是，我们很快让TensorRT-LLM运行起来，这通常是LLM最有效的推理框架。
修复兼容性错误
每当新模型架构发布时，将其集成到现有框架中都会遇到一些细微的错误和问题。GPT OSS的发布引入了多项新技术，包括新的响应格式Harmony。我们的大部分工程工作都是迭代修复错误，并测试模型的速度和准确性。我们还向开源社区贡献了有效的修复方案。
优化模型配置
虽然OpenAI声称GPT OSS 120B可以在单个H100 GPU上运行，但优化部署通常将模型并行化到4或8个GPU上以提高性能和吞吐量。我们选择了张量并行（Tensor Parallelism），因为它提供了更好的延迟。此外，我们采用了TensorRT-LLM MoE后端，该后端在Blackwell架构上表现优异。

下一步性能优化

尽管我们已经实现了SOTA的延迟和吞吐量，但GPT OSS 120B的性能仍有很大的提升空间。我们正在研究添加推测解码技术，该技术使用较小的“草稿”模型预测未来令牌，然后由目标模型验证。我们特别青睐Eagle 3进行推测，但我们的推理堆栈支持10多种算法，以确保为每个模型和工作负载选择最佳方案。

如果你对这种性能优化工作感兴趣，我们正在积极招聘模型性能工程师。对于大多数AI工程团队来说，这种性能优化工作不应妨碍你在产品中测试新模型。无论你是寻找GPT OSS 120B还是任何开源或自定义模型，都可以联系我们，帮助优化你的延迟和吞吐量！

评论总结

模型调优的复杂性
- 评论1指出，模型的优化和调优过程比预期的复杂，并非“开箱即用”。
- 引用：“I didn't realize how much massaging needed to be done to get the models to perform well.”
- 引用：“I just sort of assumed they worked out of the box.”
推测解码的实用性争议
- 评论2对推测解码的实际意义提出质疑，认为其无法绕过目标模型的推理过程，因此可能无法显著提升效率。
- 引用：“How does the target model validate the draft tokens without running the inference as normal?”
- 引用：“You can't trust the draft tokens before they are validated, so you're still stuck waiting for the target model.”
硬件性能与模型部署
- 评论3和评论7关注硬件性能，尤其是4090显卡的速度表现。
- 引用：“What's the best speed people have gotten on 4090s?”
- 引用：“TLDR: tensorrt.”
开源模型与硬件限制
- 评论5和评论6讨论了开源模型的易用性及其硬件依赖性，强调硬件是开发者面临的主要限制。
- 引用：“I had it running on my Mac in five minutes, thanks to Llama.”
- 引用：“I like seeing oss model providers talking about hardware, because that's a limiting point for most developers.”
TensorRT-LLM的优缺点
- 评论8详细分析了TensorRT-LLM的性能优势与部署复杂性，认为其虽然高效但配置过程繁琐，且对硬件环境要求严格。
- 引用：“It is usually the hardest to setup correctly and is often out of the date regarding the relevant architectures.”
- 引用：“The big question is whether it's worth it, since when running the GPT-OSS-120B on H100 using vLLM is flawless in comparison.”

总结：评论主要围绕模型调优的复杂性、推测解码的实用性、硬件性能、开源模型的易用性以及TensorRT-LLM的优缺点展开。观点多样，既有对技术细节的深入探讨，也有对实际应用中的挑战和限制的反思。

在Nvidia GPU上以每秒500个令牌运行GPT-OSS-120B -- Running GPT-OSS-120B at 500 tokens per second on Nvidia GPUs

文章摘要

文章总结

评论总结