文章摘要
Kog AI推出Kog推理引擎技术预览版,在8块AMD MI300X GPU上实现单请求每秒3000个输出token的速度,NVIDIA H200上达2100个。该技术通过全软件栈优化实现接近专用推理硬件的速度,重点解决内存带宽而非计算力的瓶颈问题,证明标准数据中心GPU在优化后能突破现有推理速度限制。
文章总结
标题:标准数据中心GPU上的实时LLM推理(单请求3000 token/秒)
Kog AI发布Kog推理引擎(KIE)技术预览版,在8×AMD MI300X GPU上实现单请求3000 token/秒的输出速度,8×NVIDIA H200则达到2100 token/秒(FP16精度,无推测解码)。当前预览版运行20亿参数模型,后续将支持大型第三方混合专家(MoE)模型并保持相近速度。
核心突破: 1. 通过架构/引擎/内核协同设计,使GPU推理速度达到专用推理硬件的水平 2. 在标准数据中心GPU上实现极致单请求解码速度,无需专用芯片 3. 技术预览版已上线实时编程沙盒
技术原理: - 内存带宽是关键瓶颈:在单请求场景下,推理速度主要受内存带宽而非计算力限制 - 现有软件栈的微秒级浪费:传统推理堆栈因内核启动、CPU调度、同步通信等环节损失性能 - 协同设计解决方案: * 持久化单内核运行时:消除内核边界开销 * 定制KCCL通信层:将跨GPU通信延迟降至3微秒 * Laneformer模型架构:创新延迟张量并行设计
性能基准: | GPU配置 | 内存带宽 | 2B模型理论上限 | 实际达成 | |--------------|----------|--------------|--------| | 8×NVIDIA H200 | 30.7TB/s | 7,700 token/s | 2,100 token/s | | 8×AMD MI300X | 33.6TB/s | 8,400 token/s | 3,000 token/s |
扩展计划: - 即将支持大型MoE模型,预计性能: * Qwen3-Coder-Next (3B活跃参数):~4,000 token/s * DeepSeek-V4-Flash (13B活跃参数):~1,270 token/s * Kimi-K2.6 (32B活跃参数):~355 token/s
应用价值: - AI代理工作流加速:5万token生成时间从8分钟(100token/s)缩短至20秒(3,000token/s) - 释放标准GPU潜力:企业现有数据中心设备即可实现专用硬件级性能
公司背景: - 巴黎AI基础设施初创企业,专注实时推理引擎 - 团队11人(含5名博士),获法国政府"Deep Tech 2030"认证 - 已融资500万美元,技术预览模型在HumanEval基准得分50%
(注:保留核心性能数据和技术原理,精简了部分硬件细节和未来路线图内容,删除重复论证和次要技术说明)
评论总结
这篇评论围绕一个新型推理引擎的性能表现展开讨论,主要观点如下:
- 性能质疑(5条评论)
- 认为对比不公平,测试模型太小(2B)而实际应用需要更大模型(30B+) 关键引用:"comparison is done with a 2B model vs frontier models...100s of times larger"(mungoman2) "scaling to larger models will be more difficult than assumed"(robmccoll)
- 硬件争议(4条评论)
- 质疑"H200不是标准GPU"的表述 关键引用:"NVIDIA H200 Is not a standard GPU...costs close to the same as a house"(irishcoffee) "H200 isn't a standard GPU at all"(bcjdjsndon)
- 应用前景(3条评论)
- 肯定高吞吐量在实时视频/代码生成等场景的价值 关键引用:"real time video...could require such high token throughput"(kirtivr) "Feels like a preview of the future"(rashkov)
- 技术肯定(3条评论)
- 认可技术突破的真实性 关键引用:"legitimate as it gets in deep tech...not vaporware"(cataflam) "each time getting 3300+ tps"(paul-rohan)
- 开放性质疑(2条评论)
- 询问是否会开源 关键引用:"Any plans to release it open source?"(CastFX)
总体呈现谨慎乐观的态度,多数评论肯定技术创新但质疑营销话术(特别是对比基准和硬件标准),同时期待更大规模模型的测试结果。