Hacker News 中文摘要

文章摘要

Kog AI推出Kog推理引擎技术预览版，在8块AMD MI300X GPU上实现单请求每秒3000个输出token的速度，NVIDIA H200上达2100个。该技术通过全软件栈优化实现接近专用推理硬件的速度，重点解决内存带宽而非计算力的瓶颈问题，证明标准数据中心GPU在优化后能突破现有推理速度限制。

文章总结

标题：标准数据中心GPU上的实时LLM推理（单请求3000 token/秒）

Kog AI发布Kog推理引擎(KIE)技术预览版，在8×AMD MI300X GPU上实现单请求3000 token/秒的输出速度，8×NVIDIA H200则达到2100 token/秒（FP16精度，无推测解码）。当前预览版运行20亿参数模型，后续将支持大型第三方混合专家(MoE)模型并保持相近速度。

核心突破： 1. 通过架构/引擎/内核协同设计，使GPU推理速度达到专用推理硬件的水平 2. 在标准数据中心GPU上实现极致单请求解码速度，无需专用芯片 3. 技术预览版已上线实时编程沙盒

技术原理： - 内存带宽是关键瓶颈：在单请求场景下，推理速度主要受内存带宽而非计算力限制 - 现有软件栈的微秒级浪费：传统推理堆栈因内核启动、CPU调度、同步通信等环节损失性能 - 协同设计解决方案： * 持久化单内核运行时：消除内核边界开销 * 定制KCCL通信层：将跨GPU通信延迟降至3微秒 * Laneformer模型架构：创新延迟张量并行设计

性能基准： | GPU配置 | 内存带宽 | 2B模型理论上限 | 实际达成 | |--------------|----------|--------------|--------| | 8×NVIDIA H200 | 30.7TB/s | 7,700 token/s | 2,100 token/s | | 8×AMD MI300X | 33.6TB/s | 8,400 token/s | 3,000 token/s |

扩展计划： - 即将支持大型MoE模型，预计性能： * Qwen3-Coder-Next (3B活跃参数)：~4,000 token/s * DeepSeek-V4-Flash (13B活跃参数)：~1,270 token/s * Kimi-K2.6 (32B活跃参数)：~355 token/s

应用价值： - AI代理工作流加速：5万token生成时间从8分钟(100token/s)缩短至20秒(3,000token/s) - 释放标准GPU潜力：企业现有数据中心设备即可实现专用硬件级性能

公司背景： - 巴黎AI基础设施初创企业，专注实时推理引擎 - 团队11人（含5名博士），获法国政府"Deep Tech 2030"认证 - 已融资500万美元，技术预览模型在HumanEval基准得分50%

（注：保留核心性能数据和技术原理，精简了部分硬件细节和未来路线图内容，删除重复论证和次要技术说明）

评论总结

这篇评论围绕一个新型推理引擎的性能表现展开讨论，主要观点如下：

性能质疑（5条评论）

认为对比不公平，测试模型太小（2B）而实际应用需要更大模型（30B+）关键引用："comparison is done with a 2B model vs frontier models...100s of times larger"（mungoman2） "scaling to larger models will be more difficult than assumed"（robmccoll）

硬件争议（4条评论）

质疑"H200不是标准GPU"的表述关键引用："NVIDIA H200 Is not a standard GPU...costs close to the same as a house"（irishcoffee） "H200 isn't a standard GPU at all"（bcjdjsndon）

应用前景（3条评论）

肯定高吞吐量在实时视频/代码生成等场景的价值关键引用："real time video...could require such high token throughput"（kirtivr） "Feels like a preview of the future"（rashkov）

技术肯定（3条评论）

认可技术突破的真实性关键引用："legitimate as it gets in deep tech...not vaporware"（cataflam） "each time getting 3300+ tps"（paul-rohan）

开放性质疑（2条评论）

询问是否会开源关键引用："Any plans to release it open source?"（CastFX）

总体呈现谨慎乐观的态度，多数评论肯定技术创新但质疑营销话术（特别是对比基准和硬件标准），同时期待更大规模模型的测试结果。

标准GPU上的实时LLM推理：单请求每秒3千令牌 -- Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

文章摘要

文章总结

评论总结