文章摘要
Orthrus是一个结合自回归LLM精确生成和扩散模型高速并行令牌生成的双架构框架,通过双视图扩散解码实现快速无损的LLM推理。该项目提供了官方实现和模型检查点。
文章总结
Orthrus:基于双视图扩散的高效并行令牌生成框架
项目概述
Orthrus是一个创新的双架构框架,通过双视图扩散解码技术,将自回归大语言模型(LLM)的精确生成能力与扩散模型的高速并行令牌生成优势相结合。该项目在GitHub开源,提供官方实现和模型检查点。
核心优势
- 显著加速推理:突破传统自回归解码的顺序瓶颈,在生成任务上实现最高7.8倍的加速
- 无损生成保证:采用精确的模型内部共识机制,确保输出与基础模型的预测分布完全一致
- 零冗余内存开销:自回归和扩散视图共享相同的高保真键值(KV)缓存,仅产生O(1)的内存开销
- 参数高效:仅微调16%的模型参数即可实现并行生成能力,同时保持基础LLM完全冻结
模型库
所有模型均基于Qwen3架构,保证严格无损生成:
| 模型名称 | 基础模型 | HuggingFace地址 | 平均加速比 | |---------|---------|----------------|-----------| | Orthrus-Qwen3-1.7B | Qwen3-1.7B | 链接 | 4.25倍 | | Orthrus-Qwen3-4B | Qwen3-4.0B | 链接 | 5.20倍 | | Orthrus-Qwen3-8B | Qwen3-8.0B | 链接 | 5.36倍 |
性能对比
- 优于推测性解码方法:相比EAGLE-3、DFlash等方法,Orthrus通过共享KV缓存避免了冗余内存开销,显著提高令牌接受率和推理速度
- 超越现有扩散模型:解决了传统扩散语言模型(dLLM)的条件偏移问题,在复杂推理任务上保持高精度
在MATH-500基准测试中,Orthrus在保持无损性能的同时,相比Qwen3-8B基线实现了约6倍的加速,而Fast-dLLM-v2等适配方法则出现显著精度下降。
快速开始
提供简单的Python代码示例展示如何使用Orthrus-Qwen3-8B模型进行生成任务。项目即将原生集成vLLM和SGLang框架。
引用
如果使用本模型或架构,请引用相关论文:
bibtex
@misc{vannguyen2026orthrusmemoryefficientparalleltoken,
title={Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion},
author={Chien Van Nguyen and Chaitra Hegde and Van Cuong Pham and Ryan A. Rossi and Franck Dernoncourt and Thien Huu Nguyen},
year={2026},
eprint={2605.12825},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2605.12825},
}
评论总结
评论总结:
- 创新性与优势(作者FranckDernoncou,无评分)
- 主要观点:提出可训练的扩散注意力模块,保持基础模型精度同时提升效率
- 关键论据: "Up to 7.8x TPF, ~6x wall-clock on MATH-500"(MATH-500上TPF提升7.8倍,实际时间快6倍) "Orthrus freezes the backbone; accuracy matches Qwen3-8B exactly"(冻结主干网络,精度与Qwen3-8B完全一致)
- 技术可行性(作者xiphias2,无评分)
- 主要观点:认为该方法逻辑合理且具有创新性
- 关键论据: "how it wasn't tried / implemented before, as it makes sense"(惊讶于该方法此前未被尝试) "DTree tricks work here as well"(决策树技巧同样适用)
- 潜在问题(作者bertili,无评分)
- 主要观点:质疑计算资源节省效果和潜在缺陷
- 关键论据: "Does this translate into a similar reduction in compute?"(是否带来相应的计算资源节省) "What's the catch?"(存在什么潜在问题)
- 应用需求(作者DeathArrow,无评分)
- 主要观点:期待量化模型的应用实现
- 关键论据: "make this work with GGUF and Quantized Qwen 3.6"(希望支持GGUF和量化版Qwen3.6)
- 性能质疑(作者spwa4,无评分)
- 主要观点:认为完整Transformer可能更快
- 关键论据: "a full transformer would be a lot faster still"(完整Transformer应该更快) "provably identical is nice"(虽然可证明相同结果很好)