文章摘要

Orthrus是一个结合自回归LLM精确生成和扩散模型高速并行令牌生成的双架构框架，通过双视图扩散解码实现快速无损的LLM推理。该项目提供了官方实现和模型检查点。

文章总结

Orthrus：基于双视图扩散的高效并行令牌生成框架

项目概述

Orthrus是一个创新的双架构框架，通过双视图扩散解码技术，将自回归大语言模型(LLM)的精确生成能力与扩散模型的高速并行令牌生成优势相结合。该项目在GitHub开源，提供官方实现和模型检查点。

核心优势

显著加速推理：突破传统自回归解码的顺序瓶颈，在生成任务上实现最高7.8倍的加速
无损生成保证：采用精确的模型内部共识机制，确保输出与基础模型的预测分布完全一致
零冗余内存开销：自回归和扩散视图共享相同的高保真键值(KV)缓存，仅产生O(1)的内存开销
参数高效：仅微调16%的模型参数即可实现并行生成能力，同时保持基础LLM完全冻结

模型库

所有模型均基于Qwen3架构，保证严格无损生成：

| 模型名称 | 基础模型 | HuggingFace地址 | 平均加速比 | |---------|---------|----------------|-----------| | Orthrus-Qwen3-1.7B | Qwen3-1.7B | 链接 | 4.25倍 | | Orthrus-Qwen3-4B | Qwen3-4.0B | 链接 | 5.20倍 | | Orthrus-Qwen3-8B | Qwen3-8.0B | 链接 | 5.36倍 |

性能对比

优于推测性解码方法：相比EAGLE-3、DFlash等方法，Orthrus通过共享KV缓存避免了冗余内存开销，显著提高令牌接受率和推理速度
超越现有扩散模型：解决了传统扩散语言模型(dLLM)的条件偏移问题，在复杂推理任务上保持高精度

在MATH-500基准测试中，Orthrus在保持无损性能的同时，相比Qwen3-8B基线实现了约6倍的加速，而Fast-dLLM-v2等适配方法则出现显著精度下降。

快速开始

提供简单的Python代码示例展示如何使用Orthrus-Qwen3-8B模型进行生成任务。项目即将原生集成vLLM和SGLang框架。

引用

如果使用本模型或架构，请引用相关论文： bibtex @misc{vannguyen2026orthrusmemoryefficientparalleltoken, title={Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion}, author={Chien Van Nguyen and Chaitra Hegde and Van Cuong Pham and Ryan A. Rossi and Franck Dernoncourt and Thien Huu Nguyen}, year={2026}, eprint={2605.12825}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2605.12825}, }

评论总结

评论总结：

创新性与优势（作者FranckDernoncou，无评分）

主要观点：提出可训练的扩散注意力模块，保持基础模型精度同时提升效率
关键论据： "Up to 7.8x TPF, ~6x wall-clock on MATH-500"（MATH-500上TPF提升7.8倍，实际时间快6倍） "Orthrus freezes the backbone; accuracy matches Qwen3-8B exactly"（冻结主干网络，精度与Qwen3-8B完全一致）

技术可行性（作者xiphias2，无评分）

主要观点：认为该方法逻辑合理且具有创新性
关键论据： "how it wasn't tried / implemented before, as it makes sense"（惊讶于该方法此前未被尝试） "DTree tricks work here as well"（决策树技巧同样适用）

潜在问题（作者bertili，无评分）

主要观点：质疑计算资源节省效果和潜在缺陷
关键论据： "Does this translate into a similar reduction in compute?"（是否带来相应的计算资源节省） "What's the catch?"（存在什么潜在问题）

应用需求（作者DeathArrow，无评分）

主要观点：期待量化模型的应用实现
关键论据： "make this work with GGUF and Quantized Qwen 3.6"（希望支持GGUF和量化版Qwen3.6）

性能质疑（作者spwa4，无评分）

主要观点：认为完整Transformer可能更快
关键论据： "a full transformer would be a lot faster still"（完整Transformer应该更快） "provably identical is nice"（虽然可证明相同结果很好）

Hacker News 中文摘要

Orthrus-Qwen3：Qwen3上最高7.8倍token/前向，输出分布一致 -- Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution