Hacker News 中文摘要

RSS订阅

Orthrus-Qwen3:Qwen3上最高7.8倍token/前向,输出分布一致 -- Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

文章摘要

Orthrus是一个结合自回归LLM精确生成和扩散模型高速并行令牌生成的双架构框架,通过双视图扩散解码实现快速无损的LLM推理。该项目提供了官方实现和模型检查点。

文章总结

Orthrus:基于双视图扩散的高效并行令牌生成框架

项目概述

Orthrus是一个创新的双架构框架,通过双视图扩散解码技术,将自回归大语言模型(LLM)的精确生成能力与扩散模型的高速并行令牌生成优势相结合。该项目在GitHub开源,提供官方实现和模型检查点。

核心优势

  1. 显著加速推理:突破传统自回归解码的顺序瓶颈,在生成任务上实现最高7.8倍的加速
  2. 无损生成保证:采用精确的模型内部共识机制,确保输出与基础模型的预测分布完全一致
  3. 零冗余内存开销:自回归和扩散视图共享相同的高保真键值(KV)缓存,仅产生O(1)的内存开销
  4. 参数高效:仅微调16%的模型参数即可实现并行生成能力,同时保持基础LLM完全冻结

模型库

所有模型均基于Qwen3架构,保证严格无损生成:

| 模型名称 | 基础模型 | HuggingFace地址 | 平均加速比 | |---------|---------|----------------|-----------| | Orthrus-Qwen3-1.7B | Qwen3-1.7B | 链接 | 4.25倍 | | Orthrus-Qwen3-4B | Qwen3-4.0B | 链接 | 5.20倍 | | Orthrus-Qwen3-8B | Qwen3-8.0B | 链接 | 5.36倍 |

性能对比

  • 优于推测性解码方法:相比EAGLE-3、DFlash等方法,Orthrus通过共享KV缓存避免了冗余内存开销,显著提高令牌接受率和推理速度
  • 超越现有扩散模型:解决了传统扩散语言模型(dLLM)的条件偏移问题,在复杂推理任务上保持高精度

在MATH-500基准测试中,Orthrus在保持无损性能的同时,相比Qwen3-8B基线实现了约6倍的加速,而Fast-dLLM-v2等适配方法则出现显著精度下降。

快速开始

提供简单的Python代码示例展示如何使用Orthrus-Qwen3-8B模型进行生成任务。项目即将原生集成vLLM和SGLang框架。

引用

如果使用本模型或架构,请引用相关论文: bibtex @misc{vannguyen2026orthrusmemoryefficientparalleltoken, title={Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion}, author={Chien Van Nguyen and Chaitra Hegde and Van Cuong Pham and Ryan A. Rossi and Franck Dernoncourt and Thien Huu Nguyen}, year={2026}, eprint={2605.12825}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2605.12825}, }

评论总结

评论总结:

  1. 创新性与优势(作者FranckDernoncou,无评分)
  • 主要观点:提出可训练的扩散注意力模块,保持基础模型精度同时提升效率
  • 关键论据: "Up to 7.8x TPF, ~6x wall-clock on MATH-500"(MATH-500上TPF提升7.8倍,实际时间快6倍) "Orthrus freezes the backbone; accuracy matches Qwen3-8B exactly"(冻结主干网络,精度与Qwen3-8B完全一致)
  1. 技术可行性(作者xiphias2,无评分)
  • 主要观点:认为该方法逻辑合理且具有创新性
  • 关键论据: "how it wasn't tried / implemented before, as it makes sense"(惊讶于该方法此前未被尝试) "DTree tricks work here as well"(决策树技巧同样适用)
  1. 潜在问题(作者bertili,无评分)
  • 主要观点:质疑计算资源节省效果和潜在缺陷
  • 关键论据: "Does this translate into a similar reduction in compute?"(是否带来相应的计算资源节省) "What's the catch?"(存在什么潜在问题)
  1. 应用需求(作者DeathArrow,无评分)
  • 主要观点:期待量化模型的应用实现
  • 关键论据: "make this work with GGUF and Quantized Qwen 3.6"(希望支持GGUF和量化版Qwen3.6)
  1. 性能质疑(作者spwa4,无评分)
  • 主要观点:认为完整Transformer可能更快
  • 关键论据: "a full transformer would be a lot faster still"(完整Transformer应该更快) "provably identical is nice"(虽然可证明相同结果很好)