Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution
243 points • 3 days agoArticle Link

Orthrus 是一个新框架,旨在在不降低输出质量的前提下显著加速大型语言模型(LLM)的推理。它采用双架构,将传统自回归模型的逐 token 精准生成与扩散模型的高速并行能力相结合,从而突破通常限制 LLM 文本生成速度的顺序瓶颈,在保持严格无损生成的同时,实现了最高约 7.8 倍的加速。

系统通过同一模型的两种"视图"运行:自回归视图和扩散视图。两种视图共享完全相同的高保真键值(KV)缓存,几乎不增加额外内存,仅需 O(1) 级别的额外缓存。与需要独立草稿模型、因而消耗更多内存的投机解码方法(如 EAGLE-3 或 DFlash)相比,这种共享缓存是重要优势。 Orthrus 因而避免冗余,提升了 token 接受率,并且在输入上下文变长时表现更佳。

Orthrus 的另一个显著优势是参数效率:并行生成能力只通过微调约 16% 的模型参数来实现,而基础 LLM 保持完全冻结,使其成为对现有模型进行实用且高效升级的路径。该框架已在 Qwen3 骨干上实现,并提供多个模型检查点(1.7B 、 4B 和 8B 参数),所有版本均保证输出与原始基础模型的预测分布严格一致。

在性能基准测试中,Orthrus 持续优于现有的投机解码技术。它在每次前向传递中验证通过的 token 数更多,且随上下文长度增长更具扩展性。与那些在复杂推理任务上常出现精度下降的基于扩散的语言模型(dLLM)相比,Orthrus 保持了严格的保真度。例如,在 MATH-500 基准上,它相比 Qwen3-8B 基线实现了约 6 倍的加速且精度无损,而 Fast-dLLM-v2 等方法则表现出明显的精度下降。

该项目提供了简便的安装流程和快速入门指南,用户可通过 HuggingFace 上的可用模型快速开始生成文本,并且与 vLLM 、 SGLang 等主流服务框架的原生集成即将推出。详述 Orthrus 架构的研究论文已发表于 arXiv,代码和模型以 MIT 许可证开源,方便用于研究与商业应用。

44 comments • Comments Link

尽管该方法在逻辑上看起来合理,但此前并未被实现,而且常规的决策树(DTree)技巧也可用于类似目的。

作为一种投机解码的变体,该方法并行预测多个 token 并在后续验证,从而使 token 生成速度更接近提示处理速度。它产生与原始模型完全一致的输出分布,且额外的内存开销微乎其微。主要局限在于:若提示处理本身已经很慢,收益有限;例如在 M 系列 Mac 上,生成速度相对于提示处理速度本已较快,但在 M5 上若提示处理速度提升四倍,便可看到显著收益。

该方法并不减少总计算量,实际上通过计算更多并丢弃无效 token 增加了计算量。它的优势在于并行处理多个 token 而非逐个处理,从而更好地利用 GPU 的计算能力,减少从 VRAM 加载权重的次数。对于低批次大小的自回归 LLM 来说,瓶颈往往是内存延迟而非算力:加载和卸载权重的时间通常远超过等待计算的时间。

在类似 Claude Code 的智能体工作负载中,上下文窗口很大(150k+),瓶颈体现为每用户每秒的 token 数而非纯计算量。这也是 Nvidia 收购 Groq 以及 Cerebras 追求类似方法的原因之一。通过前缀缓存,预填充很少成为瓶颈;在涉及目录遍历和文件搜索的探索阶段,真正的瓶颈是推理 token 的解码。

实现上,该方法在冻结的自回归 Transformer 的每一层注入可训练的"扩散注意力"模块,两个注意力头共享一个 KV 缓存。扩散头并行预测 32 个 token,AR 头在第二轮进行验证,接受最长匹配前缀。可以证明其输出分布与基础模型完全一致。实验结果显示,每次前向最多可生成 7.8 个 token,在 MATH-500 上实现大约 6 倍的实际加速;训练只涉及约 16% 的参数,在 8 块 H200 GPU 上耗时不到 24 小时。

与其他扩散式语言模型(如 Dream 、 Fast-dLLM-v2 和 Mercury)不同,这些模型通常会修改基础权重并因此损失精度;而 Orthrus 则保持主干网络冻结,与 Qwen3-8B 的精度完全一致。与 EAGLE-3 、 DFlash 等投机解码方法相比,Orthrus 无需外部草稿模型、无需独立缓存,也没有首 token 延迟。 KV 的额外开销恒定约为 4.5 MiB;在 MATH-500 上的接受长度为 11.7,而 DFlash 为 7.9,EAGLE-3 为 3.5 。

将该技术适配到 GGUF 文件并不复杂,但需要基于 Qwen3 衍生出一种新的架构并加入投机解码支持,因为即使是多 token 预测(MTP)也尚未并入 llama.cpp 。

该方法有望扩展到更大模型(例如 Qwen 3.6 27B),其训练流程类似于 LoRA 或蒸馏。验证工作可以先在较小模型(如 Qwen3.5 0.8B)与消费级 GPU 上开展,然后逐步放大。需要指出的是,Qwen 3.6 已支持多 token 生成功能,但那是基于逐 token 的投机而非本文所述的基于扩散的方法。

该方法在概念上靠近 DFlash,但其扩散头在每一层运行并共享原始模型的 KV 缓存。核心洞察是:在潜在空间中若能实现约 95% 准确率的预测器,理论上可带来 ~7 倍的加速,但在更大层规模下维持这种预测能力仍是扩展中的挑战。

总体而言,讨论的核心是通过并行 token 预测来加速 LLM 推理:在保证输出保真度的前提下,通过减少 VRAM 中权重加载次数来缓解自回归模型的内存带宽瓶颈,代价是总计算量的增加。虽然在消费级硬件及长上下文的智能体工作负载上前景可观,但实际采用取决于主流推理框架的实现支持、在更大模型上的验证以及与各种量化格式的兼容性。