文章摘要

TurboDiffusion是清华机器学习团队开发的视频生成加速框架，通过SageAttention、SLA稀疏线性注意力等技术，可在RTX 5090显卡上实现100-200倍的端到端加速，同时保持视频质量。该项目结合了注意力加速和时间步蒸馏技术，相关论文和模型仍在优化中。

文章总结

TurboDiffusion：视频扩散模型加速框架

项目概述

TurboDiffusion 是由清华机器学习团队开发的视频生成加速框架，能够在单张 RTX 5090 显卡上实现 100-200 倍 的端到端扩散生成加速，同时保持视频质量。核心技术包括： - SageAttention：高效注意力机制 - SLA（稀疏线性注意力）：注意力加速模块 - rCM（时间步蒸馏）：来自 NVlabs 的时序压缩技术

性能对比

| 模型类型 | 原始生成时间 | TurboDiffusion 时间 | 加速比 | |-------------------------|--------------|---------------------|---------| | Wan-2.1-T2V-1.3B-480P | 184秒 | 1.9秒 | ~97倍 | | Wan-2.2-I2V-A14B-720P | 4549秒 | 38秒 | ~120倍 |

（示例：5秒视频在RTX 5090上的生成时间对比）

可用模型

| 模型名称 | 最佳分辨率 | HuggingFace 模型链接 | |------------------------------|------------|-----------------------| | TurboWan2.2-I2V-A14B-720P | 720p | [链接] | | TurboWan2.1-T2V-1.3B-480P | 480p | [链接] | | TurboWan2.1-T2V-14B-480P | 480p | [链接] |

注：所有检查点支持480p/720p生成，"最佳分辨率"指模型最优画质对应的分辨率。

安装指南

基础环境： - Python≥3.9 - Torch≥2.7.0（推荐2.8.0，更高版本可能内存溢出）

安装方式： ```bash

pip安装

pip install turbodiffusion --no-build-isolation

或源码编译

git clone https://github.com/thu-ml/TurboDiffusion.git cd TurboDiffusion pip install -e . --no-build-isolation ```

推理示例

文本生成视频（T2V）： bash python turbodiffusion/inference/wan2.1_t2v_infer.py \ --model Wan2.1-1.3B \ --prompt "东京街头时尚女性行走场景" \ --resolution 480p \ --num_steps 4

图像生成视频（I2V）： bash python turbodiffusion/inference/wan2.2_i2v_infer.py \ --image_path input.jpg \ --prompt "自拍视角的冲浪猫咪视频" \ --resolution 720p

技术亮点

硬件适配：
- 40GB+显存GPU使用未量化检查点
- RTX 4090/5090使用量化检查点（添加--quant_linear参数）
注意力优化：
- 支持原始注意力/SLA/SageSLA三种模式
- 推荐SageSLA配合0.15的top-k比例提升画质
训练创新：
- 基于白盒训练的SLA微调方案
- 支持FSDP2分布式训练和DCP检查点格式

社区生态

ComfyUI插件：已由社区实现集成
开发路线图：
- 优化并行计算架构
- 支持更多视频生成模型
- 硬件级算子优化

引用文献

bibtex @article{zhang2025turbodiffusion, title={TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times}, author={Zhang, Jintao et al.}, journal={arXiv preprint arXiv:2512.16093}, year={2025} }

（注：论文与检查点仍在优化中，后续将更新更高质量版本）

评论总结

以下是评论内容的总结：

对技术进步的惊叹
- 作者对视频生成速度的突破表示兴奋，认为在5090显卡上2秒生成5秒视频非常惊人。
  引用：
  "2s to generate a 5s video on a 5090 for WAN 2.1 is absolutely crazy."
  "Having the ability to do real-time video generation on a single workstation GPU is mind blowing."
对技术局限性的批评
- 有评论指出基准测试可能不准确，且未使用优化工具（如FA4/Cutlass或TRT），实际性能可能不如宣称的高。
  引用：
  "the baselines were deliberately worse and not how someone would be using these to begin with."
  "No actual use of FA4/Cutlass based kernels nor TRT at any point."
对硬件优化的期待
- 用户希望类似优化能扩展到其他硬件（如M4 Max），并提到当前设备生成视频的效率较低。
  引用：
  "if someone could release an optimization like this for the M4 Max I would be so happy."
  "Last time I tried generating a video it was something like an hour for a 480p 5-second clip."
对技术应用的展望与担忧
- 评论提到实时视频生成的潜力，但也警告可能带来的风险（如“数字海洛因”）。
  引用：
  "We are scarily close to realtime personalization of video."
  "may lead to someone inadvertently creating 'digital heroin'."
工具推荐与社区需求
- 有用户推荐了相关工具（Wan2GP），并提到社区对快速视频生成功能的高需求。
  引用：
  "this is probably the best tool for this stuff now."
  "it's the #1 request in multiple tickets."

Hacker News 中文摘要

TurboDiffusion：视频扩散模型100–200倍加速 -- TurboDiffusion: 100–200× Acceleration for Video Diffusion Models