文章摘要
TurboDiffusion是清华机器学习团队开发的视频生成加速框架,通过SageAttention、SLA稀疏线性注意力等技术,可在RTX 5090显卡上实现100-200倍的端到端加速,同时保持视频质量。该项目结合了注意力加速和时间步蒸馏技术,相关论文和模型仍在优化中。
文章总结
TurboDiffusion:视频扩散模型加速框架
项目概述
TurboDiffusion 是由清华机器学习团队开发的视频生成加速框架,能够在单张 RTX 5090 显卡上实现 100-200 倍 的端到端扩散生成加速,同时保持视频质量。核心技术包括: - SageAttention:高效注意力机制 - SLA(稀疏线性注意力):注意力加速模块 - rCM(时间步蒸馏):来自 NVlabs 的时序压缩技术
性能对比
| 模型类型 | 原始生成时间 | TurboDiffusion 时间 | 加速比 | |-------------------------|--------------|---------------------|---------| | Wan-2.1-T2V-1.3B-480P | 184秒 | 1.9秒 | ~97倍 | | Wan-2.2-I2V-A14B-720P | 4549秒 | 38秒 | ~120倍 |
(示例:5秒视频在RTX 5090上的生成时间对比)
可用模型
| 模型名称 | 最佳分辨率 | HuggingFace 模型链接 | |------------------------------|------------|-----------------------| | TurboWan2.2-I2V-A14B-720P | 720p | [链接] | | TurboWan2.1-T2V-1.3B-480P | 480p | [链接] | | TurboWan2.1-T2V-14B-480P | 480p | [链接] |
注:所有检查点支持480p/720p生成,"最佳分辨率"指模型最优画质对应的分辨率。
安装指南
基础环境: - Python≥3.9 - Torch≥2.7.0(推荐2.8.0,更高版本可能内存溢出)
安装方式: ```bash
pip安装
pip install turbodiffusion --no-build-isolation
或源码编译
git clone https://github.com/thu-ml/TurboDiffusion.git cd TurboDiffusion pip install -e . --no-build-isolation ```
推理示例
文本生成视频(T2V):
bash
python turbodiffusion/inference/wan2.1_t2v_infer.py \
--model Wan2.1-1.3B \
--prompt "东京街头时尚女性行走场景" \
--resolution 480p \
--num_steps 4
图像生成视频(I2V):
bash
python turbodiffusion/inference/wan2.2_i2v_infer.py \
--image_path input.jpg \
--prompt "自拍视角的冲浪猫咪视频" \
--resolution 720p
技术亮点
硬件适配:
- 40GB+显存GPU使用未量化检查点
- RTX 4090/5090使用量化检查点(添加
--quant_linear参数)
注意力优化:
- 支持原始注意力/SLA/SageSLA三种模式
- 推荐SageSLA配合0.15的top-k比例提升画质
训练创新:
- 基于白盒训练的SLA微调方案
- 支持FSDP2分布式训练和DCP检查点格式
社区生态
- ComfyUI插件:已由社区实现集成
- 开发路线图:
- 优化并行计算架构
- 支持更多视频生成模型
- 硬件级算子优化
引用文献
bibtex
@article{zhang2025turbodiffusion,
title={TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times},
author={Zhang, Jintao et al.},
journal={arXiv preprint arXiv:2512.16093},
year={2025}
}
(注:论文与检查点仍在优化中,后续将更新更高质量版本)
评论总结
以下是评论内容的总结:
对技术进步的惊叹
- 作者对视频生成速度的突破表示兴奋,认为在5090显卡上2秒生成5秒视频非常惊人。
引用:
"2s to generate a 5s video on a 5090 for WAN 2.1 is absolutely crazy."
"Having the ability to do real-time video generation on a single workstation GPU is mind blowing."
- 作者对视频生成速度的突破表示兴奋,认为在5090显卡上2秒生成5秒视频非常惊人。
对技术局限性的批评
- 有评论指出基准测试可能不准确,且未使用优化工具(如FA4/Cutlass或TRT),实际性能可能不如宣称的高。
引用:
"the baselines were deliberately worse and not how someone would be using these to begin with."
"No actual use of FA4/Cutlass based kernels nor TRT at any point."
- 有评论指出基准测试可能不准确,且未使用优化工具(如FA4/Cutlass或TRT),实际性能可能不如宣称的高。
对硬件优化的期待
- 用户希望类似优化能扩展到其他硬件(如M4 Max),并提到当前设备生成视频的效率较低。
引用:
"if someone could release an optimization like this for the M4 Max I would be so happy."
"Last time I tried generating a video it was something like an hour for a 480p 5-second clip."
- 用户希望类似优化能扩展到其他硬件(如M4 Max),并提到当前设备生成视频的效率较低。
对技术应用的展望与担忧
- 评论提到实时视频生成的潜力,但也警告可能带来的风险(如“数字海洛因”)。
引用:
"We are scarily close to realtime personalization of video."
"may lead to someone inadvertently creating 'digital heroin'."
- 评论提到实时视频生成的潜力,但也警告可能带来的风险(如“数字海洛因”)。
工具推荐与社区需求
- 有用户推荐了相关工具(Wan2GP),并提到社区对快速视频生成功能的高需求。
引用:
"this is probably the best tool for this stuff now."
"it's the #1 request in multiple tickets."
- 有用户推荐了相关工具(Wan2GP),并提到社区对快速视频生成功能的高需求。