Hacker News 中文摘要

RSS订阅

TurboDiffusion:视频扩散模型100–200倍加速 -- TurboDiffusion: 100–200× Acceleration for Video Diffusion Models

文章摘要

TurboDiffusion是清华机器学习团队开发的视频生成加速框架,通过SageAttention、SLA稀疏线性注意力等技术,可在RTX 5090显卡上实现100-200倍的端到端加速,同时保持视频质量。该项目结合了注意力加速和时间步蒸馏技术,相关论文和模型仍在优化中。

文章总结

TurboDiffusion:视频扩散模型加速框架

项目概述

TurboDiffusion 是由清华机器学习团队开发的视频生成加速框架,能够在单张 RTX 5090 显卡上实现 100-200 倍 的端到端扩散生成加速,同时保持视频质量。核心技术包括: - SageAttention:高效注意力机制 - SLA(稀疏线性注意力):注意力加速模块 - rCM(时间步蒸馏):来自 NVlabs 的时序压缩技术

性能对比

| 模型类型 | 原始生成时间 | TurboDiffusion 时间 | 加速比 | |-------------------------|--------------|---------------------|---------| | Wan-2.1-T2V-1.3B-480P | 184秒 | 1.9秒 | ~97倍 | | Wan-2.2-I2V-A14B-720P | 4549秒 | 38秒 | ~120倍 |

(示例:5秒视频在RTX 5090上的生成时间对比)

可用模型

| 模型名称 | 最佳分辨率 | HuggingFace 模型链接 | |------------------------------|------------|-----------------------| | TurboWan2.2-I2V-A14B-720P | 720p | [链接] | | TurboWan2.1-T2V-1.3B-480P | 480p | [链接] | | TurboWan2.1-T2V-14B-480P | 480p | [链接] |

注:所有检查点支持480p/720p生成,"最佳分辨率"指模型最优画质对应的分辨率。

安装指南

基础环境: - Python≥3.9 - Torch≥2.7.0(推荐2.8.0,更高版本可能内存溢出)

安装方式: ```bash

pip安装

pip install turbodiffusion --no-build-isolation

或源码编译

git clone https://github.com/thu-ml/TurboDiffusion.git cd TurboDiffusion pip install -e . --no-build-isolation ```

推理示例

文本生成视频(T2V)bash python turbodiffusion/inference/wan2.1_t2v_infer.py \ --model Wan2.1-1.3B \ --prompt "东京街头时尚女性行走场景" \ --resolution 480p \ --num_steps 4

图像生成视频(I2V)bash python turbodiffusion/inference/wan2.2_i2v_infer.py \ --image_path input.jpg \ --prompt "自拍视角的冲浪猫咪视频" \ --resolution 720p

技术亮点

  1. 硬件适配

    • 40GB+显存GPU使用未量化检查点
    • RTX 4090/5090使用量化检查点(添加--quant_linear参数)
  2. 注意力优化

    • 支持原始注意力/SLA/SageSLA三种模式
    • 推荐SageSLA配合0.15的top-k比例提升画质
  3. 训练创新

    • 基于白盒训练的SLA微调方案
    • 支持FSDP2分布式训练和DCP检查点格式

社区生态

  • ComfyUI插件:已由社区实现集成
  • 开发路线图
    • 优化并行计算架构
    • 支持更多视频生成模型
    • 硬件级算子优化

引用文献

bibtex @article{zhang2025turbodiffusion, title={TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times}, author={Zhang, Jintao et al.}, journal={arXiv preprint arXiv:2512.16093}, year={2025} }

(注:论文与检查点仍在优化中,后续将更新更高质量版本)

评论总结

以下是评论内容的总结:

  1. 对技术进步的惊叹

    • 作者对视频生成速度的突破表示兴奋,认为在5090显卡上2秒生成5秒视频非常惊人。
      引用:
      "2s to generate a 5s video on a 5090 for WAN 2.1 is absolutely crazy."
      "Having the ability to do real-time video generation on a single workstation GPU is mind blowing."
  2. 对技术局限性的批评

    • 有评论指出基准测试可能不准确,且未使用优化工具(如FA4/Cutlass或TRT),实际性能可能不如宣称的高。
      引用:
      "the baselines were deliberately worse and not how someone would be using these to begin with."
      "No actual use of FA4/Cutlass based kernels nor TRT at any point."
  3. 对硬件优化的期待

    • 用户希望类似优化能扩展到其他硬件(如M4 Max),并提到当前设备生成视频的效率较低。
      引用:
      "if someone could release an optimization like this for the M4 Max I would be so happy."
      "Last time I tried generating a video it was something like an hour for a 480p 5-second clip."
  4. 对技术应用的展望与担忧

    • 评论提到实时视频生成的潜力,但也警告可能带来的风险(如“数字海洛因”)。
      引用:
      "We are scarily close to realtime personalization of video."
      "may lead to someone inadvertently creating 'digital heroin'."
  5. 工具推荐与社区需求

    • 有用户推荐了相关工具(Wan2GP),并提到社区对快速视频生成功能的高需求。
      引用:
      "this is probably the best tool for this stuff now."
      "it's the #1 request in multiple tickets."