Hacker News 中文摘要

文章摘要

Ovi是一个基于双骨干跨模态融合的音频-视频生成项目，由Character AI团队开发。该项目通过创新的跨模态融合技术实现音频和视频的同步生成，相关论文已发表在arXiv上，并提供了Hugging Face模型和可视化演示页面。

文章总结

Ovi：双主干跨模态融合的音视频生成模型

项目地址：https://github.com/character-ai/Ovi

核心功能

Ovi是一款类似Veo-3的音视频生成模型，能够根据纯文本或图文组合输入，同步生成高质量视频（24帧/秒）和音频内容。主要特点包括：

多模态生成

同步输出5秒时长的720×720分辨率视频（支持9:16、16:9等多种比例）
采用5B参数的专用音频分支，基于高质量内部数据集训练

灵活输入

支持纯文本（T2AV）或图文组合（I2AV）输入模式
提供特殊标签控制语音（~~文本）和音效描述（描述）~~

高分辨率扩展

基础训练分辨率为720×720，但可自然生成960×960区域视频（如1280×704等比例）

保持时空一致性，支持可变宽高比输出

技术亮点

• 双主干架构：视频分支基于Wan2.2模型，音频分支采用MMAudio的VAE • 跨模态融合：通过SLG（Skip Layer Guidance）技术实现音视频同步 • 性能优化：支持FP8量化、CPU卸载等技术，最低可在24GB显存GPU运行

使用方式

在线体验：

Wavespeed平台：提供文本/图像转视频服务

HuggingFace空间：可直接测试模型

本地部署： ```bash
安装步骤

git clone https://github.com/character-ai/Ovi.git cd Ovi pip install -r requirements.txt python3 download_weights.py ```

运行示例： ```bash
单GPU推理

python3 inference.py --config-file ovi/configs/inference/inference_fusion.yaml

多GPU并行（8卡）

torchrun --nnodes 1 --nprocpernode 8 inference.py ```

开发计划

[ ] 发布11B模型检查点

[ ] 完善训练脚本

[ ] 支持更长视频生成（当前限5秒）

[ ] 开发参考语音条件功能

引用方式

若使用本项目，请引用我们的预印本论文： bibtex @misc{low2025ovi, title={Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation}, author={Low, Chetwin and Wang, Weimin and Katyal, Calder}, year={2025}, eprint={2510.01284}, archivePrefix={arXiv} }

项目由Character AI和耶鲁大学团队共同开发，欢迎通过LinkedIn联系项目负责人Weimin Wang进行合作。

评论总结

这篇评论总结涵盖了技术震撼、伦理担忧和行业发展三个主要观点：

技术震撼与"恐怖谷"效应

marstall："mindblowing - but still in the uncanny valley"（令人震撼但仍处于恐怖谷）

tootie："Kinda terrifying...Anyone with a 5090 can start spewing out believable fake videos"（有点可怕...任何拥有5090显卡的人都能制作逼真假视频）

伦理与社会影响担忧

marstall："is that really the message they want to lead with?"（这真是他们想传达的主要信息吗？）

amelius："How long until we see blockbuster movies produced by a guy in his basement for <$1000?"（距离一个人在地下室用不到1000美元制作大片还有多久？）

开源模型发展

pavlov："It's nice to see flexible open models make a strong showing against the massively funded closed competitors"（很高兴看到灵活的开源模型在与资金雄厚的闭源竞争者对抗中表现出色）

eichin通过诺基亚Ovi的命名趣事，暗示对技术命名背景的关注

注：所有评论均未显示评分（None），meonkeys的评论主要是技术关联性提问，未表达明确观点。

Ovi：双骨干跨模态融合的视听生成技术 -- Ovi: Twin backbone cross-modal fusion for audio-video generation

文章摘要

文章总结

核心功能

技术亮点

使用方式

安装步骤

单GPU推理

多GPU并行（8卡）

开发计划

引用方式

评论总结