哈工大&华为提出ControlVideo:一种无需训练的可控视频生成方法

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

导读

哈工大&华为云最新提出了一种可控的文本-视频生成方法ControlVideo,在无需训练的条件下,仅使用一张2080Ti就可以合成较长的高质量视频。

7f63ba6ce8c88de80eac583745af4270.png

正文

文本引导的扩散模型在图像合成领域已经取得了前所未有的成就。但如果想在视频生成中取得不错的效果,仍然需要大量的计算资源和训练数据来学习时序关系的建模。除此之外,所合成的视频也存在着明显的外观不一致或者是结构上的抖动,尤其是在长视频生成中。为了保证流畅高效的文本-视频生成,哈工大左旺孟团队联合华为云田奇团队提出了一种无需训练的视频生成方法《ControlVideo: Training-free Controllable Text-to-Video Generation》:

e65d19ad259c7a050e907cb0b9870c9d.png

  • 论文链接:https://arxiv.org/pdf/2305.13077.pdf

  • 代码链接:https://github.com/YBYBZhang/ControlVideo

可视化效果

ControlVideo 可以基于多种结构信息来合成高质量的视频:

1. 基于深度图序列

结构序列

文本描述:"A majestic sailing boat cruises along the vast, azure sea."

2. 基于边缘图序列

结构序列

文本描述:"A young man riding a sleek, black motorbike through the winding mountain roads."

3. 基于人体姿态序列

结构序列

文本描述:"James bond moonwalk on the beach, animation style."

得益于本文所提出的层次化采样器,ControlVideo还可以合成稳定的长视频:

文本描述:"A steamship on the ocean, at sunset, sketch style."

文本描述:"Hulk is dancing on the beach, cartoon style."

ControlVideo的原理

ControlVideo是由文本-图片合成模型ControlNet迁移而来,利用了输入的结构序列中的粗粒度结构一致性,并提出了三个模块来提升视频的时序一致性与高效性。

首先,为了保证帧间的外观一致性,ControlVideo在原本的自注意力模块中添加了完全跨帧注意力机制。相比于以往的工作,完全跨帧注意力机制可以看作把所有帧拼接成一张”大图“,因此可以从ControlNet中直接继承了高质量的生成能力。

40d98aa4a64624a3ae2d9f92ab1369d8.png

其次,ControlVideo进一步提出了交错式帧间平滑器来去除结构上的抖动。其核心思想在于通过对中间帧的插帧实现相邻三帧的平滑,以一种交错的方式在连续的时间步中重复这一过程可以保证整个视频的平滑。值得注意的一点是,平滑过程是在DDIM采样过程中的部分时间步进行的,所以被平滑视频帧的质量及独特性可以被后续的去噪步骤所保证。

e5f6a5711a5322dddcb8ec57cc688d51.png

最后,为了高效的合成长视频,ControlVideo采用层次化采样器来一段段合成具有整体一致性的短视频序列。具体来说,一段长视频通过关键帧被划分为多个短视频序列;然后,基于完全跨帧注意力机制来合成外观一致的关键帧;基于每一对关键帧的信息,ControlVideo可以相继合成对应的短视频序列。

点击进入—>【扩散模型和Transformer】交流群

最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型和Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看1725b86791e49d655f49fec0917b55ea.gif

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇

)">
下一篇>>