一张图即出AI视频！谷歌全新扩散模型，让人物动起来

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：一张图即出AI视频！谷歌全新扩散模型，让人物动起来
关键字：模型,视频,图像,音频,身体
文章来源：新智元
内容字数：4973字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，来自谷歌的研究人员发布了多模态扩散模型VLOGGER，只需一张照片，和一段音频，就能直接生物说话的视频！只需一张照片，和一段音频，就能直接生物说话的视频！
近日，来自谷歌的研究人员发布了多模态扩散模型VLOGGER，让我们朝着虚拟数字人又迈进了一步。
论文地址：https://enriccorona.github.io/vlogger/paper.pdf
VLOGGER接收单个输入图像，使用文本或者音频驱动，生类说话的视频，包括口型、表情、肢体动作等都非常自然。
我们先来看几个例子：如果感觉视频使用别人的声音有点违和，小编帮你关掉声音：
可以看出整个生成的效果是非常优雅自然的。
VLOGGER建立在最近生成扩散模型的成功之上，包括一个将人类转成3D的模型，以及一个基于扩散的新架构，用于通过时间和空间控制，增强文本生成图像的效果。
VLOGGER可以生成可变长度的高质量视频，并且这些视频可以通过人脸和身体的高级表示轻松控制。
比如我们可以让生成视频中的人闭上嘴：
或者闭上双眼：
与之前的同类模型相比，VLOGGER不需要针对

原文链接：一张图即出AI视频！谷歌全新扩散模型，让人物动起来