一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

文章来源：新智元

内容字数：5582字

内容摘要：新智元报道编辑：润好困【新智元导读】最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然，看到很多不错的一段音频+一张照片，瞬间照片里的人就能开始讲话了。生成的讲话动画不但口型和音频能够无缝对齐，面部表情和头部姿势都非常自然而且有表现力。而且支持的图像风格也非常的多样，除了一般的照片，卡通图片，证件照等生成的效果都非常自然。再加上多语言的支持，瞬间照片里的人物就活了过来，张嘴就能飙外语。这是由来自学等机构的研究人员提出的一个通用框架——VividTalk，只需要语音和一张图片，就能生成高质量的说话视频。论文地址：https://arxiv.org/abs/2312.01841这个框架是一个由音频到网格生成，和网格到视频生成组成的两阶段框架。在第一阶段，考虑面部和blendshape分布之间的一对多映射，利用…

原文链接：点此阅读原文：一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原