一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

AIGC动态12个月前发布 新智元
14 0 0

一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

AIGC动态欢迎阅读

原标题:一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

关键字:头部,面部,音频,研究人员,网格

文章来源:新智元

内容字数:5582字

内容摘要:新智元报道编辑:润 好困【新智元导读】最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然,看到很多不错的一段音频+一张照片,瞬间照片里的人就能开始讲话了。生成的讲话动画不但口型和音频能够无缝对齐,面部表情和头部姿势都非常自然而且有表现力。而且支持的图像风格也非常的多样,除了一般的照片,卡通图片,证件照等生成的效果都非常自然。再加上多语言的支持,瞬间照片里的人物就活了过来,张嘴就能飙外语。这是由来自南京大学等机构的研究人员提出的一个通用框架——VividTalk,只需要语音和一张图片,就能生成高质量的说话视频。论文地址:https://arxiv.org/abs/2312.01841这个框架是一个由音频到网格生成,和网格到视频生成组成的两阶段框架。在第一阶段,考虑面部运动和blendshape分布之间的一对多映射,利用…

原文链接:点此阅读原文:一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...