AIGC动态欢迎阅读
原标题:一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原
文章来源:新智元
内容字数:5582字
内容摘要:新智元报道编辑:润 好困【新智元导读】最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然,看到很多不错的一段音频+一张照片,瞬间照片里的人就能开始讲话了。生成的讲话动画不但口型和音频能够无缝对齐,面部表情和头部姿势都非常自然而且有表现力。而且支持的图像风格也非常的多样,除了一般的照片,卡通图片,证件照等生成的效果都非常自然。再加上多语言的支持,瞬间照片里的人物就活了过来,张嘴就能飙外语。这是由来自学等机构的研究人员提出的一个通用框架——VividTalk,只需要语音和一张图片,就能生成高质量的说话视频。论文地址:https://arxiv.org/abs/2312.01841这个框架是一个由音频到网格生成,和网格到视频生成组成的两阶段框架。在第一阶段,考虑面部和blendshape分布之间的一对多映射,利用…
原文链接:点此阅读原文:一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...