一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

AIGC动态5个月前发布 新智元
7 0 0

一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

AIGC动态欢迎阅读

原标题:一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕
关键字:面部,头部,视频,模型,音频
文章来源:新智元
内容字数:12149字

内容摘要:


新智元报道编辑:LRS
【新智元导读】仅需一张照片加一段音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频,并且生成速度快,512×512分辨率下,生成速率可达40帧,启动延迟可忽略不计。在人物说话的过程中,每一个细微的动作和表情都可以表达情感,都能向观众传达出无声的信息,也是影响生成结果真实性的关键因素。
如果能够根据特定面容来自动生成一段生动逼真的形象,将彻底改变人类与人工智能系统的交互形式,例如改善有障碍患者的交流方式、增强人工智能辅导教育的趣味性、医疗保健场景下的治疗支持和社会互动等。
最近,微软亚洲研究院的研究人员抛出了一个重磅炸弹VASA-1框架,利用视觉情感技巧(VAS,visual affective skills),只需要输入一张肖像照片+一段语音音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频。论文链接:https://arxiv.org/pdf/2404.10667.pdf
项目主页:https://www.microsoft.com/en-us/research/project/vasa-1/
下面为一


原文链接:一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...