微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人

AIGC动态7个月前发布 新智元
6 0 0

微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人

AIGC动态欢迎阅读

原标题:微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人
关键字:面部,视频,头部,模型,音频
文章来源:新智元
内容字数:11653字

内容摘要:


新智元报道编辑:LRS
【新智元导读】想要做出一段能够「以假乱真的人物说话视频」的门槛到底低到什么程度了?仅需一张照片加一段音频,就能生成一段堪称真实到可怕的假视频,以后法庭上视频证据还有可信度吗?在人物说话的过程中,每一个细微的动作和表情都可以表达情感,都能向观众传达出无声的信息,也是影响生成结果真实性的关键因素。
如果能够根据特定面容来自动生成一段生动逼真的形象,将彻底改变人类与人工智能系统的交互形式,例如改善有障碍患者的交流方式、增强人工智能辅导教育的趣味性、医疗保健场景下的治疗支持和社会互动等。
最近,微软亚洲研究院的研究人员抛出了一个重磅炸弹VASA-1框架,利用视觉情感技巧(VAS,visual affective skills),只需要输入一张肖像照片+一段语音音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频。论文链接:https://arxiv.org/pdf/2404.10667.pdf
项目主页:https://www.microsoft.com/en-us/research/project/vasa-1/
下面为几段一分钟视频演示。


原文链接:微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...