微软「诈骗届」王牌框架，真到可怕！一张照片+音频即可生成数字人

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：微软「诈骗届」王牌框架，真到可怕！一张照片+音频即可生成数字人
关键字：面部,视频,头部,模型,音频
文章来源：新智元
内容字数：11653字

内容摘要：

新智元报道编辑：LRS
【新智元导读】想要做出一段能够「以假乱真的人物说话视频」的门槛到底低到什么程度了？仅需一张照片加一段音频，就能生成一段堪称真实到可怕的假视频，以后法庭上视频证据还有可信度吗？在人物说话的过程中，每一个细微的动作和表情都可以表达情感，都能向观众传达出无声的信息，也是影响生成结果真实性的关键因素。
如果能够根据特定面容来自动生成一段生动逼真的形象，将彻底改变人类与人工智能系统的交互形式，例如改善有障碍患者的交流方式、增强人工智能辅导教育的趣味性、医疗保健场景下的治疗支持和社会互动等。
最近，微软亚洲研究院的研究人员抛出了一个重磅VASA-1框架，利用视觉情感技巧（VAS，visual affective skills），只需要输入一张肖像照片+一段语音音频，即可生成具有精确唇音同步、逼真面部行为和自然头部的超逼真说话面部视频。论文链接：https://arxiv.org/pdf/2404.10667.pdf
项目主页：https://www.microsoft.com/en-us/research/project/vasa-1/
下面为几段一分钟视频演示。

原文链接：微软「诈骗届」王牌框架，真到可怕！一张照片+音频即可生成数字人