一张照片+音频=超逼真数字人视频！VASA-1模型拉开「实时交互」大幕

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：一张照片+音频=超逼真数字人视频！VASA-1模型拉开「实时交互」大幕
关键字：面部,头部,视频,模型,音频
文章来源：新智元
内容字数：12149字

内容摘要：

新智元报道编辑：LRS
【新智元导读】仅需一张照片加一段音频，即可生成具有精确唇音同步、逼真面部行为和自然头部的超逼真说话面部视频，并且生成速度快，512×512分辨率下，生成速率可达40帧，启动延迟可忽略不计。在人物说话的过程中，每一个细微的动作和表情都可以表达情感，都能向观众传达出无声的信息，也是影响生成结果真实性的关键因素。
如果能够根据特定面容来自动生成一段生动逼真的形象，将彻底改变人类与人工智能系统的交互形式，例如改善有障碍患者的交流方式、增强人工智能辅导教育的趣味性、医疗保健场景下的治疗支持和社会互动等。
最近，微软亚洲研究院的研究人员抛出了一个重磅VASA-1框架，利用视觉情感技巧（VAS，visual affective skills），只需要输入一张肖像照片+一段语音音频，即可生成具有精确唇音同步、逼真面部行为和自然头部的超逼真说话面部视频。论文链接：https://arxiv.org/pdf/2404.10667.pdf
项目主页：https://www.microsoft.com/en-us/research/project/vasa-1/
下面为一

原文链接：一张照片+音频=超逼真数字人视频！VASA-1模型拉开「实时交互」大幕