微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”
关键字：视频,头部,面部,表情,动作
文章来源：量子位
内容字数：4320字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAIAI伪造真人视频，门槛再次降低。
微软发布一张图生成数字人技术VASA-1，网友看过直呼“炸裂级效果”，比“AI刘强东还真”。
话不多说，直接上一分钟演示视频：
做到以假乱真效果，不用针对特定人物训练，只要上传一张人脸图片、一段音频，哪怕不是真人也行。
比如可以让蒙娜丽莎唱Rap，模仿安妮海瑟薇即兴吐槽狗仔队名场面。
或者让素描人像念华强台词。
在项目主页还有更多1分钟视频，以及更更多15秒视频可看。
不同性别、年龄、种族的数字人，用着不同的口音在说话。
根据团队在论文中的描述，VASA-1拥有如下特点：
唇形与语音的精准同步
这是最基本的，VASA-1在定量评估中也做到了顶尖水平。
丰富而自然的面部表情
不光做到让照片“开口说话”，眉毛、眼神、微表情等也跟着协调，避免显得呆板。
人性化的头部动作
说话时适当的点头、摇头、歪头等动作，能让人物看起来更加鲜活、更有说服力。
总得来说，仔细看的话眼睛还有一些破绽，但已经被网友评为“迄今为止最佳演示”。
然而更恐怖的是，整个系统推理速度还是实时级的。
生成512×512分辨率的视频，使用一