微软刚刚发布了VASA-1：单张照片生成超现实真人视频，还没开源但是性能SOTA

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：微软刚刚发布了VASA-1：单张照片生成超现实真人视频，还没开源但是性能SOTA
关键字：腾讯,音频,姿态,头部,编码器
文章来源：夕小瑶科技说
内容字数：2779字

内容摘要：

夕小瑶科技说原创作者 | 任同学还记得阿里巴巴那个让照片说话的EMO项目吗？如果还没有看过相关的报道，可以看一下我们之前发过的文章哦：
比阿里EMO抢先开源！蔡徐坤“复出”唱RAP，腾讯AniPortrait让照片变视频，鬼畜区UP狂喜！看看哪家效果好
现在 Microsoft Research 推出了VASA-1项目，同样是单张人像照片+语音音频=超现实的说话脸视频，但是性能SOTA！
VASA-1 可实现精确的唇声同步，逼真的面部行为，自然的头部，并支持实时生成！
据作者报道，该 VASA-1 不仅能够产生与音频同步的嘴唇动作，而且还能够捕捉到大量的面部细微差别和自然的头部动作，从而有助于感知真实性和人物状态。
可以看到表情非常到位，特别是那灵活的小眼神!
相比之前的高启强普法视频，眼神、眉毛的动作显然要自然很多。
更好的可控性VASA-1 的一个显著的特性是它可以接受可选信号作为条件，如主眼睛注视方向和头部距离，以及情绪偏移。这不仅增强了可玩性，重要的是动画效果更加自然！
▲不同主注视方向(前、左、右、上)下的生成结果
▲不同头距尺度下的生成结果
▲不同情绪(分别为中性、快

原文链接：微软刚刚发布了VASA-1：单张照片生成超现实真人视频，还没开源但是性能SOTA

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文