微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

AIGC动态7个月前发布 量子位
8 0 0

微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

AIGC动态欢迎阅读

原标题:微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”
关键字:视频,头部,面部,表情,动作
文章来源:量子位
内容字数:4320字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI伪造真人视频,门槛再次降低。
微软发布一张图生成数字人技术VASA-1,网友看过直呼“炸裂级效果”,比“AI刘强东还真”。
话不多说,直接上一分钟演示视频:
做到以假乱真效果,不用针对特定人物训练,只要上传一张人脸图片、一段音频,哪怕不是真人也行。
比如可以让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名场面。
或者让素描人像念华强台词。
在项目主页还有更多1分钟视频,以及更更多15秒视频可看。
不同性别、年龄、种族的数字人,用着不同的口音在说话。
根据团队在论文中的描述,VASA-1拥有如下特点:
唇形与语音的精准同步
这是最基本的,VASA-1在定量评估中也做到了顶尖水平。
丰富而自然的面部表情
不光做到让照片“开口说话”,眉毛、眼神、微表情等也跟着协调运动,避免显得呆板。
人性化的头部动作
说话时适当的点头、摇头、歪头等动作,能让人物看起来更加鲜活、更有说服力。
总得来说,仔细看的话眼睛还有一些破绽,但已经被网友评为“迄今为止最佳演示”。
然而更恐怖的是,整个系统推理速度还是实时级的。
生成512×512分辨率的视频,使用一


原文链接:微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...