你能分实与虚拟吗?
原标题:真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准
文章来源:机器之心
内容字数:3335字
阿里巴巴通义实验室EMO2:基于末端执行器的高表现力音频驱动视频生成
阿里巴巴通义实验室近期发布了EMO2,其是音频驱动高表现力人像AI视频生成的升级版本。不同于以往的音频驱动视频生成技术,EMO2 突破性地采用了一种基于“末端执行器” (end effector) 的两阶段方案,实现了更自然流畅、表现力更强的人物视频生成。
1. 研究背景与挑战
现有的音频驱动人物视频生成技术在生成自然流畅的动作和表情方面存在诸多挑战,尤其是在手部动作的生成上。人类身体是一个复杂的系统,多个关节的耦合关系难以精确建模,导致生成的肢体动作可能不自然或幅度不足。EMO2研究者注意到,在人类活动中,手部作为“末端执行器”,与音频信号的关联性更强,因此选择以此为突破点。
2. EMO2的技术方案
EMO2 采用两阶段框架:第一阶段专注于音频到手部动作的映射。通过DIT模型,利用音频和手部动作之间的强相关性,生成高表现力、高一致性的手部动作。第二阶段,使用基于diffusion UNet架构的视频生成模型,以第一阶段生成的动作表征为引导,生成包含真实面部表情和身体动作的视频帧。值得一提的是,EMO2 提出“具有像素先验知识的 IK”(Pixels Prior IK),将人体结构知识融入像素生成,解决逆向学(IK)可能出现的奇异性问题,提升生成效果。
3. EMO2的优势与效果
与以往方法相比,EMO2在动作生成方面展现出更大的范围和多样性,并且与音频的一致性更强。在视频生成方面,EMO2生成的视频在手势动作的多样性和手部清晰度上具有显著优势,人物表情和动作更具感染力和专业水准。只需提供一张人物肖像图片和任意长度的音频,EMO2就能生物说话、唱歌或进行手势舞的视频。
4. 结论与展望
EMO2 提出了一种基于扩散模型的两阶段框架,用于生成与音频同步的人物视频,并成功扩展了EMO模型的功能,使其能够生成上半身动作。通过将手部作为“末端执行器”,EMO2有效解决了音频驱动人体动作生成中的难题,实现了更自然、更具表现力的人物视频生成。这项研究为音频驱动视频生成技术提供了新的思路,为虚拟主播、数字人交互等领域带来了新的可能性。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台