让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了
关键字：视频,音频,方法,面部,角色
文章来源：机器之心
内容字数：5512字

内容摘要：

机器之心报道
机器之心编辑部有了阿里的 EMO，AI 生成或真实的图像「动起来说话或唱歌」变得更容易了。
最近，以 OpenAI Sora 为代表的文生视频模型又火了起来。
而除了文本生成视频之外，以人为中心的视频合成也一直是研究的焦点，比如专注于说话人头部（Talking Head）的视频生成，它的目标是根据用户提供的音频片段来生成面部表情。
从技术上来看，生成表情需要捕获说话人微妙和多样化的面部动作，由此对此类视频合成任务提出了重大挑战。
传统方法通常会对最终的视频输出施加限制，以简化任务。比如，一些方法使用 3D 模型来限制面部关键点，另一些方法则从原始视频中提取头部的序列以指导整体。这些限制虽然降低了视频生成的复杂性，但也往往限制了最终面部表情的丰富度和自然度。
在阿里智能计算研究院近日的一篇论文中，研究者通过关注音频提示和面部动作之间的动态和细微联系，来增强说话人头部视频生成的真实度、自然度和表现力。
研究者发现，传统方法往往无法捕捉完整范围的说话人表情和不同说话人独特的面部风格。基于此，他们提出了 EMO（全称为 Emote Portrait Alive）框架，该

原文链接：让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了