阿里最新图生视频模型效果好得可比肩Sora，但0代码“假”开源让国内友骂翻了天？

AIGC动态2年前 (2024)发布 AI前线

阿里最新图生视频模型效果好得可比肩Sora，但0代码“假”开源让国内外网友骂翻了天？

AIGC动态欢迎阅读

原标题：阿里最新图生视频模型效果好得可比肩Sora，但0代码“假”开源让国内友骂翻了天？
关键字：字节跳动,华为,阿里,模型,视频
文章来源：AI前线
内容字数：8407字

内容摘要：

整理 | 凌敏、核子可乐国外有文生视频的 Sora，国内有图生视频的 EMO。阿里开发出 AI 图生视频模型 EMO近日，阿里巴巴集团智能计算研究院上线了一款 AI 图生视频模型 EMO（Emote Portrait Alive）。据悉，EMO 是一种富有表现力的音频驱动型肖像视频生成框架，用户用户只需要提供一张照片和一段任意音频文件，EMO 即可生成具有丰富面部表情和多种头部姿态的语音头像视频。此外，EMO 还可以根据输入音频的长度生成任意长度的视频。
在阿里给出的示例中，奥黛丽·赫本深情吟唱：
小李子演唱超“烫嘴”Rap《哥斯拉》：
蒙娜丽莎声情并茂地演讲：
高启强化身罗翔普法：
据了解，为了训练这套模型，阿里建立起一套庞大且多样化的音频视频数据集，共收集了超过 250 小时的视频与超过 1.5 亿张图像。这套庞大的数据集涵盖广泛内容，包括演讲、影视片段、歌唱表演，并涵盖汉语、英语等多种语言。丰富多样的语音和歌唱视频确保训练素材能够涵盖广泛的人类表情与声乐风格，为 EMO 模型的开发提供坚实基础。
论文：https://arxiv.org/abs/2402.17485
目前，EM