复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：复刻Sora的通用视频生成能力，开源多智能体框架Mora来了
关键字：视频,图像,智能,文本,任务
文章来源：机器之心
内容字数：8166字

内容摘要：

机器之心专栏
机器之心编辑部何恺明的目标是：探索面向复杂世界的智能。Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来，没有其他视频生成模型能够在性能或支持广泛视频生成任务的能力上与 Sora 匹敌。此外，完全公开的视频生成模型寥寥无几，大多数都是闭源的。
为了弥补这一差距，来自理海大学、微软研究院的研究者提出了一种多智能体框架Mora，该框架整合了几种先进的视觉 AI 智能体，以复制 Sora 所展示的通用视频生成能力。特别是，Mora 能够利用多个视觉智能体，在各种任务中成功模仿 Sora 的视频生成能力，例如（1）文本到视频生成，（2）文本条件下的图像到视频生成，（3）扩展生成的视频，（4）视频到视频编辑，（5）连接视频以及（6）模拟数字世界。广泛的实验结果表明，Mora 在各种任务中达到了接近 Sora 的性能。然而，当从整体上评估时，Mora与 Sora 之间存在明显的性能差距。总之，研究团队希望这个项目能够指导视频生成的未来轨迹，通过协作的 AI 智能体实现。论文链接：https://arxiv.org/abs/24

原文链接：复刻Sora的通用视频生成能力，开源多智能体框架Mora来了