阿里开源版Sora上线即屠榜,4070就能跑,免费商用

AIGC动态1个月前发布 量子位
142 0 0

还能在视频里生成文字

阿里开源版Sora上线即屠榜,4070就能跑,免费商用

原标题:阿里开源版Sora上线即屠榜,4070就能跑,免费商用
文章来源:量子位
内容字数:3970字

阿里巴巴开源14B参数视频生成模型Wan 2.1,性能强劲,免费商用

阿里巴巴在深夜开源了其强大的视频生成模型Wan 2.1,该模型拥有14B参数,在VBench基准测试中超越了Sora和Gen-3等竞争对手。其在复杂细节、文字生成等方面表现出色,即使是多人复杂的舞蹈动作也能精准还原。

1. 性能卓越,超越现有模型

Wan 2.1在VBench基准测试中取得了领先地位,其生成的视频在细节刻画上表现尤为突出。例如,它能够准确地捕捉到多人hip-hop舞蹈的动作同步性,以及弓弦抖动、西红柿被切时的细微变化等细节,甚至连水滴从水面溅起的效果都处理得非常自然。更令人惊喜的是,该模型已经能够在视频中生成文字,并且文字会根据所在位置的材质进行合理变化,并随载体一同,这在视频生成领域是一个显著的突破。

2. 多种版本,满足不同需求

为了满足不同用户的需求,Wan 2.1提供了14B参数(720P分辨率)和1.3B参数(480P分辨率)两个版本。1.3B版本在4090显卡上仅占用8GB显存,运行时间为4分21秒,这意味着即使是12GB显存的4070显卡也能流畅运行。此外,阿里还开源了两个14B参数的图像生视频模型,分别支持480P和720P分辨率。所有四个模型均采用Apache 2.0开源许可证,允许免费商用。

3. 便捷的访问方式和社区支持

用户可以通过通义万相平台、HuggingFace、魔搭社区或本地部署等多种方式访问和使用Wan 2.1。平台上的极速版和专业版分别对应1.3B和14B版本,用户可以使用“灵感值”进行体验。官方也计划将Wan 2.1集成到ComfyUI中,进一步降低使用门槛。

4. 技术创新,高效节能

Wan 2.1采用了创新的3D变分自动编码器和DiT架构,并结合了多种优化策略,例如特征缓存机制、时空压缩、FSDP模型切分、上下文并行性等,从而实现了高效的模型训练和推理。在编码方面,其3D变分自动编码器能够显著提高重建速度,并在单块A800上比现有SOTA方法快2.5倍。在推理阶段,通过上下文并行性策略,多卡加速实现了接近线性的加速效果。

5. 未来展望

阿里巴巴表示将会发布更详细的技术报告,进一步揭示Wan 2.1的技术细节。Wan 2.1的开源,为视频生成领域带来了新的可能性,也为个人创作者提供了更强大的工具,推动了AIGC技术的发展。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...