超越Sora!阿里万相大模型正式开源,消费级显卡也能跑!

AIGC动态2周前发布 AI前线
72 0 0

超越Sora!阿里万相大模型正式开源,消费级显卡也能跑!

原标题:超越Sora!阿里万相大模型正式开源,消费级显卡也能跑!
文章来源:AI前线
内容字数:3185字

阿里云万相2.1:开源视觉生成基座模型引领新潮流

近日,阿里云重磅开源旗下视觉生成基座模型万相2.1 (Wan),采用最宽松的Apache2.0协议,开放14B和1.3B两个参数规格的全部推理代码和权重,支持文生视频和图生视频任务。该模型在权威评测集VBench中以86.22%的总分夺冠,超越Sora、Luma、Pika等国内外模型,展现出强大的性能。

1. 万相2.1的卓越性能

万相2.1在指令遵循、复杂生成、物理建模、文字视频生成等方面表现突出。14B版本在VBench评测中取得领先地位,而1.3B版本则在性能上超越了更大尺寸的开源模型,甚至接近部分闭源模型,同时仅需8.2GB显存即可在消费级显卡上运行,极大降低了使用门槛,方便二次开发和学术研究。

2. 核心技术创新

万相2.1基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。其3D VAE通过特征缓存机制实现了任意长度视频的高效编解码,并通过空间降采样压缩提前,减少了29%的推理时内存占用。在质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,斩获5项第一。

3. 开源策略与阿里云AI战略

阿里云自2023年起坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个。万相的开源,标志着阿里云实现了全模态、全尺寸大模型的开源,进一步推动了AI技术发展。

4. 万相2.1生成效果展示

文章提供了三个不同提示词生成的示例,分别为:体育摄影风格的场地障碍赛、中国皮划艇员激流回旋比赛以及超速POV镜头下的中国乡村小路,展示了万相2.1在不同场景下的生成能力。具体生成效果未在此处展示,需参考原文。

5. QCon全球软件开发大会推荐

文章最后推荐了4月10-12日举办的QCon全球软件开发大会·北京站,该大会将探讨AI大模型重塑软件开发的时代变革,以及前沿科技的无限可能。

总之,阿里云万相2.1的开源,为视觉生成领域带来了新的突破,其强大的性能和开放的策略将促进AI技术的创新和发展,并为开发者提供了更广阔的应用空间。


联系作者

文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...