通义万相首创生成汉字视频,全面进化称霸VBench!AI视频GPT-3时刻来临

通义万相首创生成汉字视频,全面进化称霸VBench!AI视频GPT-3时刻来临

原标题:通义万相首创生成汉字视频,全面进化称霸VBench!AI视频GPT-3时刻来临
文章来源:新智元
内容字数:12302字

通义万相2.1:AI视频生成领域的新里程碑

阿里巴巴通义万相视频生成模型近日迎来史诗级升级,推出2.1极速版和2.1专业版两个版本。此次升级在架构上取得重大创新,性能大幅提升,并在权威评测榜单VBench上以84.70%的总分登顶,超越Gen-3、CausVid等全球顶尖模型。更令人瞩目的是,通义万相2.1在业界首次实现了汉字视频生成,标志着AI视频生成进入“中文时代”。

1. 五大核心升级要点

通义万相2.1的升级主要体现在以下五个方面:

  1. 首创中文文字视频生成:攻克了AI视频生成领域长期存在的汉字生成难题,实现了流畅自然的中文文字动画效果,降低了AI视频文字创作的门槛。

  2. 更稳定的复杂生成:显著提升了对复杂的处理能力,有效避免了以往AI视频中常见的肢体扭曲、动作不协调等问题,实现了更符合物理规律的模拟。

  3. 更灵活的运镜控制:AI展现出专业级的运镜能力,能够根据场景需求智能调整运镜速度,并保持镜头与主体协调性,提升了视频的艺术表现力。

  4. 更真实的物理规律模拟:模型对物理规律的理解得到显著提升,能够更真实地模拟现实世界的动态和细节,避免了“一眼假”的情况,例如逼真地模拟切牛排、水花四溅等场景。

  5. 高级质感、多种风格、多长宽比:能够生成“电影级”画质的视频,支持多种艺术风格(如卡通、电影色、3D风格、油画等),并支持多种长宽比,以适应不同终端设备。

2. 技术创新突破

通义万相2.1的突破性进展源于其核心架构的创新:

  • 自研VAE与DiT双重突破:采用自研的高效VAE和DiT架构,在时空上下文关系建模方面取得重大突破,支持无限长1080P视频的高效编解码。

  • 超长序列训练和推理:通过创新的4D并行策略和高效的显存优化策略,实现了100万Tokens的高效训练,显著提升了训练性能和分布式扩展性。

  • 规模化数据构建管线与模型自动化评估机制:建立了一套完整的自动化数据构建系统和多维自动化评估系统,保证了模型训练数据的质量和评估的有效性。

3. AI视频生成的未来

通义万相2.1的成功,标志着AI视频生成技术迈向新的里程碑。虽然目前AI视频生成技术仍处于发展初期,但在角色一致性、物理规律理解、文本指令精准控制等方面取得的突破,预示着AI视频生成技术的快速发展,未来将赋予创意工作者前所未有的想象空间,并引发新一轮的行业变革。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止