通义万相首创生成汉字视频，全面进化称霸VBench！AI视频GPT-3时刻来临

AIGC动态1年前 (2025)发布新智元

原标题：通义万相首创生成汉字视频，全面进化称霸VBench！AI视频GPT-3时刻来临
文章来源：新智元
内容字数：12302字

通义万相2.1：AI视频生成领域的新里程碑

阿里巴巴通义万相视频生成模型近日迎来史诗级升级，推出2.1极速版和2.1专业版两个版本。此次升级在架构上取得重大创新，性能大幅提升，并在权威评测榜单VBench上以84.70%的总分登顶，超越Gen-3、CausVid等全球顶尖模型。更令人瞩目的是，通义万相2.1在业界首次实现了汉字视频生成，标志着AI视频生成进入“中文时代”。

1. 五大核心升级要点

通义万相2.1的升级主要体现在以下五个方面：

首创中文文字视频生成：攻克了AI视频生成领域长期存在的汉字生成难题，实现了流畅自然的中文文字动画效果，降低了AI视频文字创作的门槛。
更稳定的复杂生成：显著提升了对复杂的处理能力，有效避免了以往AI视频中常见的肢体扭曲、动作不协调等问题，实现了更符合物理规律的模拟。
更灵活的运镜控制：AI展现出专业级的运镜能力，能够根据场景需求智能调整运镜速度，并保持镜头与主体协调性，提升了视频的艺术表现力。
更真实的物理规律模拟：模型对物理规律的理解得到显著提升，能够更真实地模拟现实世界的动态和细节，避免了“一眼假”的情况，例如逼真地模拟切牛排、水花四溅等场景。
高级质感、多种风格、多长宽比：能够生成“电影级”画质的视频，支持多种艺术风格（如卡通、电影色、3D风格、油画等），并支持多种长宽比，以适应不同终端设备。

2. 技术创新突破

通义万相2.1的突破性进展源于其核心架构的创新：

自研VAE与DiT双重突破：采用自研的高效VAE和DiT架构，在时空上下文关系建模方面取得重大突破，支持无限长1080P视频的高效编解码。
超长序列训练和推理：通过创新的4D并行策略和高效的显存优化策略，实现了100万Tokens的高效训练，显著提升了训练性能和分布式扩展性。
规模化数据构建管线与模型自动化评估机制：建立了一套完整的自动化数据构建系统和多维自动化评估系统，保证了模型训练数据的质量和评估的有效性。

3. AI视频生成的未来

通义万相2.1的成功，标志着AI视频生成技术迈向新的里程碑。虽然目前AI视频生成技术仍处于发展初期，但在角色一致性、物理规律理解、文本指令精准控制等方面取得的突破，预示着AI视频生成技术的快速发展，未来将赋予创意工作者前所未有的想象空间，并引发新一轮的行业变革。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # AI视频内容创作 # AI视频生成技术进化 # VBenchAI视频GPT-3评测 # 汉字视频生成技术 # 通义万相视频生成

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

通义万相首创生成汉字视频，全面进化称霸VBench！AI视频GPT-3时刻来临

通义万相2.1：AI视频生成领域的新里程碑

1. 五大核心升级要点

2. 技术创新突破

3. AI视频生成的未来

联系作者

一行代码Post-Train任意长序列！360智脑开源360-LLaMA-Factory

7B模型数学推理击穿o1，直逼全美20%尖子生！四轮进化，微软华人新作爆火

相关文章

暂无评论