今天起,汉字也能AI视频生成了!

今天起,汉字也能AI视频生成了!

原标题:今天起,汉字也能AI视频生成了!
文章来源:科技未来派
内容字数:2893字

阿里云通义万相2.1:AI视频生成技术的新突破

人工智能技术日新月异,在视频生成领域更是取得了令人瞩目的进展。近日,阿里云通义万相迎来了重磅升级,推出了其2.1版本的视频生成模型。这一升级在视频生成的复杂度、物理精度和艺术表现力等方面实现了全面提升,并在权威评测榜单VBench中摘得桂冠,标志着AI视频生成技术迈向了新的高度。

VBench榜首,实力认证

VBench作为视频生成领域的权威评测集,涵盖了16个关键评分维度,对模型的整体一致性、动作流畅度、画面稳定性等进行全方位评估。通义万相2.1在幅度、多对象生成、空间关系等方面获得了最高分,最终以84.7%的总分荣登榜首,其卓越性能得到了权威机构的认可。

攻克难题,精准模拟现实

精准理解和模拟物理世界是视频生成模型的核心挑战。以往的模型在处理大幅度和复杂的物理场景时往往力不从心,生成的视频容易出现肢体扭曲、违背物理规律等问题。通义万相团队通过自研高效的VAE和DiT架构,有效增强了时空上下文关系建模能力,解决了这一难题。

突破技术瓶颈,实现更逼真、更流畅的视频

得益于全新的架构,通义万相2.1在生成大幅度肢体和旋转的视频方面表现更为稳定。即使是花样滑冰、游泳、跳水等高难度动作,也能精准地展现肢体协调性和轨迹的合理性。此外,它还支持中文文字生成能力,并同时支持中英文文字特效生成,成为首个具备此功能的视频生成模型,极大地拓展了其应用范围,满足了广告设计、短视频制作等领域的创作需求。

时空全注意机制与高效编解码方案

通义万相2.1在DiT设计中采用了时空全注意机制,能够更准确地模拟现实世界的复杂动态。同时,引入的参数共享机制不仅提升了模型性能,还降低了训练成本。此外,对文本嵌入的优化提升了文本可控性并减少了计算需求。在视频VAE方面,创新的视频编解码方案能够支持无限长1080P视频的高效编解码,为任意时长视频的训练提供了新的可能性。

免费开放,赋能开发者与企业

目前,通义万相2.1模型已全面开放,用户可在官网免费使用。个人开发者和企业用户还可通过阿里云百炼调用通义万相API,进一步开发更丰富的AI工具和应用,共同探索AI视频生成技术的无限可能。

结语

通义万相2.1的发布,不仅是阿里云在AI领域的一次重大突破,也为AI视频生成技术的发展树立了新的标杆。相信随着技术的不断进步,AI将为我们带来更加精彩纷呈的视频内容,改变我们创作和体验世界的方式。


联系作者

文章来源:科技未来派
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...