Latte一作马鑫：DiT架构在视频生成模型中的应用与扩展 | 讲座预告

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：Latte一作马鑫：DiT架构在视频生成模型中的应用与扩展 | 讲座预告
关键字：视频,模型,猩猩,人工智能,架构
文章来源：算法邦
内容字数：0字

内容摘要：

「智猩猩AI新青年讲座」由智猩猩出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。
「智猩猩AI新青年讲座」现已完结238讲，错过往期讲座直播的朋友，可以点击文章底部 “阅读原文”进行回看！近年来，文字转视频模型领域取得了令人瞩目的成就。但当前的文本驱动视频生成模型大多仍依赖于UNet作为核心网络架构，这一选择不仅制约了模型性能的提升，还难以实现大规模扩展。相比之下，Transformer架构因适合处理长序列数据和易于规模化而展现出独特的优势。
基于以上分析，莫纳什大学在读博士马鑫联合上海人工智能实验室的研究团队创新地提出了全球首个DiT类文生视频开源模型Latte，旨在视频生成领域率先探索构建稳定高效的超大型神经网络的新途径。相关论文为《Latte: Latent Diff

原文链接：Latte一作马鑫：DiT架构在视频生成模型中的应用与扩展 | 讲座预告