今日arXiv最热NLP大模型论文：北京大学&快手发布统一的图文视频生成大模型Video-LaVIT

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热NLP大模型论文：北京大学&快手发布统一的图文视频生成大模型Video-LaVIT
关键字：视频,模型,标记,图像,基准
文章来源：夕小瑶科技说
内容字数：6510字

内容摘要：

夕小瑶科技说原创作者 | 芒果引言：探索视频与语言模型的新融合随着多模态大语言模型（LLMs）的新发展，人们越来越关注如何将它们从图像-文本数据扩展到更具信息量的真实世界视频。与静态图像相比，视频为有效的大规模预训练带来了独特的挑战，因为需要对其时空动态进行建模。
针对视频与语言联合预训练的挑战，文章提出了高效的视频分解方法，将视频表示为关键帧和时间，并设计分词器适配LLM，实现视频、图像和文本的统一生成预训练。应用时，生成的标记被恢复为像素空间，用于创建视频内容。框架表现出对图像和视频内容的理解和生成能力，具有竞争力的性能。
论文标题:Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
论文链接：https://arxiv.org/pdf/2402.03161.pdf
项目链接：https://video-lavit.github.io
视频理解的挑战：从静态图像到动态视频的转变现有的多模态LLMs主要集中在图像-文本数据上，对于视频模态的适应性

原文链接：今日arXiv最热NLP大模型论文：北京大学&快手发布统一的图文视频生成大模型Video-LaVIT

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文