AIGC动态欢迎阅读
原标题:今日arXiv最热NLP大模型论文:北京大学&快手发布统一的图文视频生成大模型Video-LaVIT
关键字:视频,模型,标记,图像,基准
文章来源:夕小瑶科技说
内容字数:6510字
内容摘要:
夕小瑶科技说 原创作者 | 芒果引言:探索视频与语言模型的新融合随着多模态大语言模型(LLMs)的新发展,人们越来越关注如何将它们从图像-文本数据扩展到更具信息量的真实世界视频。与静态图像相比,视频为有效的大规模预训练带来了独特的挑战,因为需要对其时空动态进行建模。
针对视频与语言联合预训练的挑战,文章提出了高效的视频分解方法,将视频表示为关键帧和时间,并设计分词器适配LLM,实现视频、图像和文本的统一生成预训练。应用时,生成的标记被恢复为像素空间,用于创建视频内容。框架表现出对图像和视频内容的理解和生成能力,具有竞争力的性能。
论文标题:Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
论文链接:https://arxiv.org/pdf/2402.03161.pdf
项目链接:https://video-lavit.github.io
视频理解的挑战:从静态图像到动态视频的转变现有的多模态LLMs主要集中在图像-文本数据上,对于视频模态的适应性
原文链接:今日arXiv最热NLP大模型论文:北京大学&快手发布统一的图文视频生成大模型Video-LaVIT
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189