视觉分词器统一图文信息，快手提出基座模型 LaVIT 刷榜多模态任务

AIGC动态3年前 (2023)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：视觉分词器统一图文信息，快手提出基座模型 LaVIT 刷榜多模态任务

关键字：快手,图像,视觉,文本,分词

文章来源：夕小瑶科技说

内容字数：8523字

内容摘要：夕小瑶科技说原创作者 | 智商掉了一地、Python你是否想过，有朝一日能够仅输入寥寥数语或图片，就可以一键检索最为匹配的短视频内容。不是凭借视频标签、也不是依靠标题字幕，而是大模型真正理解了视频内容。近期，来自快手的新研究利用视觉分词器统一图文信息，LaVIT 让这个创想逐步变为现实。近年来，研究人员对多模态大模型（MLLM）理解能力进行探索，旨在将强大的纯文本 LLM 扩展到处理多模态输入。…

原文链接：点此阅读原文：视觉分词器统一图文信息，快手提出基座模型 LaVIT 刷榜多模态任务