长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx
关键字：腾讯,视觉,模型,分辨率,视频
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文的主要作者来自清华大学智能视觉实验室（i-Vision Group）、腾讯公司和南洋理工大学 S-Lab。本文的共同第一作者为清华大学自动化系博士生刘祖炎和南洋理工大学博士生董宇昊，主要研究方向为多模态模型。本文的通讯作者为腾讯高级研究员饶永铭和清华大学自动化系鲁继文教授。
视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。
为了解决上述问题，来自清华大学、腾讯、南洋理工大学的研究者们提出一种更灵活的多模态模型 Oryx。Oryx 是一种统一的多模态架构，能够处理图像、视

原文链接：长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx