元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

AIGC动态2年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入
关键字：腾讯,模型,华为,图像,场景
文章来源：AI科技评论
内容字数：4310字

内容摘要：

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。
元象今日发布多模态大模型 XVERSE-V ，支持任意宽高比图像输入，在主流评测中效果领先。该模型全开源，无条件免费商用，持续推动海量中小企业、研究者和开发者的研发和应用创新。
XVERSE-V 性能优异，在多项权威多模态评测中超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等开源模型，在综合能力测评MMBench中超过了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名闭源模型。
图. 多模态大模型综合评测1融合整体和局部的高清图像表示传统的多模态模型的图像表示只有整体，XVERSE-V 创新性地采用了融合整体和局部的策略，支持输入任意宽高比的图像。兼顾全局的概览信息和局部的细节信息，能够识别和分析图像中的细微特征，看的更清楚，理解的更准确。注：Concate* 表示按列进行拼接
这样的处理方式使模型可以应用于广泛的领域，包括全景图识别

原文链接：元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入