InternVL3.5 – 上海AI Lab开源的多模态大模型
InternVL3.5:书生·万象3.5,引领开源多模态大模型新纪元
InternVL3.5(书生·万象3.5)是由上海人工智能实验室推出的性开源多模态大模型。该模型在通用能力、推理效能以及部署效率上实现了全方位的飞跃,提供从10亿到2410亿参数的九种规格,满足不同算力需求。其独特之处在于,InternVL3.5是首个整合GPT-OSS语言模型基座的开源多模态大模型,并引入了稠密模型与专家混合模型(MoE)架构。通过创新的级联式强化学习(Cascade RL)框架,以及“离线预热-在线精调”的两阶段优化流程,InternVL3.5在多学科推理任务上表现卓越,旗舰模型InternVL3.5-241B-A28B在MMMU基准测试中以77.7分拔得开源模型头筹,超越GPT-5。同时,动态视觉分辨率路由(ViR)和解耦部署框架(DvD)的引入,显著提升了模型在高分辨率图像处理时的响应速度和吞吐量,例如38B模型的吞吐量提升高达4.05倍。
核心亮点与功能概览
InternVL3.5在多模态感知、推理、文本处理、GUI智能体、具身空间推理以及矢量图形处理等多个维度均展现出领先实力:
- 卓越的多模态感知能力:在图像、视频问答等任务中表现抢眼,241B-A28B模型以74.1的平均得分,与GPT-5(74.0)不相上下,领跑开源界。
- 强大的多模态推理能力:在MMMU基准测试中,得分提升超过5个百分点,达到77.7分,确立了其在开源模型中的领先地位。
- 出色的文本处理能力:在AIME、GPQA、IFEval等一系列基准测试中,模型平均得分高达85.3,展现了其在复杂文本理解与生成方面的优势。
- 进化的GUI智能体:显著增强了跨平台自动化操作能力,在ScreenSpot GUI定位任务中以92.9分遥遥领先。
- 精深的具身空间推理:拥有更强的泛化能力,能够适应全新、复杂的具身场景,并支持可泛化的长程物体抓取。
- 高效的矢量图形处理:在SGP-Bench上刷新了70.7分的开源记录,为网页图形生成和工程图纸解析等专业领域提供了强大支持。
技术基石:创新驱动的底层架构
InternVL3.5的强大性能源于其多项创新技术:
- 级联式强化学习(Cascade RL):通过“离线预热-在线精调”的精巧设计,利用混合偏好优化(MPO)和GSPO算法,实现推理能力的快速提升和训练的稳定性。
- 动态视觉分辨率路由(ViR):智能地为图像的不同区域分配不同压缩率,确保关键信息的高分辨率呈现,从而在加速推理的同时,最大程度地保留模型性能。
- 解耦部署框架(DvD):通过将视觉编码器与语言模型分离部署,并结合BF16精度特征传输与异步流水线技术,实现了视觉与语言处理的并行化,大幅提升了整体吞吐量。
- 多样化的模型尺寸与架构:提供从10亿到2410亿参数的九种规格,支持稠密模型和专家混合模型(MoE),并率先集成GPT-OSS语言模型基座,满足多样化的应用需求。
- 多模态协同推理机制:通过深度融合视觉与语言等多种模态信息,显著增强了模型处理复杂任务的能力,推动了多模态技术从“理解”到“行动”的转变。
项目资源与在线体验
您可以通过以下链接深入了解InternVL3.5的更多信息并进行体验:
- Github仓库:https://github.com/OpenGVLab/InternVL
- HuggingFace模型:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
- 技术报告:https://huggingface.co/papers/2508.18265
- 在线体验:通过书生大模型平台进行尝试。
广泛的应用场景
InternVL3.5凭借其强大的多模态能力,在多个领域展现出广阔的应用前景:
- 赋能办公自动化:通过GUI智能体,实现跨平台办公流程的自动化,如数据录入、文档排版、邮件处理等,极大地提升工作效率。
- 驱动智能家居:利用具身空间推理能力,协助机器人进行家庭环境中的物品定位、路径规划和物理交互,例如优化智能清洁机器人的工作路径。
- 革新教育辅导:结合多模态推理与文本能力,为学生提供个性化、智能化的学习支持,解答复杂的学科问题,提升学习体验。
- 加速内容创作:利用多模态感知能力,自动生成图像描述、视频字幕等内容,助力内容创作者提升效率和创意表现力。
- 优化网页设计与图形生成:借助矢量图形处理能力,轻松生成或编辑SVG矢量图形,为网页设计、图标制作等提供高效、个性化的解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...