重新设计了主流 MLLM 的动态分辨率方案,针对手机硬件特性进行了深度系统优化
原标题:算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
文章来源:机器之心
内容字数:9574字
BlueLM-V-3B:端侧多模态模型的创新发展
近年来,随着多模态大语言模型(MLLM)的快速发展,手机作为移动平台的理想落地载体,成为了集成强大AI能力的关键。vivo AI研究院与香港中文大合研发的BlueLM-V-3B,正是为了克服手机在内存和计算能力上的限制而设计的一款端侧多模态模型。
1. 模型特点与创新
BlueLM-V-3B的设计理念是算法与系统协同优化。该模型通过重新设计动态分辨率方案,针对手机硬件特性进行了深度优化,确保在移动设备上的高效流畅运行。其显著特点包括:
– **算法与系统协同优化**:针对经典MLLM的动态分辨率方案进行改进,有效降低了图像过度放大的问题。
– **卓越的模型性能**:在参数规模相似的模型中,BlueLM-V-3B表现出色,尤其在OpenCompass基准测试中取得了66.1的高分。
– **高效的移动端部署**:以天玑9300处理器为例,其内存需求仅为2.2GB,能够快速处理高分辨率图像。
2. 设计思路与技术实现
BlueLM-V-3B采用了宽松的长宽比选择算法和硬件感知的系统设计。具体措施包括:
– **动态分辨率算法改进**:通过优化图像信息的利用率,减少了图像token长度,降低了处理延时。
– **图像并行编码与流水线并行处理**:采用并行策略和流水线设计来提升整体处理速度,优化NPU的计算能力。
– **模型量化与解耦处理**:通过混合参数精度降低内存使用,解耦图像编码与指令处理,提高了响应速度。
3. 训练过程与数据集
BlueLM-V-3B的训练分为两个阶段,利用开源数据集和内部数据集构建了包含250万和6亿条图像-文本对的训练数据。这种多样化的数据增强了模型的能力,使其能够在多种任务和模态上提升性能。
4. 实验与结果
实验结果显示,BlueLM-V-3B在多个测评集上表现优异,尤其在OCR相关任务上取得了竞争力的成绩,同时在部署效率和响应速度上也明显优于同类模型。
总结
BlueLM-V-3B的开发展示了vivo与香港中文大学团队在算法与系统设计方面的创新思维。未来,该团队将继续探索先进算法,提升端侧模型的可扩展性,以适应更多手机设备,为用户带来更智能化的体验。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台