北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

AIGC动态21小时前发布 机器之心
0 0 0

全开源小尺寸简易视频理解框架!

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

原标题:北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源
文章来源:机器之心
内容字数:4059字

北京航空航天大学开源轻量级视频理解框架TinyLLaVA-Video

本文介绍了北京航空航天大学研究团队开源的轻量级视频理解框架TinyLLaVA-Video。该框架基于TinyLLaVA_Factory项目,旨在降低视频理解模型的计算资源需求,为资源有限的研究人员提供便利。

1. 项目概述

TinyLLaVA-Video是一个完全开源的项目,公开了模型权重、训练代码和数据集。它延续了TinyLLaVA_Factory的模块化设计,允许用户灵活替换组件,例如语言模型和视觉编码器,并自定义训练策略。这降低了研究门槛,并为轻量级视频理解模型的创新提供了平台。

2. 模型架构与训练

该框架采用Vision Tower+Connector+LLM的常见多模态模型架构,并采用预训练对齐与监督微调的两阶段训练策略。所有预训练模型组件都遵循开源协议,确保实验的可复现性。训练数据基于开源的LLaVA-Video-178K和Valley数据集,并经过筛选和过滤,最终得到397k的预训练数据和491k的监督微调数据,这些数据也已公开于HuggingFace平台。

3. 长序列信息处理

为了解决长时序视觉序列处理的问题,TinyLLaVA-Video使用简单的视频级Resampler作为Connector,减少了输入到语言模型的Visual Token数量。这使得模型支持灵活的视频采样策略,用户可以根据需求设置不同的视频采样帧数。

4. 性能与实验

尽管模型参数量不超过4B,TinyLLaVA-Video在MLVU、Video-MME等基准测试集上的表现优于同等数据量级的7B+模型。研究团队还进行了大量的实验,探索了不同配置(语言模型、视觉编码器、采样帧数等)对模型性能的影响,为模型优化提供了实证数据。

5. 总结与展望

TinyLLaVA-Video证明了小尺寸视频理解模型在计算资源有限的环境下仍具有潜力。该框架的开源和模块化设计,为资源受限的研究人员提供了宝贵的工具,也为轻量级视频理解模型的未来发展提供了新的可能性。TinyLLaVA系列项目致力于在有限计算资源下研究小尺寸模型,并坚持完全开源的原则。

6. 资源链接

论文地址:https://arxiv.org/abs/2501.15513

Github项目:https://github.com/ZhangXJ199/TinyLLaVA-Video


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...