补齐多模态最后一块短板,Tarsier2 反超 GPT40、Gemini-1.5-Pro!
原标题:反超GPT 4o与Gemini-1.5-Pro!字节发布第二代视频理解大模型「眼镜猴」
文章来源:智猩猩GenAI
内容字数:4042字
字节跳动Tarsier2视频理解模型:超越GPT-4o,引领多模态融合
本文总结了字节跳动研究团队最新发布的视频理解大模型Tarsier2的相关信息。Tarsier2在视频理解领域取得了显著突破,其性能在多个基准测试中超越了包括GPT-4o在内的多个闭源和开源模型。
1. Tarsier2的强大性能
Tarsier2是一个7B参数的轻量级模型,能够理解长达数十分钟的视频,尤其擅长分析几十秒的短视频片段。它能够细致地捕捉视频中的人物动作、结合字幕信息分析人物动机和心理,理解人物关系和情节发展。无论是真人视频还是动画,横屏还是竖屏,Tarsier2都能准确地描述视频内容,并且很少出现幻觉。在对《燕子,没有你我怎么活》和《曹操盖饭》等影视片段的分析中,Tarsier2展现了其强大的理解能力。
2. “火眼金睛”的炼成之路:预训练和后训练
Tarsier2强大的视频理解能力源于其精心设计的预训练和后训练过程:
2.1 预训练:Tarsier2在4000万个互联网视频-文本数据上进行预训练。为了解决高质量视频-文本对齐数据获取的难题,团队采用了海量数据收集和严谨的数据筛选流程。数据收集涵盖电影、电视剧、短视频等多种来源,并特别筛选了大量的影视剧解说视频,以帮助模型理解更高层次的情节信息。数据筛选则包含“分镜→过滤→合并”三个阶段,确保数据的质量。
2.2 后训练:后训练分为SFT和DPO两个阶段。SFT阶段,模型在人工标注的视频描述数据上进行训练,并引入针对每个子的具体定位信息,增强模型对时序信息和视觉特征的关注度。DPO阶段,模型在自动化构造的正负样本上进行训练,提高描述的准确性和全面性,减少幻觉。
3. 基准测试结果:超越GPT-4o和Gemini
Tarsier2在19个视频理解公开基准上进行了测试,结果表明其性能超越了Qwen2-VL、InternVL2.5、LLaVA-Video等多个同规模的开源模型,以及Gemini-1.5和GPT-4o等闭源模型。尤其是在视频描述评测集DREAM-1K上,Tarsier2相比GPT-4o提升了2.8%,相比Gemini-1.5-Pro提升了5.8%。人工评估结果也显示Tarsier2-7b相比GPT-4o和Gemini-1.5-Pro具有显著优势。
4. 广泛的应用场景
Tarsier2作为基座模型,在机器人和智能驾驶等下游任务场景中也展现了强大的泛化能力。它可以为机器人任务生成详细的步骤指令,并帮助车辆识别道路情况,辅助决策。
5. 未来展望
Tarsier2在视频理解领域取得了显著成果,超越了现有的闭源和开源模型。它在多模态深度融合方面迈出了坚实的步伐,未来有望在多模态融合的浪潮中持续领航,为人工智能的发展带来更多惊喜。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。