补齐多模态最后一块短板,Tarsier2 反超 GPT4o、Gemini-1.5-Pro!
原标题:年末重磅!ByteDance Research视频理解大模型「眼镜猴」正式发布
文章来源:机器之心
内容字数:4039字
字节跳动Tarsier2视频理解模型:超越GPT-4o的“火眼金睛”
字节跳动研究团队近期发布了第二代视频理解大模型Tarsier2,并在多个视频理解基准测试中取得了领先成绩,甚至在某些指标上超越了闭源模型GPT-4o和Gemini-1.5-Pro。
1. Tarsier2的惊艳表现
文章以《燕子,没有你我怎么活》和《曹操盖饭》两个影视片段为例,展示了Tarsier2对视频内容细致入微的理解能力。它不仅能捕捉人物动作,还能结合字幕信息分析人物动机、心理和情节发展。在各种类型的视频(真人、动画、横屏、竖屏等)中,Tarsier2都能准确、简洁地生成视频描述,且很少出现幻觉。
2. “火眼金睛”的炼成之路:预训练和后训练
Tarsier2强大的视频理解能力源于其精心设计的预训练和后训练流程:
- 预训练:Tarsier2在4000万个互联网视频-文本数据上进行预训练。为了解决高质量视频-文本对齐数据不足的难题,团队通过海量数据收集和严格的数据筛选流程(分镜、过滤、合并三个阶段)来保证数据质量。其中,筛选了大量影视剧解说视频,帮助模型理解更高层次的情节信息。
- 后训练:后训练分为SFT(监督微调)和DPO(对比预训练优化)两个阶段。SFT阶段引入针对每个子的具体定位信息,强化模型对时序信息和视觉特征的关注,增强文本与视觉信号的对齐。DPO阶段通过自动化构造正负样本,提高模型描述的准确性和全面性,减少幻觉。
3. 超越SOTA的性能
Tarsier2在19个视频理解公开基准上进行了测试,与多个最新的开源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和闭源模型(Gemini-1.5,GPT-4o)进行了对比。结果显示,Tarsier2在视频描述、短/长视频问答等任务上表现亮眼,在DREAM-1K数据集上的视频描述任务中,其性能优于GPT-4o和Gemini-1.5-Pro。在人工评估中,Tarsier2-7b也展现出显著的优势。
4. 广泛的应用前景
Tarsier2作为基座模型,在机器人和智能驾驶等领域也展现出强大的泛化能力,可以生成详细的任务指令和辅助驾驶决策。
5. 未来展望
Tarsier2在视频理解领域取得了显著进展,在多模态融合的趋势下,未来有望在人工智能领域持续领航,带来更多惊喜和突破。
相关资源:论文地址:[https://arxiv.org/abs/2501.07888](https://arxiv.org/abs/2501.07888) 项目仓库:[https://github.com/bytedance/tarsier](https://github.com/bytedance/tarsier) HuggingFace:[https://huggingface.co/omni-research](https://huggingface.co/omni-research)
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台