年末重磅！ByteDance Research视频理解大模型「眼镜猴」正式发布

补齐多模态最后一块短板，Tarsier2 反超 GPT4o、Gemini-1.5-Pro！

原标题：年末重磅！ByteDance Research视频理解大模型「眼镜猴」正式发布
文章来源：机器之心
内容字数：4039字

字节跳动Tarsier2视频理解模型：超越GPT-4o的“火眼金睛”

字节跳动研究团队近期发布了第二代视频理解大模型Tarsier2，并在多个视频理解基准测试中取得了领先成绩，甚至在某些指标上超越了闭源模型GPT-4o和Gemini-1.5-Pro。

1. Tarsier2的惊艳表现

文章以《燕子，没有你我怎么活》和《曹操盖饭》两个影视片段为例，展示了Tarsier2对视频内容细致入微的理解能力。它不仅能捕捉人物动作，还能结合字幕信息分析人物动机、心理和情节发展。在各种类型的视频（真人、动画、横屏、竖屏等）中，Tarsier2都能准确、简洁地生成视频描述，且很少出现幻觉。

2. “火眼金睛”的炼成之路：预训练和后训练

Tarsier2强大的视频理解能力源于其精心设计的预训练和后训练流程：

预训练：Tarsier2在4000万个互联网视频-文本数据上进行预训练。为了解决高质量视频-文本对齐数据不足的难题，团队通过海量数据收集和严格的数据筛选流程（分镜、过滤、合并三个阶段）来保证数据质量。其中，筛选了大量影视剧解说视频，帮助模型理解更高层次的情节信息。
后训练：后训练分为SFT（监督微调）和DPO（对比预训练优化）两个阶段。SFT阶段引入针对每个子的具体定位信息，强化模型对时序信息和视觉特征的关注，增强文本与视觉信号的对齐。DPO阶段通过自动化构造正负样本，提高模型描述的准确性和全面性，减少幻觉。

3. 超越SOTA的性能

Tarsier2在19个视频理解公开基准上进行了测试，与多个最新的开源模型（Qwen2-VL、InternVL2.5、LLaVA-Video等）和闭源模型（Gemini-1.5，GPT-4o）进行了对比。结果显示，Tarsier2在视频描述、短/长视频问答等任务上表现亮眼，在DREAM-1K数据集上的视频描述任务中，其性能优于GPT-4o和Gemini-1.5-Pro。在人工评估中，Tarsier2-7b也展现出显著的优势。

4. 广泛的应用前景

Tarsier2作为基座模型，在机器人和智能驾驶等领域也展现出强大的泛化能力，可以生成详细的任务指令和辅助驾驶决策。

5. 未来展望

Tarsier2在视频理解领域取得了显著进展，在多模态融合的趋势下，未来有望在人工智能领域持续领航，带来更多惊喜和突破。

相关资源：论文地址：[https://arxiv.org/abs/2501.07888](https://arxiv.org/abs/2501.07888) 项目仓库：[https://github.com/bytedance/tarsier](https://github.com/bytedance/tarsier) HuggingFace：[https://huggingface.co/omni-research](https://huggingface.co/omni-research)