用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成
关键字：腾讯,模型,视频,数据,电影
文章来源：机器之心
内容字数：3633字

内容摘要：

机器之心专栏
机器之心编辑部在视频理解这一领域，尽管多模态模型在短视频分析上取得了突破性进展，展现出了较强的理解能力，但当它们面对电影级别的长视频时，却显得力不从心。因而，长视频的分析与理解，特别是对于长达数小时电影内容的理解，成为了当前的一个巨大挑战。
究其原因，导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源，而且收集和注释这些数据需要庞大的工作量。
面对这样的难题，腾讯和复旦大学的研究团队提出了 MovieLLM，一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法，不仅可以生成高质量、多样化的视频数据，而且能自动生成大量与之相关的问答数据集，极大地丰富了数据的维度和深度，同时整个自动化的过程也极大地减少了人力的投入。论文地址：https://arxiv.org/abs/2403.01422
主页地址：https://deaddawn.github.io/MovieLLM/
这一突破性的进展不仅提高了模型对复杂视频叙事的理解能力，还增强了模型针对长达数小时电影内容的分析能力，克服了现有数据集在稀缺性和偏差方面的限制，为超长视频的理解提供了一

原文链接：用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成