百万级高质量视频数据集发布，登顶抱抱脸数据集排行榜，中科大&上海AI Lab等出品

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：百万级高质量视频数据集发布，登顶抱抱脸数据集排行榜，中科大&上海AI Lab等出品
关键字：视频,数据,研究者,模型,字幕
文章来源：量子位
内容字数：0字

内容摘要：

ShareGPT4V团队投稿量子位 | 公众号 QbitAI中科大、上海AI实验室等组成的ShareGPT4V团队，推出了新的视频数据集，登顶HuggingFace排行榜！
数据集涵盖了3000小时的高质量视频数据，而且还配有高质量的文字描述。
利用这一数据集，团队重新测试了北大的Open-Sora-Plan，发现视频生成质量获得了显著提升。
作者认为，无论是视频理解还是视频生成任务，都离不开详细高质量的视频-字幕数据。
利用GPT-4v的视觉能力，团队得到了4万条（共291小时）带有标注的视频数据，生成的描述包含了丰富的世界知识。
在此基础之上，团队得到了能自动生成视频描述的模型，从而将数据规模拓展到了480万条、近3000小时。
目前该项目已开源，论文登上了6月7日的抱抱脸Daily Papers榜首，同时数据集本身也成功登顶VQA类数据集榜单。
为视频生成高质量描述视频多模态领域中，闭源商业模型一直处于断层领先的地位，而研究者们认为，这种领先优势，离不开详细高质量的视频-字幕数据。
因此，该研究团队致力于为视频获取大量详细而精确的字幕，提升大型视频语言模型的视频理解能力和文生视

原文链接：百万级高质量视频数据集发布，登顶抱抱脸数据集排行榜，中科大&上海AI Lab等出品