百万级高质量视频数据集发布,登顶抱抱脸数据集排行榜,中科大&上海AI Lab等出品

AIGC动态3个月前发布 量子位
6 0 0

百万级高质量视频数据集发布,登顶抱抱脸数据集排行榜,中科大&上海AI Lab等出品

AIGC动态欢迎阅读

原标题:百万级高质量视频数据集发布,登顶抱抱脸数据集排行榜,中科大&上海AI Lab等出品
关键字:视频,数据,研究者,模型,字幕
文章来源:量子位
内容字数:0字

内容摘要:


ShareGPT4V团队 投稿量子位 | 公众号 QbitAI中科大、上海AI实验室等组成的ShareGPT4V团队,推出了新的视频数据集,登顶HuggingFace排行榜!
数据集涵盖了3000小时的高质量视频数据,而且还配有高质量的文字描述。
利用这一数据集,团队重新测试了北大的Open-Sora-Plan,发现视频生成质量获得了显著提升。
作者认为,无论是视频理解还是视频生成任务,都离不开详细高质量的视频-字幕数据。
利用GPT-4v的视觉能力,团队得到了4万条(共291小时)带有标注的视频数据,生成的描述包含了丰富的世界知识。
在此基础之上,团队得到了能自动生成视频描述的模型,从而将数据规模拓展到了480万条、近3000小时。
目前该项目已开源,论文登上了6月7日的抱抱脸Daily Papers榜首,同时数据集本身也成功登顶VQA类数据集榜单。
为视频生成高质量描述视频多模态领域中,闭源商业模型一直处于断层领先的地位,而研究者们认为,这种领先优势,离不开详细高质量的视频-字幕数据。
因此,该研究团队致力于为视频获取大量详细而精确的字幕,提升大型视频语言模型的视频理解能力和文生视


原文链接:百万级高质量视频数据集发布,登顶抱抱脸数据集排行榜,中科大&上海AI Lab等出品

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...