浙大和阿里巴巴达摩院联合提出一个图文交织的多模态知识语料。
原标题:给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料
文章来源:机器之心
内容字数:7912字
机器之心AIxiv专栏:高质量“无监督”数据重燃Scaling Law
机器之心AIxiv专栏长期关注AI前沿技术,近期报道了浙江大学和阿里巴巴达摩院联合提出的一个图文交织的多模态知识语料研究,该研究认为高质量的“无监督”数据,特别是教科书级别的知识语料,才是Scaling Law的关键。
1. 背景与动机:现有多模态预训练语料的不足
当前VLMs预训练主要依赖图像-文本对和图文交织语料。然而,现有图文交织语料,例如MMC4和OBELICS,大多来自网页和文档,存在文本与图像关系松散、图像序列缺乏逻辑连贯性、知识密度低等问题。因此,构建高质量、教科书级别的图文交织数据集至关重要。
2. 方法:利用教学视频构建高质量知识语料
该研究利用互联网上丰富的教学视频资源,提出一个Video-to-Textbook Pipeline,将教学视频转化为高质量的图文交织教科书式语料。具体步骤如下:
知识分类体系构建与视频收集:构建了四层知识分类体系(学科、课程、子课程、知识点),并利用LLM辅助收集和过滤教学视频。
Video-to-Textbook Pipeline:包含三个层级:
- Long Video-Level:音频提取与转录(使用Whisper模型并经LLM优化)、视频质量评估(LLM辅助过滤低质量视频)。
- Video Clip-Level:视频分割、视觉知识和文本知识匹配(VideoLlama2生成caption并计算相似度)。
- Keyframe-Level:关键帧检测(SSIM)、OCR文本提取(InternVL)。
3. 数据集统计与分析
最终构建了包含22000课时(两年半)教学视频的图文交织数据集,包含6.5M关键帧、258M ASR tokens和500M OCR tokens,共610k个样本。样本内图像相似度显著高于现有数据集,体现了更高的知识密度和连贯性。
4. 实验与分析:显著提升VLMs性能
实验结果表明,基于该数据集进行持续预训练后,LLaVA-1.5和Idefics-8B模型在多个基准测试上性能显著提升,尤其在知识导向和推理相关基准上优势明显。“作弊测试”显示模型上下文感知能力增强。这些结果证明了该数据集的高质量和有效性。
5. 总结与展望
该研究提出了一种新的多模态教科书式语料构建方法,有效提升了VLMs的知识水平和推理能力,为Scaling Law的研究提供了新的思路。未来可以探索利用该语料实现任意模态的连续生成,构建更好的世界模型。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台