InfiMM-WebMath-40B：超大规模多模态数据集驱动智能应用的全新可能性

AI工具2年前 (2024)发布 AI工具集

InfiMM-WebMath-40B 是由字节跳动与中国科学院联合开源的一个超大规模多模态数据集，专注于提升多模态模型在数学领域的图文混合推理能力。该数据集从 Common Crawl 中提取，经过严格的筛选和清洗，最终形成了包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记的丰富内容，涵盖了广泛的数学和科学主题。InfiMM-WebMath-40B 在 MathVerse 和 We-Math 等基准测试中取得了显著的成绩，展现了其在数学推理方面的强大能力。

InfiMM-WebMath-40B是什么

InfiMM-WebMath-40B 是一个由字节跳动与中国科学院共同推出的开源多模态数据集，旨在提升多模态模型在数学推理中的表现。该数据集以 Common Crawl 为基础，经过严格的筛选、清理和标注，涵盖了 2400 万个网页、8500 万个图像 URL 以及 400 亿个文本标记，提供了丰富的数学及科学相关内容。通过使用 InfiMM-WebMath-40B，模型在数学推理能力方面得到了显著提升，并在多个基准测试中表现优异。

InfiMM-WebMath-40B的主要功能

增强数学推理能力：InfiMM-WebMath-40B 包含丰富的数学和科学相关数据，包括文本、公式、符号和图像，帮助多模态大语言模型（MLLMs）深入学习数学知识，从而提升其在数学推理方面的表现。
理解多模态信息：作为一个多模态数据集，它结合了文本和图像数据，助力 MLLMs 学习如何整合这两种信息，以更好地理解复杂的数学概念及问题。
促进模型应用：基于 InfiMM-WebMath-40B 进行预训练的 MLLMs，可以更有效地应用于数学相关的应用场景，例如数学题库、学习工具和数学论文的阅读与理解等。

InfiMM-WebMath-40B的技术原理

数据来源：该数据集基于 Common Crawl，包含大量互联网公开网页内容。
数据筛选：通过关键词匹配筛选相关页面，确保每个文档中至少包含一定数量的 LaTeX 符号。同时，通过 fastText 进行语言过滤，只保留中英文内容。
数据提取：使用 Trafilatura 库提取文本内容，并分析网页中的图像 URL，以获取与数学主题相关的图像。
数据清洗：利用 MinHash 等技术进行去重，并采用基于规则的过滤方法，去除包含“lorem ipsum”的短文档及不适当内容的文档。
数据标注：使用 LLaMA3-70B-Instruct 模型对数学内容进行评分，并利用 fastText 分类器进行精确过滤。