一万亿token！34亿张图像，扩大10倍！史上最大开源多模态数据集MINT-1T发布！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：一万亿token！34亿张图像，扩大10倍！史上最大开源多模态数据集MINT-1T发布！
关键字：数据,图像,报告,模型,文本
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谷雨龙泽众所周知，现在训练AI最需要的是什么？
数据，数据，还是数据。——毕竟只有让AI学好了，AI才能好好地回答你的问题，否则就会答非所问。
但是喂给AI的数据，现在和GPU一样，成了紧缺资源。前不久有人试图用AI自己造的数据来喂AI，结果发现这样的话AI越学越笨，最后连他亲妈来了都不忍直视的那种。
不过，最近来了个天大的好消息——MINT-1T来了！
MINT-1T是一个包含一万亿token的多模态预训练数据集，它是史上最大的同类数据集，并且比以前的开源数据集更加多样化。
把开源多模态数据集的规模扩展了10倍，达到万亿token！
数据集来源于HTML、PDF和ArXiv论文等不同源，都是精挑细选的好货，妈妈再也不用担心我的AI吃不饱了！
论文标题： MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
论文链接： https://arxiv.org/abs/2406.11271
GitHub链接： https:

原文链接：一万亿token！34亿张图像，扩大10倍！史上最大开源多模态数据集MINT-1T发布！