AIGC动态欢迎阅读
原标题:一万亿token!34亿张图像,扩大10倍!史上最大开源多模态数据集MINT-1T发布!
关键字:数据,图像,报告,模型,文本
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 谷雨龙泽众所周知,现在训练AI最需要的是什么?
数据,数据,还是数据。——毕竟只有让AI学好了,AI才能好好地回答你的问题,否则就会答非所问。
但是喂给AI的数据,现在和GPU一样,成了紧缺资源。前不久有人试图用AI自己造的数据来喂AI,结果发现这样的话AI越学越笨,最后连他亲妈来了都不忍直视的那种。
不过,最近来了个天大的好消息——MINT-1T来了!
MINT-1T是一个包含一万亿token的多模态预训练数据集,它是史上最大的同类数据集,并且比以前的开源数据集更加多样化。
把开源多模态数据集的规模扩展了10倍,达到万亿token!
数据集来源于HTML、PDF和ArXiv论文等不同源,都是精挑细选的好货,妈妈再也不用担心我的AI吃不饱了!
论文标题: MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
论文链接: https://arxiv.org/abs/2406.11271
GitHub链接: https:
原文链接:一万亿token!34亿张图像,扩大10倍!史上最大开源多模态数据集MINT-1T发布!
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...