为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用

AIGC动态12个月前发布 机器之心
17 0 0

为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用

AIGC动态欢迎阅读

原标题:为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
关键字:语料,数学,数据,团队,语料库
文章来源:机器之心
内容字数:5574字

内容摘要:


机器之心专栏
机器之心编辑部在当前智能对话模型的发展中,强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库,而如何构建这样的语料库,已成为行业中的一大挑战。
在备受瞩目的 AI for Math 领域,由于高质量的数学语料相对稀缺,这限制了生成式人工智能在数学应用方面的潜力。
为了应对这一挑战,上海交通大学生成式人工智能实验室推出了「MathPile」。这是一套专门针对数学领域的高质量、多样化预训练语料库,其中包含约 95 亿 tokens,旨在提升大型模型在数学推理方面的能力。
此外,实验室还推出了 MathPile 的商业版 ——「MathPile_Commercial」,进一步拓宽其应用范围和商业潜力。论文地址:https://huggingface.co/papers/2312.17120
项目地址:https://gair-nlp.github.io/MathPile/
代码地址:https://github.com/GAIR-NLP/MathPile
数据集地址:
研究使用:https://huggingface.co/datasets/


原文链接:为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...