AIGC动态欢迎阅读
原标题:为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
关键字:语料,数学,数据,团队,语料库
文章来源:机器之心
内容字数:5574字
内容摘要:
机器之心专栏
机器之心编辑部在当前智能对话模型的发展中,强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库,而如何构建这样的语料库,已成为行业中的一大挑战。
在备受瞩目的 AI for Math 领域,由于高质量的数学语料相对稀缺,这限制了生成式人工智能在数学应用方面的潜力。
为了应对这一挑战,上海交通大学生成式人工智能实验室推出了「MathPile」。这是一套专门针对数学领域的高质量、多样化预训练语料库,其中包含约 95 亿 tokens,旨在提升大型模型在数学推理方面的能力。
此外,实验室还推出了 MathPile 的商业版 ——「MathPile_Commercial」,进一步拓宽其应用范围和商业潜力。论文地址:https://huggingface.co/papers/2312.17120
项目地址:https://gair-nlp.github.io/MathPile/
代码地址:https://github.com/GAIR-NLP/MathPile
数据集地址:
研究使用:https://huggingface.co/datasets/
原文链接:为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...