词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究

AIGC动态12个月前发布 机器之心
86 0 0

词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究

AIGC动态欢迎阅读

原标题:词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究

关键字:模型,分词,词表,研究者,基准

文章来源:机器之心

内容字数:11584字

内容摘要:机器之心报道编辑:赵阳本文初步探讨了不同类型的词表对语言模型训练所产生的影响,研究者使用了 12 个小型的语言模型及 4 个中型的语言模型作为实验对象,并得出了直观简洁的结论。这些结论可以帮助你选择最合适的词表来训练语言模型。不同词表对语言模型有哪些影响?如何权衡这些影响?在最近的一项实验中,研究者对 16 个语言模型使用不同的语料进行了预训练和微调。这次实验使用了 NanoGPT, 一种小规模的…

原文链接:点此阅读原文:词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...