中文数据让LLM变笨?

AIGC动态8个月前发布 算法邦
11 0 0

中文数据让LLM变笨?

AIGC动态欢迎阅读

原标题:中文数据让LLM变笨?
关键字:知乎,模型,中文,任务,代码
文章来源:算法邦
内容字数:4239字

内容摘要:


事情的起因是知乎上有人针对一篇文章的疑问:
文章链接:
https://arxiv.org/abs/2401.10286
题目:Top in Chinese Data Propecessing: English Code Models论文在摘要里提到:在对中文幻觉高度敏感的任务 中,实验结果表明,具有较少中文语言特性的模型,取得了更好的性能。
01完整摘要尽管在语言模型应用中,任务与训练语料库之间的一致性是一个基本共识,但我们的一系 列实验和我们设计的度量标准揭示,基于代码的大型语言模型(LLMs)在非编码中文任务 中显著优于在与任务紧密匹配的数据上训练的模型。此外,在对中文幻觉高度敏感的任务 中,实验结果表明,具有较少中文语言特性的模型,取得了更好的性能。我们的实验结果可 以在中文数据处理任务中很容易地被复制,例如为检索增强生成(Retrieval-Augmented Generation, RAG)准备数据,只需简单地用基于代码的模型替换基础模型。此外,我们的研究 为讨论哲学上的“中文房间”思想实验提供了一个独特的视角。
在本文的4.2.2 Less Chinese Knowled


原文链接:中文数据让LLM变笨?

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...