中文数据让LLM变笨？

AIGC动态1年前 (2024)发布算法邦

中文数据让LLM变笨？

AIGC动态欢迎阅读

原标题：中文数据让LLM变笨？
关键字：知乎,模型,中文,任务,代码
文章来源：算法邦
内容字数：4239字

内容摘要：

事情的起因是知乎上有人针对一篇文章的疑问：
文章链接：
https://arxiv.org/abs/2401.10286
题目：Top in Chinese Data Propecessing: English Code Models论文在摘要里提到：在对中文幻觉高度敏感的任务中，实验结果表明，具有较少中文语言特性的模型，取得了更好的性能。
01完整摘要尽管在语言模型应用中，任务与训练语料库之间的一致性是一个基本，但我们的一系列实验和我们设计的度量标准揭示，基于代码的大型语言模型（LLMs）在非编码中文任务中显著优于在与任务紧密匹配的数据上训练的模型。此外，在对中文幻觉高度敏感的任务中，实验结果表明，具有较少中文语言特性的模型，取得了更好的性能。我们的实验结果可以在中文数据处理任务中很容易地被复制，例如为检索增强生成（Retrieval-Augmented Generation, RAG）准备数据，只需简单地用基于代码的模型替换基础模型。此外，我们的研究为讨论哲学上的“中文房间”思想实验提供了一个独特的视角。
在本文的4.2.2 Less Chinese Knowled

原文链接：中文数据让LLM变笨？