中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系
关键字：华为,数据,模型,压缩率,样本
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本工作由中科大认知智能全国重点实验室 IEEE Fellow 陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域，在顶级期刊与会议上发表多篇论文，谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室，秉持理论研究与应用创新并重的理念，致力于推动人工智能领域的技术创新和发展。
数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。直觉上，高质量的样本在教授 LLM 上预期会有更好的效率。因此，现有方法通常专注于基于质量的数据选择。然而，这些方法中的大多数地评估不同的数据样本，忽略了样本之间复杂的组合效应。如图 1 所示，即使每个样本质量完美，由于它们的互信息冗余或不一致性，它们的组合可能仍

原文链接：中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系