大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力
关键字：数据,模型,过程,增益,上界
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在大语言模型（LLMs）后训练任务中，由于高质量的特定领域数据十分稀缺，合成数据已成为重要资源。虽然已有多种方法被用于生成合成数据，但合成数据的理论理解仍存在缺口。为了解决这一问题，本文首先对当前流行的合成数据生成过程进行了数学建模。在此基础上，本文证明了后训练模型的泛化能力关键取决于生成模型带来的信息增益，并从一个新的反向瓶颈视角进行了分析。此外，本文引入了互信息泛化增益（GGMI）的概念，阐明了泛化增益与信息增益之间的关系。我们希望为合成数据的应用提供理论基础，进而为合成数据生成技术的设计与后训练过程的优化提供新的理解。
It’s not the form of data, but the information it brings that truly

原文链接：大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力