ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准
关键字：模型,报告,序列,上下文,知识
文章来源：机器之心
内容字数：8286字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在大型语言模型的训练过程中，数据的处理方式至关重要。
传统的方法通常通过将大量文档拼接并切分成等同于模型的上下文长度的训练序列。这虽然提高了训练效率，但也常导致文档的不必要截断，损害数据完整性，导致关键的上下文信息丢失，进而影响模型学习到的内容的逻辑连贯性和事实一致性，并使模型更容易产生幻觉。
AWS AI Labs 的研究人员针对这一常见的拼接-分块文本处理方式进行了深入研究，发现其严重影响了模型理解上下文连贯性和事实一致性的能力。这不仅影响了模型在下游任务的表现，还增加了产生幻觉的风险。
针对这一问题，他们提出了一种创新的文档处理策略——最佳适配打包（Best-fit Packing），通过优化文档组合来消除不必要的文本截断，并显著地提升了模型的性能且

原文链接：ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准