微调的陷阱:大模型为何可能变“傻”?

微调的陷阱:大模型为何可能变“傻”?

原标题:关于微调导致大模型降智”的一些思考
文章来源:夕小瑶科技说
内容字数:3202字

探索SFT模型的知识掌握与幻觉现象

在最近一次轻松的讨论中,我们聚焦于SFT(Supervised Fine-Tuning)后模型与预训练模型在知识掌握层面的差异。尽管SFT后模型在某些应用中表现不如预训练模型,但其原因却值得深入探讨。

1. 数据分布差异

首先,从统计学的角度来看,SFT数据与预训练数据的分布差异显著。这种偏离导致模型在知识掌握上出现幻觉现象。为了解决这个问题,学术界提出了多种解决方案,比如在SFT阶段引入预训练数据,或在预训练阶段采用SFT数据等。这些方法旨在缩小两者之间的分布差异。

2. 训练过程中的局部最优

其次,从训练过程来看,SFT过程中的训练周期较长、学习率设置较小、数据质量高等因素,可能导致模型陷入局部最优。因此,SFT的过程似乎像是一个大的退火阶段,但却并未引入明显的幻觉现象。

3. 捷径思维的影响

讨论的高潮来自于一个哲学角度的思考,即“捷径”。SFT模型试图通过“捷径”直接给出答案,而非逐步推导。这种方式虽然提升了回答的效率,但相应地增加了幻觉现象的风险。以中国的首都问题为例,预训练模型可能需要多次推导,而SFT模型则直接给出“北京”。这背后的信息量和推导过程的缺失,容易导致模型在其他知识上也产生幻觉。

4. 反思与未来的实验方向

最后,我们提出了一个实验设想:将预训练模型的推理过程延长,通过续写大量token再总结,从而避免模型在知识推导时走捷径。这一思路虽然引向了O1(OpenAI提出的技术路线),但也引发了对该方法实际可行性的思考。

此次讨论不仅拓宽了我们对模型学习过程的理解,也为未来的研究方向提供了新的视角。希望下次能够继续探讨与O1相关的其他话题。


联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...