原来,这些顶级大模型都是蒸馏的

​但 Claude、豆包、Gemini 除外。

原来,这些顶级大模型都是蒸馏的

原标题:原来,这些顶级大模型都是蒸馏的
文章来源:机器之心
内容字数:5813字

机器之心报道:LLM蒸馏程度量化研究揭示模型同质化风险

近日,中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者发表论文,对多个知名闭源和开源LLM的蒸馏程度进行了量化评估,发现除了Claude、豆包和Gemini之外,许多模型都存在高程度蒸馏现象,引发了对模型同质化和鲁棒性下降的担忧。

1. 研究背景与意义

随着模型蒸馏技术的兴起,越来越多的LLM利用蒸馏方法提升小模型性能,这在降低成本的同时,也带来了一些问题。一些顶尖AI公司可能已经构建了更强大的模型,但由于成本等原因,只将其用于内部,并通过蒸馏技术改进小模型,最终通过这些小模型来盈利。此种做法虽然有效,但也可能导致模型同质化,降低模型的多样性和处理复杂任务的能力。因此,对LLM蒸馏程度的量化研究至关重要。

2. 研究方法

研究者提出了两种方法来量化LLM的蒸馏程度:

  1. 响应相似度评估(RSE): 通过比较待评估模型与参考模型(GPT)的输出相似度来衡量模型的同质化程度,从响应风格、逻辑结构和内容细节三个方面进行评估。
  2. 身份一致性评估(ICE): 利用GPTFuzz越狱框架,通过构造迭代提示来绕过LLM的自我认知,评估模型在感知和表示身份相关信息方面的差异。该方法通过检测模型在身份信息上与训练数据源LLM(例如GPT4o-0806)是否一致来判断蒸馏程度。

3. 实验结果

实验结果表明:

  1. ICE结果显示,GLM-4-Plus、Qwen-Max和Deepseek-V3的可疑响应数量最多,表明其蒸馏程度较高;Claude-3.5-Sonnet和Doubao-Pro-32k则几乎没有可疑响应。
  2. RSE结果显示,GPT系列模型响应相似度最高,而Llama3.1-70B-Instruct和Doubao-Pro-32k相似度较低;DeepSeek-V3和Qwen-Max-0919则与GPT4o-0806相似度较高。
  3. 闭源模型Qwen-Max-0919比开源Qwen 2.5系列具有更高的蒸馏程度。
  4. 基础LLM通常比经过监督微调的LLM具有更高程度的蒸馏。

4. 结论与展望

研究发现,除了Claude、豆包和Gemini之外,许多LLM都存在高程度蒸馏现象。过度蒸馏可能导致模型同质化,降低模型多样性和鲁棒性。研究者希望通过提出的方法,系统地量化蒸馏过程及其影响,提高LLM数据蒸馏的透明度。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...