Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效
关键字：模型,腾讯,表征,语言,权重
文章来源：机器之心
内容字数：5206字

内容摘要：

机器之心专栏
机器之心编辑部融合多个异构大语言模型，中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功，各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂，且新旧模型之间可能存在能力的冗余。
近日，中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM，用于「融合多个异构大模型」。
不同于以往的模型集成和权重合并，前者需要在推理时同时部署多个大语言模型，后者需要合并模型具备相同的结果，FuseLLM 能够从多个异构大语言模型中外化知识，将各自的知识和能力通过轻量的持续训练转移到一个融合大语言模型中。
该论文刚刚在 arXiv 上发布就引起了网友的大量关注和转发。有人认为，「当想要在另一种语言上训练模型时，使用这种方法是非常有趣的」，「我一直在思考这件事」。目前该论文已被 ICLR 2024 接受。论文标题：Knowledge Fusion of Large Language Models
论文地址：https://arxiv.org/abs/2401.10491
论文仓库：https:/

原文链接：Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效