模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向
关键字：模型,论文,权重,地址,方法
文章来源：机器之心
内容字数：27056字

内容摘要：

选自Ahead of AI
作者：Sebastian Raschka
机器之心编译
编辑：Panda还有 10 个月，2024 年还有很多期待空间。在过去的 2023 年中，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展，似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，甚至让模型变得更小。
现在，2024 年的第一个月已经过去，也许是时候盘点一番新年首月进展了。近日，AI 研究者 Sebastian Raschka 发布了一份报告，介绍了四篇与上述新阶段有关的重要论文。它们的研究主题简单总结起来是这样：
1. 权重平均和模型融合可将多个 LLM 组合成单个更好的模型，并且这个新模型还没有传统集成方法的典型缺陷，比如更高的资源需求。
2. 代理调优（proxy-tuning）技术可通过使用两个小型 LLM 来提升已有大型 LLM 的性能，这个过程无需改变大模型的权重。
3. 通过将多个小型模块组合起来创建混合专家模型，可让所得 LLM 的效果和效率媲美甚至超越更大型的对应模型。
4. 预训练一个小型的 1.1B 参

原文链接：模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向