模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了
关键字：模型,日语,腾讯,方法,参数
文章来源：量子位
内容字数：5429字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI把Huggingface上的现成模型拿来“攒一攒”——
直接就能组合出新的强大模型？！
日本大模型公司sakana.ai脑洞大开（正是“Transformer八子”之一所创办的公司），想出了这么一个进化合并模型的妙招。
该方法不仅能自动生成新的基础模型，而且性能绝不赖：
他们得到的一个70亿参数的日语数学大模型，直接在相关基准测试上取得了SOTA，打败了700亿参数的Llama-2等前辈。
最重要的是，得出这样的模型不需要任何梯度训练，因此需要的计算资源大大减少。
英伟达科学家Jim Fan看完大赞：
这是我最近读过的最有想象力的论文之一。
合并进化，自动生成新基础模型从开源大模型排行榜上表现最好的模型，大多不再是LLaMA或Mistral这种“原始”模型，而是一些微调或合并模型之后，我们就能看出：
一种新的趋势出现了。
Sakana.ai介绍，开源基础模型很容易在数百个不同的方向上进行扩展和微调，然后产生在新的领域表现出色的新模型。
而在这之中，模型合并显现出了巨大前景。
但，它可能是一种“黑魔法”，严重依赖直觉和专业知识。
因此，我

原文链接：模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了