8B尺寸达到GPT-4级性能！北大等提出医疗专家模型训练方法

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：8B尺寸达到GPT-4级性能！北大等提出医疗专家模型训练方法
关键字：模型,任务,医疗,指令,数据
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】本文研究发现大语言模型在持续预训练过程现目标领域性能先下降再上升的现象。本文引入「稳定性差距」概念来解释该现象，并提出了三种策略来缓解问题。首先，本文提出在适当大小的数据子集上进行多轮预训练，能比单数据集预训练更快的性能恢复。其次，应选取最高质量的子语料进行多轮预训练。最后，通过混合数据来接近预训练数据分布。这些策略在医疗领域的持续预训练和指令精调中均显著提升效果和削减计算量。相关Llama-3-Physician-8B模型现已开源于HuggingFace。大规模语言模型（LLMs）的持续预训练是提升其在特定领域性能的重要方法。通过在新领域的语料库上预训练大语言模型，这一过程能够显著增加模型的领域知识储备和任务能力。
然而，尽管已有许多研究探讨了从头预训练的LLMs的学习机制和性质，关于持续预训练过程中LLMs行为的研究却相对较少。
最近北京大学、香港科技大学等开源了一个8B医学大模型，通过测试模型在连续预训练和指令微调实验过程中的表现变化，发现了许多有趣的现象。论文链接：https://arxiv.org/abs/2406.14833

原文链接：8B尺寸达到GPT-4级性能！北大等提出医疗专家模型训练方法