一行代码提高大模型10%性能，开发者：免费午餐

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：一行代码提高大模型10%性能，开发者：免费午餐

关键字：模型,噪声,性能,数据,文本

文章来源：量子位

内容字数：4620字

内容摘要：克雷西发自凹非寺量子位 | 公众号 QbitAI大模型微调有“免费的午餐”了，只要一行代码就能让性能提升至少10%。在7B参数量的Llama 2上甚至出现了性能翻倍的结果，Mistral也有四分之一的增长。虽然这种方法用在监督微调阶段，但RLHF模型也能从中受益。来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une)的微调方式。这是一种新的正则化技术，可以用于提高微调监督（SF…

原文链接：点此阅读原文：一行代码提高大模型10%性能，开发者：免费午餐