一行代码提高大模型10%性能,开发者:免费午餐

AIGC动态11个月前发布 量子位
24 0 0

一行代码提高大模型10%性能,开发者:免费午餐

AIGC动态欢迎阅读

原标题:一行代码提高大模型10%性能,开发者:免费午餐

关键字:模型,噪声,性能,数据,文本

文章来源:量子位

内容字数:4620字

内容摘要:克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型微调有“免费的午餐”了,只要一行代码就能让性能提升至少10%。在7B参数量的Llama 2上甚至出现了性能翻倍的结果,Mistral也有四分之一的增长。虽然这种方法用在监督微调阶段,但RLHF模型也能从中受益。来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une)的微调方式。这是一种新的正则化技术,可以用于提高微调监督(SF…

原文链接:点此阅读原文:一行代码提高大模型10%性能,开发者:免费午餐

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...