标签:分布偏移鲁棒性

DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

原标题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移 文章来源:机器之心 内容字数:2426字DPO-Shift:缓解大语言模型训练中的似然位移问题 本文介绍...
阅读原文