两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

AIGC动态欢迎阅读

原标题:两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调
关键字:动作,准确度,轨迹,节点,团队
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:Panda互相检查,让小模型也能解决大问题。
众所周知,LLM 很强大,但执行复杂推理的能力还不够强。
举个例子,在 GSM8K 数据集上,Mistral-7B 即使使用思维链(CoT)等技术,也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力,但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的,甚至可能原本就是这些强大模型合成的。
同时,研究者们也在积极开发一种能提供辅助但也更困难的方法:使用一个更优的教师 LLM 来提升推理能力。
为了在没有更优模型的前提下提升推理能力,一种颇有希望的范式是利用 LLM 自身之中的知识。举个例子,一种名为 RAP 的方法采用了一种自我探索式的解决方法,即通过自我奖励的反馈来迭代式地提升 LLM 的推理性能。不幸的是,研究表明这一范式具有两大根本性问题。
第一,在执行推理时,LLM 往往难以有效地探索解答空间。这种自我探索式方法往往会因推理步骤质量不佳而受困于某个解答空间,即使多次尝试也是如此。
第二,即使自我探索找到了高质量的推理步骤,小版本的大型语言模型(SLM)也难以辨别哪些推理步骤


原文链接:两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...