没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

AIGC动态欢迎阅读

原标题:没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
关键字:模型,语言,算法,函数,价值
文章来源:机器之心
内容字数:0字

内容摘要:


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com万梓煜是上海交通大学的三年级在读博士生,导师为温颖教授和张伟楠教授,主要研究兴趣为强化学习与大语言模型、决策大模型。冯熙栋是伦敦大学学院四年级博士生,导师为汪军老师。同时目前也是Google DeepMind的student researcher。主要研究方向是强化学习与大语言模型,多智能体以及元强化学习。
2016年 DeepMind 的 AlphaZero 展示了强大的学习和适应能力,登上《自然》杂志封面,并在之后通过自我对弈不断提升自身水平,最终战胜了人类冠军,而这也为之后学者在大语言模型与树搜索的结构化结合奠定了基础。
大语言模型树搜索
大语言模型与思维链(Chain-of-Thought, CoT)的结合增强了其复杂推理能力,使其在数学和逻辑推理等任


原文链接:没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...