「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

AIGC动态8个月前发布 新智元
14 0 0

「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

AIGC动态欢迎阅读

原标题:「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
关键字:模型,能力,自然语言,任务,函数
文章来源:新智元
内容字数:10478字

内容摘要:


新智元报道编辑:LRS
【新智元导读】用大模型来辅助强化学习,可以提高模型在多任务学习、样本利用率、任务规划等复杂任务下的能力,该论文综述了LLM-enhanced RL领域的最新进展,总结了LLM-enhanced RL的主要技术框架、特性以及四种主要技术路线;并分析了未来该方向的机会与挑战。强化学习(RL)通过与环境交互的试错反馈来优化顺序决策问题。
虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力(例如王者荣耀,Dota 2等),但很难在包含大量自然语言和视觉图像的现实复杂应用中落地,原因包括但不限于:数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。
大语言模型(LLM),通过在海量数据集上的训练,展现了超强的多任务学习、通用世界知识目标规划以及推理能力。以ChatGPT为代表的LLM已经被广泛应用到各种现实领域中,包括但不限于:机器人、医疗、教育、法律等。
在此背景下,LLM可以提高强化学习在例如多任务学习、样本利用率、任务规划等方面的能力,帮助提高强化学习在复杂应用下的学习表现,例如自然语言指令跟随、谈判、自动驾驶等。
为此,来自香港中


原文链接:「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...