「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线
关键字：模型,能力,自然语言,任务,函数
文章来源：新智元
内容字数：10478字

内容摘要：

新智元报道编辑：LRS
【新智元导读】用大模型来辅助强化学习，可以提高模型在多任务学习、样本利用率、任务规划等复杂任务下的能力，该论文综述了LLM-enhanced RL领域的最新进展，总结了LLM-enhanced RL的主要技术框架、特性以及四种主要技术路线；并分析了未来该方向的机会与挑战。强化学习（RL）通过与环境交互的试错反馈来优化顺序决策问题。
虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力（例如王者荣耀，Dota 2等），但很难在包含大量自然语言和视觉图像的现实复杂应用中落地，原因包括但不限于：数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。
大语言模型（LLM），通过在海量数据集上的训练，展现了超强的多任务学习、通用世界知识目标规划以及推理能力。以ChatGPT为代表的LLM已经被广泛应用到各种现实领域中，包括但不限于：机器人、医疗、教育、法律等。
在此背景下，LLM可以提高强化学习在例如多任务学习、样本利用率、任务规划等方面的能力，帮助提高强化学习在复杂应用下的学习表现，例如自然语言指令跟随、谈判、自动驾驶等。
为此，来自香港中