今日arXiv最热大模型论文：北京大学发布，将试错引入大模型代理学习！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热大模型论文：北京大学发布，将试错引入大模型代理学习！
关键字：行动,动作,任务,函数,策略
文章来源：夕小瑶科技说
内容字数：8435字

内容摘要：

夕小瑶科技说原创编辑 | 松果引言：探索语言智能的新边界在人工智能的发展历程中，语言智能始终是一个核心的研究领域。随着大语言模型（LLM）的兴起，我们对语言智能的理解和应用已经迈入了一个新的阶段。这些模型不仅能够理解和生成自然语言，还能够在多种环境中控制代理（agent）进行交互和决策。然而，尽管LLM在理解语言和规划方面展现出了巨大的潜力，它们在从经验中学习并改进行动策略方面仍存在限制。
传统的强化学习方法通过试错学习来训练代理策略，但这种方法往往忽略了代理在特定环境中的先验知识。而LLM正是在这方面表现出了优势。然而，直接对大规模的LLM进行策略模型微调在实践中是不切实际的，因此研究者们开始探索如何将历史交互融入提示中，以利用过去的经验来规划未来的行动。这些方法虽然有其局限性，但也提供了新的思路。
本文提出了一种新的学习范式，即通过学习扩展和精细化行动空间，使任务与代理的规划能力更加紧密对齐。研究者通过适应LLM的规划来解决固定行动空间带来的限制，例如常识知识引导的规划与行动之间的不匹配，以及由于未满足的先决条件或无效策略导致的行动错误。研究者们的方法不仅缓解了语言代理性能的瓶颈

原文链接：今日arXiv最热大模型论文：北京大学发布，将试错引入大模型代理学习！