为离线元强化学习提供统一理论基础和算法设计准则。
原标题:NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架
文章来源:机器之心
内容字数:7426字
之江实验室、香港中文大学等团队提出离线元强化学习新算法UNICORN
本文总结了机器之心AIxiv专栏报道的关于离线元强化学习(Offline Meta-RL)新算法UNICORN的研究成果。该算法由之江实验室、香港中文大学、同济大学等单位的研究团队共同提出,并被NeurIPS 2024接收为Spotlight文章。
1. 背景:离线元强化学习的挑战
经典强化学习依赖于智能体与环境的在线交互,但在高风险场景(如自动驾驶、药物发现)中不可行。离线强化学习(Offline RL)利用历史数据进行学习,避免了在线交互的风险,但其泛化能力有限。元强化学习(Meta-RL)则注重多任务学习和迁移学习,具有强大的泛化能力。结合两者优势的“基于语境的离线元强化学习”(COMRL)应运而生,其核心在于学习鲁棒有效的任务表征,以应对“语境偏移”问题——训练数据与测试任务分布差异巨大。
2. UNICORN:基于信息论的统一框架
现有COMRL方法主要依靠经验性改进损失函数,缺乏理论支撑。UNICORN算法的创新之处在于,它首次基于信息论,系统性地构建了COMRL中任务表示学习的理论框架。该框架从数学定义、因果关系分解、中心定理三个层面,对任务表示学习进行了严格的理论推导和分析。
具体而言:
- 数学定义:将任务表示学习定义为寻找数据相对于任务变量的充分统计量。
- 因果关系分解:将数据样本的因果关系分解为主因果关系(与任务相关)和次因果关系(与行为策略相关),并对应到互信息的分解。
- 中心定理:证明了一个关于互信息的不等式,指出最优优化目标应该介于主因果关系和主次因果关系之和之间,并提出互信息 I(Z;M) 作为任务表示学习的金标准。
基于此理论框架,UNICORN提出了两种算法实现:有监督UNICORN和自监督UNICORN,分别将I(Z;M)的求解近似为分类问题和数据重建+度量学习。
3. 实验结果:UNICORN的优势
实验结果表明,UNICORN算法在多种机器人连续控制任务中表现出色:
- 在同分布和分布外测试集上均取得了优异的性能,尤其在分布外测试集上显著优于现有方法。
- 在不同质量的数据集上表现稳定,达到了最先进水平。
- 具有良好的模型架构可迁移性,可作为即插即用模块应用于其他RL算法。
- 在分布外任务上实现了正向小样本迁移,展现了强大的泛化能力。
4. 未来展望
UNICORN为离线元强化学习提供了统一的理论基础和算法设计准则,对决策大模型的离线多任务预训练和微调具有重要指导意义,有望推动药物设计、精准医疗等领域的AI发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台