NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

为离线元强化学习提供统一理论基础和算法设计准则。

原标题：NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架
文章来源：机器之心
内容字数：7426字

之江实验室、香港中文大学等团队提出离线元强化学习新算法UNICORN

本文总结了机器之心AIxiv专栏报道的关于离线元强化学习（Offline Meta-RL）新算法UNICORN的研究成果。该算法由之江实验室、香港中文大学、同济大学等单位的研究团队共同提出，并被NeurIPS 2024接收为Spotlight文章。

1. 背景：离线元强化学习的挑战

经典强化学习依赖于智能体与环境的在线交互，但在高风险场景（如自动驾驶、药物发现）中不可行。离线强化学习（Offline RL）利用历史数据进行学习，避免了在线交互的风险，但其泛化能力有限。元强化学习（Meta-RL）则注重多任务学习和迁移学习，具有强大的泛化能力。结合两者优势的“基于语境的离线元强化学习”（COMRL）应运而生，其核心在于学习鲁棒有效的任务表征，以应对“语境偏移”问题——训练数据与测试任务分布差异巨大。

2. UNICORN：基于信息论的统一框架

现有COMRL方法主要依靠经验性改进损失函数，缺乏理论支撑。UNICORN算法的创新之处在于，它首次基于信息论，系统性地构建了COMRL中任务表示学习的理论框架。该框架从数学定义、因果关系分解、中心定理三个层面，对任务表示学习进行了严格的理论推导和分析。

具体而言：

数学定义：将任务表示学习定义为寻找数据相对于任务变量的充分统计量。
因果关系分解：将数据样本的因果关系分解为主因果关系（与任务相关）和次因果关系（与行为策略相关），并对应到互信息的分解。
中心定理：证明了一个关于互信息的不等式，指出最优优化目标应该介于主因果关系和主次因果关系之和之间，并提出互信息 I(Z;M) 作为任务表示学习的金标准。

基于此理论框架，UNICORN提出了两种算法实现：有监督UNICORN和自监督UNICORN，分别将I(Z;M)的求解近似为分类问题和数据重建+度量学习。

3. 实验结果：UNICORN的优势

实验结果表明，UNICORN算法在多种机器人连续控制任务中表现出色：

在同分布和分布外测试集上均取得了优异的性能，尤其在分布外测试集上显著优于现有方法。
在不同质量的数据集上表现稳定，达到了最先进水平。
具有良好的模型架构可迁移性，可作为即插即用模块应用于其他RL算法。
在分布外任务上实现了正向小样本迁移，展现了强大的泛化能力。

4. 未来展望

UNICORN为离线元强化学习提供了统一的理论基础和算法设计准则，对决策大模型的离线多任务预训练和微调具有重要指导意义，有望推动药物设计、精准医疗等领域的AI发展。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

为离线元强化学习提供统一理论基础和算法设计准则。

之江实验室、香港中文大学等团队提出离线元强化学习新算法UNICORN

1. 背景：离线元强化学习的挑战

2. UNICORN：基于信息论的统一框架

3. 实验结果：UNICORN的优势

4. 未来展望

联系作者

意识、自指与悖论：意识是科学语言中的哥德尔句子

教育巨头的崩溃与利润暴涨：AI浪潮下的赢家与输家揭秘

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点