率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

AIGC动态欢迎阅读

原标题：率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024
关键字：数据,离线,动作,函数,不确定性
文章来源：量子位
内容字数：0字

内容摘要：

中科大杨睿投稿量子位 | 公众号 QbitAI机器人控制和自动驾驶的离线数据损坏问题有解了！
中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性。
论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。
现实世界的离线数据集（如机器人控制、自动驾驶等）常常因传感器故障或恶意攻击而受到数据损坏（如数据带有噪声或对抗性攻击）的影响。
尽管现有离线强化学习（offline RL）方法在鲁棒性方面已取得了进展，但它们仍难以处理因离线数据的各类元素（即状态、动作、奖励和转移动态）均部分损坏所引入的高不确定性。
作者针对离线数据的各类元素均有受损这一复杂的实际问题，提出了一种鲁棒的变分贝叶斯推断方法TRACER。
在面临各类数据损坏时，该方法于所有实验中均实现了最优，相对于现有的SOTA方法提升了高达+21.1%的决策性能，并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能。
TRACER主要具有以下三点优势：
TRACER首次将贝叶斯推断引入到抗损坏的离线强化学习（corruption-robust offline RL）

原文链接：率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024