率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

AIGC动态欢迎阅读

原标题:率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024
关键字:数据,离线,动作,函数,不确定性
文章来源:量子位
内容字数:0字

内容摘要:


中科大杨睿 投稿量子位 | 公众号 QbitAI机器人控制和自动驾驶的离线数据损坏问题有解了!
中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。
论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。
现实世界的离线数据集(如机器人控制、自动驾驶等)常常因传感器故障或恶意攻击而受到数据损坏(如数据带有噪声或对抗性攻击)的影响。
尽管现有离线强化学习(offline RL)方法在鲁棒性方面已取得了进展,但它们仍难以处理因离线数据的各类元素(即状态、动作、奖励和转移动态)均部分损坏所引入的高不确定性。
作者针对离线数据的各类元素均有受损这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法TRACER。
在面临各类数据损坏时,该方法于所有实验中均实现了最优,相对于现有的SOTA方法提升了高达+21.1%的决策性能,并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能。
TRACER主要具有以下三点优势:
TRACER首次将贝叶斯推断引入到抗损坏的离线强化学习(corruption-robust offline RL)


原文链接:率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...