50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析

50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析

原标题:50%优势,力压OpenAI和DeepMind!清华DSAC系列算法全面解析
文章来源:新智元
内容字数:8448字

清华大学强化学习重大突破:DSAC、DACER及RAD算法详解

清华大学深度强化学习实验室近期在强化学习领域取得一系列突破性进展,开发出DSAC、DSAC-T、DACER和RAD等算法,并将其集成到开源软件GOPS中,为具身智能发展注入强劲动力。

1. 解决强化学习过估计问题:DSAC和DSAC-T算法

强化学习中,过估计问题一直是制约其性能提升的瓶颈。清华团队提出的DSAC (Distributional Soft Actor-Critic) 算法,通过学习连续型分布式值函数,而非单一Q值,有效降低了过估计偏差。 DSAC算法首次从理论层面论证了分布式回报函数学习降低过估计的原理,并将其融入最大熵架构中。然而,DSAC也存在学习不稳定、参数敏感等问题。 因此,团队进一步改进,提出了DSAC-T算法,通过期望值替换、双值分布学习和基于方差的critic梯度调整三个方面,提升了算法的稳定性和鲁棒性。

2. 融合扩散模型提升性能:DACER算法

DACER (Diffusion Actor-Critic with Entropy Regulator) 算法将扩散模型与在线强化学习相结合,突破了传统在线强化学习的局限。它巧妙地将扩散模型的反向过程定义为新的策略近似函数,利用扩散模型强大的表示能力提升性能,并通过高斯混合模型估计策略熵,实现探索与利用的平衡,刷新了强化学习性能的世界纪录。

3. 提升训练稳定性:RAD优化器

为了保证强化学习训练的稳定性,清华团队提出了RAD (Relativistic Adaptive Dynamics) 优化器。该优化器从动力学视角出发,将神经网络参数优化建模为多粒子相对论系统演化,赋予参数自适应能力,确保训练长时域稳定与快速收敛。在多个测试环境和主流强化学习算法中,RAD优化器的综合性能均排名第一。

4. 开源软件GOPS:推动具身智能发展

上述算法将逐步集成到团队自主研发的开源软件GOPS (General Optimal control Problem Solver) 中。GOPS以强化学习为核心,兼容多种机器人和工业仿真环境,能够有效处理复杂场景的具身智能控制问题,已应用于自动驾驶、物流机器人等领域。GOPS的进一步升级将推动更多现实世界中的机器拥有类人的智能,加速具身智能时代的到来。

总而言之,清华大学团队的这些成果,不仅在算法层面取得了显著突破,也为强化学习的应用和具身智能的发展提供了重要的技术支撑。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止