性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

AIGC动态10个月前发布 新智元
8 0 0

性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

AIGC动态欢迎阅读

原标题:性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight
关键字:状态,序列,表征,函数,算法
文章来源:新智元
内容字数:14237字

内容摘要:


新智元报道编辑:LRS 好困
【新智元导读】SPF算法是一种基于状态序列频域预测的表征学习方法,利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规律性信息,从而辅助表征高效地提取到长期未来信息。强化学习算法(Reinforcement Learning, RL)的训练过程往往需要大量与环境交互的样本数据作为支撑。然而,现实世界中收集大量的交互样本通常成本高昂或者难以保证样本采集过程的安全性,例如无人机空战训练和自动驾驶训练。
为了提升强化学习算法在训练过程中的样本效率,一些研究者们借助于表征学习(representation learning),设计了预测未来状态信号的辅助任务,使得表征能从原始的环境状态中编码出与未来决策相关的特征。
基于这个思路,该工作设计了一种预测未来多步的状态序列频域分布的辅助任务,以捕获更长远的未来决策特征,进而提升算法的样本效率。
该工作标题为State Sequences Prediction via Fourier Transform for Representation Learning,发表于NeurIPS 2023,并被接收为Spotli


原文链接:性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...