现在的位置:主页 > 期刊导读 >

自动化技术论文_一种快速收敛的最大置信上界

来源:探索科学 【在线投稿】 栏目:期刊导读 时间:2021-08-20

【作者】网站采编

【关键词】

【摘要】文章摘要:深度强化学习(Deep Reinforcement Learning, DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。

文章摘要:深度强化学习(Deep Reinforcement Learning, DRL)方法在大状态空间控制任务上取得了出色效果,探索问题一直是该领域的一个研究热点。现有探索算法存在盲目探索、学习慢等问题。针对以上问题,提出一种快速收敛的最大置信上界探索(Upper Confidence Bound Exploration with Fast Convergence, Fast-UCB) 方法。该方法使用UCB算法探索大状态空间,提高探索效率。为缓解Q值高估的问题、平衡探索与利用关系,加入了Q值截断技巧。之后,为平衡算法偏差与方差,使智能体(agent)快速学习,在网络模型中加入长短时记忆(Long Short Term Memory, LSTM)单元,同时使用一种改进混合蒙特卡洛(Mixed Monte Carlo, MMC)方法计算网络误差。最后,将FAST-UCB应用到深度Q网络(Deep Q Network,DQN),在控制类环境中将其与ε-贪心ε-greedy、UCB算法进行对比,以验证其有效性。在雅达利(Atari) 2600环境中将其与噪声网络(Noisy-Network)探索、自举(Bootstrapped)探索、异步优势行动者评论家(Asynchronous Advantage Actor Critic, A3C)算法、近端策略优化(Proximal Policy Optimization, PPO)算法进行对比,以验证其泛化性。实验结果表明,Fast-UCB算法在这两类环境中均能取得优秀效果。

文章关键词:探索,最大置信上界,长短时记忆,混合蒙特卡洛,Q值截断,

项目基金:国家自然科学基金(61772355,61702055,61502323,61502329),江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004),吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18),苏州市应用基础研究计划工业部分(SYG201422),《探索科学》 网址: http://www.tskxzzs.cn/qikandaodu/2021/0820/2223.html

上一篇: 药学论文_构建外科药学学科体系——麻醉外科
下一篇: 环境科学与资源利用论文_不同品种油葵在镉严

探索科学投稿 | 探索科学编辑部| 探索科学版面费 | 探索科学论文发表 | 探索科学最新目录
Copyright © 2018 《探索科学》杂志社 版权所有
投稿电话: 投稿邮箱: