报告题目:Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy Gradient Algorithms
报告时间:2023-04-04 10:00-11:00
报告人:彭一杰 副教授 北京大学
报告地点:理学院东北楼四楼报告厅
报告摘要:经典的强化学习问题旨在优化期望累积奖励。在这项工作中,我们考虑目标是优化累积奖励分位数的强化学校问题。我们用神经网络参数化控制动作的策略,提出一种新的基于分位数的策略优化(QPO)及其变体基于分位数的邻近策略优化(QPPO)解决以分位数为目标的深度强化学习问题。QPO用不同尺度执行两个耦合迭代来同时更新分位数和策略参数,而 QPPO 是 QPO 的off-policy版本,可以利用一条仿真轨道多次更新参数,从而提高算法效率。我们的数值结果表明新提出的算法在分位数标准下优于现有的基线算法。