Target Network缓解DQN的动作价值的高估问题

1、高估问题产生的原因

原因1：由于噪声的存在，影响 $ma x (Q)$ 的估计最大值比真实的最大值更大，最小值比真实最小值更小；

原因2：Bootstrapping，DQN近似动作价值 $Q$ ，使用TD算法更新DQN，因为TD算法存在高估，更新DQN时造成高估，下一次TD更新时也会不断高估；

2、Target Network解决动作价值高估问题思路

使用Target Network计算： $\max_aQ(s_{t+1},a;\mathbf{w}^-)$

TD learning with naïve update:
$\begin{gathered} \text{TD Target: }\\ y_t=r_t+\gamma\cdot\max_aQ(s_{t+1},a;\mathbf{w}). \\ \end{gathered}$
TD learning with target network:
$\text{TD Target:}\\ y_t=r_t+\gamma\cdot\max_aQ(s_{t+1},a;\mathbf{w}^-)$

3、代码实现

实现带有target network的DQN

class DQNWithTargetNetwork:def __init__(self, dim_state=None, num_action=None, discount=0.9):self.discount = discountself.Q = QNet(dim_state, num_action)# 添加target networkself.target_Q = QNet(dim_state, num_action)self.target_Q.load_state_dict(self.Q.state_dict())def get_action(self, state):# 使用最大价值的动作qvals = self.Q(state)return qvals.argmax()def compute_loss(self, s_batch, a_batch, r_batch, d_batch, next_s_batch):# 计算s_batch，a_batch对应的值。qvals = self.target_Q(s_batch).gather(1, a_batch.unsqueeze(1)).squeeze()# 使用target Q网络计算next_s_batch对应的值。next_qvals, _ = self.target_Q(next_s_batch).detach().max(dim=1)# 使用MSE计算loss。loss = F.mse_loss(r_batch + self.discount * next_qvals * (1 - d_batch), qvals)return loss

隔一段时间在再更新target network

# 加权更新target network
def soft_update(target, source, tau=0.01):"""update target by target = tau * source + (1 - tau) * target."""for target_param, param in zip(target.parameters(), source.parameters()):target_param.data.copy_(target_param.data * (1.0 - tau) + param.data * tau)

4、对gather的理解
例如三维的input，从广播机制很容易理解。当dim==0，意味着

out[i][j][k]中的[i]指的是用[index[i][j][k]]取数据放到i的,out[j][k]指的是这两个维度与out同时变化

广播机制是计算循环的一种更快的机制，因此用循环来理解是一样的:

out[i][j][k] = input[index[i][j][k]][j][k]  # if dim == 0

等价于：

out = torch.zeros(index.shape)#定义zero空tensor# 循环赋值
for j in range(input.shape[1]):for k in range(input.shape[2]):out[:, j, k] = input[index[i][j][k], j, k]

如果是其他维度可参考：

out[i][j][k] = input[index[i][j][k]][j][k]  # if dim == 0
out[i][j][k] = input[i][index[i][j][k]][k]  # if dim == 1
out[i][j][k] = input[i][j][index[i][j][k]]  # if dim == 2

一个例子：

t = torch.tensor([[1, 2], [3, 4]])
torch.gather(t, 1, torch.tensor([[0, 0], [1, 0]]))>>tensor([[ 1,  1],[ 4,  3]])

torch.gather — PyTorch 2.0 documentation

5、对detech的理解：
将tensor从计算图中分离，不进行梯度更新

torch.Tensor.detach — PyTorch 2.0 documentation

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/29173.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Target Network缓解DQN的动作价值的高估问题

相关文章

备战大型攻防演练，“3+1”一套搞定云上安全

用户体验旅程图：改进用户体验的好工具

docker容器监控：Cadvisor+InfluxDB+Grafana的安装部署

java判断字符串是否包含英文，以及英文个数

pycharm、idea、golang等JetBrains其他IDE修改行分隔符（换行符）、在Git CRLF、LF 换行符转换

JSX语法基础总结

【陈老板赠书活动 - 10期】- 【Python之光：Python编程入门与实战】

一篇文章告诉你帮助中心系统如何去落实用户的需求

solidworks(2)

【YOLO】替换骨干网络为轻量级网络MobileNet3

【解放ipad生产力】如何在平板上使用免费IDE工具完成项目开发

手机开启应急预警通知 / 地震预警

未来C#上位机软件发展趋势

【CHI】架构介绍

【VisualGLM】大模型之 VisualGLM 部署

Flink 两阶段提交（Two-Phase Commit）协议

springboot传给前端日期少了八小时

使用node搭建服务器，前端自己写接口，将vue或react打包后生成的dist目录在本地运行

高速公路巡检新手段——道路智能巡检系统

objectMapper.configure 方法的作用和使用