李宏毅老师的课件
https://www.bilibili.com/video/BV1XP4y1d7Bk/?spm_id_from=333.337.search-card.all.click&vd_source=e7939b5cb7bc219a05ee9941cd297ade
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9502a795feba46959c56092d5f370b76.png
上面这个式子非常直觉,当R为负数时,就要减少p,当R为正时,就增大p.
另外是乘的是整个序列的Reward而不是每个动作的奖励。如果乘每个动作的奖励,那它就会只会一直在原地开火,而不会左右移动,因为左右动作得到的奖励是0。(视频中类似打方块游戏)
下一个问题是为什么要除p:
如果没除,做更新的时候会偏好那些出现次数比较多的动作,就算那些动作并没有真的比较好。可能某个动作很好,但是只出现了一次。所以除概率p相当于归一化操作,这样就不会偏好那些出现次数多的行为。
如果R都为正?理想情况下不是问题,因为出现次数少的几率也小。
实际没采样到的几率就会减少。
所以应该将R减去bias,让它有正有负。
式子中减去的b就是题目的baseline,如果一个τ好于baseline就在正的,否则就是负的。
实际操作时:
上面这个图意思是:采集样本 τ1,τ2……
然后按分类问题训练网络,input:S11,target:a11……
每个样本要乘一个权重R
这样更新完参数后,再采集样本,再按分类问题训练,加权,采集样本、训练……