RL — 强化学习技巧
目录
- 一、说明
- 二、设置引用
- 三、输入特征
- 3.1 RL 不完全是深度学习
- 3.2 批量归一化和辍学方法可能不适用于 RL。
- 3.3 越大不一定越好
- 3.4 本地 Optima
- 四、超参数优化
- 五、鲁棒性
- 六、重塑奖励功能
- 6.1 可行性研究
- 6.2 数据预处理
- 6.3 监测
- 6.4 监控培训进度
- 6.5 调音
- 6.6 折扣系数 γ
RL — 强化学习技巧
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/789640.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!