Lecture 5: Monte Carlo Learning
The simplest MC-based RL algorithm: MC Basic
理解MC basic算法的关键是理解如何将policy iteration算法迁移到model-free的条件下。
Policy iteration算法在每次迭代过程中有两步: { Policy evaluation: v π k r π k γ…
概念
VO(View Object):视图对象,用于展示层,它的作用是把某个指定页面(或组件)的所有数据封装起来。DTO(Data Transfer Object):数据传输对象,这…