强化学习 当你发现收集有标注的数据困难,正确答案人类也不知道是什么的时候,往往是考虑使用RL的时候。尽管机器不知道答案是什么,但是机器会知道什么好,什么不好,通过与环境互动获得奖励。 过程 演算法解RL问题:policy gradient 如何产生s\a和定义A就是重要的问题之一。