目录 图论学习总结前言一、基础知识图的存储图的遍历 二、最短路多源最短路 F l o y d Floyd Floyd 算法例题及变形 e g 1 : S o r t i n g I t A l l O u t eg1:Sorting\ It\ All\ Out eg1:Sorting It All Out ( 蓝书例题,传递…
目录
一.policy gradient 的基本思路(Basic idea of policy gradient)
二.定义最优策略的 metrics,也就是 objective function 是什么
三.objective function 的 gradient
四.梯度上升算法(REINFORCE)
五.总结 上…