强化学习(一)

#! https://zhuanlan.zhihu.com/p/686235471

深度强化学习（一）（基础概念）

一.马尔可夫决策过程

Agent:智能体，动作或决策对象

Environment: 与智能体交互的对象，可随时间变化

State：对某一时刻的环境的概括

State space（ $\mathcal S$ ）:所有可能存在的状态集合。（可以是有限也可以是无限）

Action：智能体对于当前状态做出的决策。（可以是确定的，也可以是随机的）

Action space（ $\mathcal A$ ）：所有可能的动作集合。

Reward：Agent执行某一动作之后环境的回报。通常记作 $r (s, a, s^{'})$ （与当前状态，下一刻状态，当前动作都有关），或 $r (s, a)$ （与下一刻状态无关）

State transition：Agent从当前时刻 $t$ 从状态 $s$ 转移至 $s^{'}$ 状态的过程。状态转移通常是随机的，我们用状态转移概率函数来描述随机性，在当前状态 $s$ ，智能体执行动作 $a$ ，环境的状态变成 $s^{'}$ 。（第一个随机性）
$p_t(s'|s,a)=\Bbb P(S'_{t+1}=s'|S_t=s,A_t=a)$
状态转移具有马尔可夫性质，即下一时刻状态 $S_{t+1}$ 仅依赖于当前状态 $S_t$ 和动作 $A_t$ , 而不依赖于过去的状态和动作。
$\mathbb{P}\left(S_{t+1} \mid S_t, A_t\right)=\mathbb{P}\left(S_{t+1} \mid S_1, A_1, S_2, A_2, \cdots, S_t, A_t\right)$
状态转移也可以是确定性的。给定当前的状态 $s$ ，智能体执行动作 $a$ ，下一刻的状态已经确定。

实际中，通常假设状态转移概率函数是平稳的，即函数不会随着时刻 $t$ 变化。

二.策略

强化学习的目标就是得到一个策略函数，在每个时刻根据观测到的状态做出决策。策略可以是确定性的，也可以是随机性的。

随机策略：把状态记作 $S$ 或 $s$ , 动作记作 $A$ 或 $a$ , 随机策略函数 $\pi: \mathcal{S} \times \mathcal{A} \mapsto[0,1]$ 是一个概率函数（第二个随机）:
$\pi(a \mid s)=\mathbb{P}(A=a \mid S=s)$
确定策略：确定策略记作 $\mu: \mathcal{S} \mapsto \mathcal{A}$ , 它把状态 $s$ 作为输入, 直接输出动作 $a=\mu(s)$ ,而不是输出概率值。对于给定的状态 $s$ , 做出的决策 $a$ 是确定的, 没有随机性。可以把确定策略看做随机策略的一种特例，即概率全部集中在一个动作上。

智能体与环境交互 (agent environment interaction) ：是指智能体观测到环境的状态 $s$ , 做出动作 $a$ , 动作会改变环境的状态, 环境反馈给智能体奖励 $r$ 以及新的状态 $s^{\prime}$ 。

三.回报与折扣回报

回报（return） 是从当前时刻开始到本回合结束的所有奖励的总和, 所以回报也叫做累计奖励 (cumulative future reward) 。把 $t$ 时刻的回报记作随机变量 $U_t$ 。如果一回合游戏结束, 已经观测到所有奖励, 那么就把回报记作 $u_t$ 。设本回合在时刻 $n$ 结束。定义回报为:
$U_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots+R_n .$

折扣回报 (discounted return) 给未来的奖励做折扣，其中 $\gamma \in [0,1]$ 叫做折扣率
$U_t=R_t+\gamma \cdot R_{t+1}+\gamma^2 \cdot R_{t+2}+\gamma^3 \cdot R_{t+3}+\cdots$

符号约定

$A_t$ : $t$ 时刻的动作（随机变量）	$a_t$ : $t$ 时刻观察到的动作（具体值）
$S_t$ : $t$ 时刻的状态（随机变量）	$s_t$ : $t$ 时刻的状态观测值（具体值）
$R_t$ : $t$ 时刻奖励(随机变量)	$r_t$ : $t$ 时刻奖励观测值(具体值)
$U_t$ : $t$ 时刻的回报(随机变量)	$u_t$ : $t$ 时刻观测到的回报(具体值)

四.价值函数

4.1 动作价值函数

假设我们已经观测到状态 $s_t$ ，而且做完决策选中动作 $a_t$ 。我们想知道这一行为能为我们带来多少收益 $U_t$ 。一个很自然的想法是对 $U_t$ 求期望
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}, \cdots, S_n, A_n}\left[U_t \mid S_t=s_t,A_t=a_t\right]$
不难看出 $Q_\pi\left(s_t, a_t\right)$ 取决于三元组 $(\pi,s_t,a_t)$ ,除了与状态 $s_t$ ,动作 $a_t$ 有关，还与所采用的策略有关

4.2 最优动作价值函数

为了排除掉策略 $\pi$ 的影响，只评价当前状态和动作的好坏,由此产生最优动作价值函数（optimalaction-value function）：
$Q_{\star}\left(s_t, a_t\right)=\max _\pi Q_\pi\left(s_t, a_t\right), \quad \forall s_t \in \mathcal{S}, \quad a_t \in \mathcal{A}$
最好的策略函数则为
$\pi^{\star}=\operatorname{argmax} Q_\pi\left(s_t, a_t\right), \quad \forall s_t \in \mathcal{S}, \quad a_t \in \mathcal{A}$

4.3 状态价值函数

为排除动作 $a_t$ 的影响，仅评价当前状态和策略，我们有状态价值函数（state-value function）：
$\begin{aligned} V_\pi\left(s_t\right) & =\mathbb{E}_{A_t \sim \pi\left(\cdot \mid s_t\right)}\left[Q_\pi\left(s_t, A_t\right)\right] \\ & =\sum_{a \in \mathcal{A}} \pi\left(a \mid s_t\right) \cdot Q_\pi\left(s_t, a\right) \\ & = \Bbb E_{A_{t}}\left[ Q_{\pi}(s_{t},A_{t})|S_t=s_{t}\right] \end{aligned}$
或者也可写成
$V_\pi\left(s_t\right)=\mathbb{E}_{A_t, S_{t+1}, A_{t+1}, \cdots, S_n, A_n}\left[U_t \mid S_t=s_t\right]$