ilqr算法原理推导及代码实践

一. ilqr原理推导

1.1 ilqr问题描述

本文参考知乎博主: LQR与iLQR：从理论到实践【详细】

基础LQR只能处理线性系统 (指可以使用 $x (k + 1) = A x (k) + B u (k)$ 来描述系统 ) ，对目标代价函数也做了要求，而在实际问题中非线性系统占了绝大部分，iLQR（Iterative Linear Quadratic Regulator，迭代线性二次型调节器）则能够通过迭代的方式有效地求解非线性最优控制问题，考虑如下问题表述形式：
$\begin{gather} \min_{u_0, \ldots, u_{N-1}} & \quad J = l_f(x_N) + \sum_{k=0}^{N-1} l(x_k, u_k) \\ \text{s.t.} & \quad x_{k+1} = f(x_k, u_k), \quad x_0 \text{ given} \end{gather}$
其中 $J$ 是目标函数，需要在控制变量 $u_0,...,u_{N-1}$ 下进行最小化。目标函数由两部分组成：终端状态 $x_N$ 的代价 $l_f(x_N)$ 和从 $k = 0$ 到 $N - 1$ 的每一个时间步的代价 $l(x_k,u_k)$ 的总和，约束条件是状态转移方程 $x_{k+1} = f(x_k,u_k)$ ，并且初始状态 $x_0$ 是给定的。

1.2 ilqr算法原理

与LQR问题求解过程类似，定义问题的最优状态值函数 $\hat{J}_{i}(x_{i})$ 和动作值函数 $\tilde{J}_{i}(x_{i}, u_{i})$ ：
$\begin{align*} \hat{J}_{i}(x_{i}) &= \min_{u_{i}}\left\{ l(x_{i},u_{i}) + \hat{J}_{i+1}(x_{i+1}) \right\} \\ &= \min_{u_{i}}\left\{ l(x_{i},u_{i}) + \hat{J}_{i+1}(f(x_{i},u_{i})) \right\} \\ &= \min_{u_{i}} \tilde{J}_{i}\left( x_{i},u_{i} \right) \tag{3} \end{align*}$
下面详细解释(3)是怎么来的：

最优状态值函数 $\hat{J}_{i}(x_{i})$ 定义为给定当前状态 $x_i$ ，从时间步 $i$ 到 $N$ 的最小总代价，举个例子，现在状态是 $x_{N - 1}$ ，那么可以预期的最优状态值 $\hat{J}_{N - 1}(x_{N - 1})$ 为当前 $N - 1$ 时刻的最小即时代价 $l(x_{N-1},u_{N-1})$ 加上最小终端代价 $\hat{J}_{N}(x_{N})$ ，就像一个人开车从A市去B市，计算最优燃油消耗量Y，那么他最省油的开法肯定是当前时刻采用最省油的开法，并在到达B市之前都一直采用最省油的开法。
动作值函数 $\tilde{J}_{i}\left( x_{i},u_{i} \right)$ 定义为在当前状态 $x_i$ 下采取某个控制输入 $u_i$ 并遵循最优策略直到终端状态的总代价，动作值函数为最优需要满足采取的控制输入 $u_i$ 为最优。
状态转移：状态 $x_{i + 1}$ 由当前状态 $x_{i}$ 和 $u_i$ 通过状态转移函数 $f(x_{i},u_{i})$ 决定，因此，可以将当前状态 $x_i$ 的最优状态值函数 $\hat{J}_{i}(x_{i})$ 表达为：
$\begin{align*} \hat{J}_{i}(x_{i}) &= \min_{u_{i}} \left\{ l(x_{i}, u_{i}) + \hat{J}_{i+1}(x_{i+1}) \right\} \\ &= \min_{u_{i}} \left\{ l(x_{i}, u_{i}) + \hat{J}_{i+1}(f(x_{i}, u_{i})) \right\} \\ &= \min_{u_{i}} \tilde{J}_{i}(x_{i}, u_{i}) \tag{4} \end{align*}$
动作值函数 $\tilde{J}_{i}\left( x_{i},u_{i} \right)$ 可以定义为：
$\begin{align*} \tilde{J}_{i}\left( x_{i},u_{i} \right) = l(x_{i},u_{i}) + \hat{J}_{i+1}(f(x_{i},u_{i})) \tag{5} \end{align*}$
最小化动作值函数：最优状态值函数也可以通过最小化所有可能的动作值函数得到：
$\begin{align*} \hat{J}_{i}(x_{i}) = \min_{u_{i}} \tilde{J}_{i}(x_{i}, u_{i}) \tag{6} \end{align*}$
坐稳了，下面开始推导，终端最优状态值函数 $\hat{J}_{N}(x_{N})={l}_{f}(x_{N})$ ，很好理解，因为到终端状态就没有输入了，所以只有状态代价，没有控制代价。
使用泰勒展开将系统在当前状态 $x_{i}$ 附近线性化，进而转换为LQR问题进行求解：
状态转移函数展开，这里需要了解下非线性系统是如何线性化的，链接: 雅可比矩阵几何意义的直观解释及应用
通过雅可比矩阵得到 $A_{i}$ 和 $B_{i}$
$\begin{align*} f\left(x_{i}, u_{i}\right)+\delta f\left(x_{i}, u_{i}\right) &= f\left(x_{i}+\delta x_{i}, u_{i}+\delta u_{i}\right) \\ &\approx f\left(x_{i}, u_{i}\right)+\frac{\partial f\left(x_{i}, u_{i}\right)}{\partial x_{i}}\delta x_{i}+\frac{\partial f\left(x_{i}, u_{i}\right)}{\partial u_{i}}\delta u_{i} \\ &\triangleq f\left(x_{i}, u_{i}\right)+A_{i}\delta x_{i}+B_{i}\delta u_{i}\tag{7} \end{align*}$
状态值函数展开，这里也很好理解，注意这个 $p_{i}^T$ 和 $P_{i}$ ，后面backward pass的时候通过更新它们俩来实现状态递推
$\begin{align*} \hat{J}_{i}(x_{i}) + \delta \hat{J}_{i}(x_{i}) &= \hat{J}_{i}(x_{i} + \delta x_{i}) \\ &\approx \hat{J}_{i}(x_{i}) + \frac{\partial \hat{J}_{i}(x_{i})}{\partial x_{i}} \delta x_{i} + \frac{1}{2} \delta x_{i}^T \frac{\partial^2 \hat{J}_{i}(x_{i})}{\partial x_{i}^2} \delta x_{i} \\ &\triangleq \hat{J}_{i}(x_{i}) + p_{i}^T \delta x_{i} + \frac{1}{2} \delta x_{i}^T P_{i} \delta x_{i}\tag{8} \end{align*}$
动作值函数展开，常规的泰勒一阶展开和二阶展开，没有什么难理解的
$\begin{align*} \tilde{J}_{i}\left(x_{i},u_{i}\right)+\delta\tilde{J}_{i}\left(x_{i},u_{i}\right) &= \tilde{J}_{i}\left(x_{i}+\delta x_{i},u_{i}+\delta u_{i}\right) \\ &\approx \tilde{J}_{i}\left(x_{i},u_{i}\right)+\frac{\partial\tilde{J}_{i}\left(x_{i},u_{i}\right)}{\partial x_{i}}\delta x_{i}+\frac{\partial\tilde{J}_{i}\left(x_{i},u_{i}\right)}{\partial u_{i}}\delta u_{i} \\ &\quad+\frac{1}{2}\delta x_{i}^{T}\frac{\partial^{2}\tilde{J}_{i}\left(x_{i},u_{i}\right)}{\partial x_{i}^{2}}\delta x_{i}+\frac{1}{2}\delta u_{i}^{T}\frac{\partial^{2}\tilde{J}_{i}\left(x_{i},u_{i}\right)}{\partial u_{i}^{2}}\delta u_{i} \\ &\quad+\frac{1}{2}\delta x_{i}^{T}\frac{\partial^{2}\tilde{J}_{i}\left(x_{i},u_{i}\right)}{\partial x_{i}\partial u_{i}}\delta u_{i}+\frac{1}{2}\delta u_{i}^{T}\frac{\partial^{2}\tilde{J}_{i}\left(x_{i},u_{i}\right)}{\partial u_{i}\partial x_{i}}\delta x_{i} \\ &\triangleq \tilde{J}_{i}\left(x_{i},u_{i}\right)+Q_{x_{i}}^{T}\delta x_{i}+Q_{u_{i}}^{T}\delta u_{i}+\frac{1}{2}\delta x_{i}^{T}Q_{x_{i}^{2}}\delta x_{i} \\ &\quad+\frac{1}{2}\delta u_{i}^{T}Q_{u_{i}^{2}}\delta u_{i}+\frac{1}{2}\delta x_{i}^{T}Q_{x_{i} u_{i}}\delta u_{i} + \frac{1}{2}\delta u_{i}^{T}Q_{u_{i} x_{i}}^{T}\delta x_{i} \end{align*}\qquad(9)$
根据公式(5)，对 $\tilde{J}\left( x,u \right)$ 做泰勒展开有：
$\begin{align*} \tilde{J}_{i}(x_{i}, u_{i}) + \delta \tilde{J}_{i}(x_{i}, u_{i}) &= \tilde{J}_{i}(x_{i} + \delta x_{i}, u_{i} + \delta u_{i}) \\ &= l(x_{i} + \delta x_{i}, u_{i} + \delta u_{i}) + \hat{J}_{i+1}(f(x_{i} + \delta x_{i}, u_{i} + \delta u_{i})) \end{align*}\qquad(10)$
其中，即时代价展开为：
$\begin{align*} l(x_{i}+\delta x_{i},u_{i}+\delta u_{i}) &= l(x_{i},u_{i})+\delta l(x_{i},u_{i}) \\ &\approx l(x_{i},u_{i})+\frac{\partial l(x_{i},u_{i})}{\partial x_{i}}\delta x_{i}+\frac{\partial l(x_{i},u_{i})}{\partial u_{i}}\delta u_{i} \\ &\quad+\frac{1}{2}\delta x_{i}^{T}\frac{\partial^{2} l(x_{i},u_{i})}{\partial x_{i}^{2}}\delta x_{i}+\frac{1}{2}\delta u_{i}^{T}\frac{\partial^{2} l(x_{i},u_{i})}{\partial u_{i}^{2}}\delta u_{i} \\ &\quad+\frac{1}{2}\delta x_{i}^{T}\frac{\partial^{2} l(x_{i},u_{i})}{\partial x_{i}\partial u_{i}}\delta u_{i}+\frac{1}{2}\delta u_{i}^{T}\frac{\partial^{2} l(x_{i},u_{i})}{\partial u_{i}\partial x_{i}}\delta x_{i} \\ &\triangleq l(x_{i},u_{i})+l_{x_{i}}\delta x_{i}+l_{u_{i}}\delta u_{i}+\frac{1}{2}\delta x_{i}^{T} l_{x_{i}^{2}}\delta x_{i} \\ &\quad+\frac{1}{2}\delta u_{i}^{T} l_{u_{i}^{2}}\delta u_{i}+\frac{1}{2}\delta x_{i}^{T} l_{x_{i} u_{i}}\delta u_{i}+\frac{1}{2}\delta u_{i}^{T} l_{u_{i} x_{i}}\delta x_{i} \end{align*}\qquad(11)$
下一时刻的状态值函数展开为(这里参考式(8))：
$\begin{align*} \hat{J}_{i+1}\left(f\left(x_{i}+\delta x_{i}, u_{i}+\delta u_{i}\right)\right) &= \hat{J}_{i+1}\left(f\left(x_{i}, u_{i}\right)+\delta f\left(x_{i}, u_{i}\right)\right) \\ &\approx \hat{J}_{i+1}\left(f\left(x_{i}, u_{i}\right)\right)+\frac{\partial\hat{J}_{i+1}\left(x_{i+1}\right)}{\partial x_{i+1}}\delta f\left(x_{i}, u_{i}\right) \\ &\quad+\frac{1}{2}\delta f\left(x_{i}, u_{i}\right)^{T}\frac{\partial^{2}\hat{J}_{i+1}\left(x_{i+1}\right)}{\partial x_{i+1}^{2}}\delta f\left(x_{i}, u_{i}\right) \\ &= \hat{J}_{i+1}\left(f\left(x_{i}, u_{i}\right)\right)+p_{i+1}^{T}\left(A_{i}\delta x_{i}+B_{i}\delta u_{i}\right) \\ &\quad+\frac{1}{2}\left(A_{i}\delta x_{i}+B_{i}\delta u_{i}\right)^{T} P_{i+1}\left(A_{i}\delta x_{i}+B_{i}\delta u_{i}\right) \\ &= \hat{J}_{i+1}\left(f\left(x_{i}, u_{i}\right)\right)+p_{i+1}^{T} A_{i}\delta x_{i}+p_{i+1}^{T} B_{i}\delta u_{i} \\ &\quad+\frac{1}{2}\delta x_{i}^{T} A_{i}^{T} P_{i+1} A_{i}\delta x_{i}+\frac{1}{2}\delta x_{i}^{T} A_{i}^{T} P_{i+1} B_{i}\delta u_{i} \\ &\quad+\frac{1}{2}\delta u_{i}^{T} B_{i}^{T} P_{i+1} A_{i}\delta x_{i}+\frac{1}{2}\delta u_{i}^{T} B_{i}^{T} P_{i+1} B_{i}\delta u_{i} \end{align*}\qquad(12)$
其中， $p_{i} = \frac{\partial \hat{J}_{i}(x_{i})}{\partial x_{i}}$ ， $P_{i} = \frac{\partial^2 \hat{J}_{i}(x_{i})}{\partial x_{i}^2}$ 。联合(8)(9)(10)(11)(12)可得 $\tilde{J}_{i}(x_{i}, u_{i})$ 在 $x_{i}, u_{i})$ 附近泰勒展开的多项式系数矩阵：
$\begin{align*} Q_{x_{i}} &= l_{x_{i}} + p_{i+1}^{T} A_{i} \\ Q_{u_{i}} &= l_{u_{i}} + p_{i+1}^{T} B_{i} \\ Q_{x_{i}^{2}} &= l_{x_{i}^{2}} + A_{i}^{T} P_{i+1} A_{i} \\ Q_{x_{i} u_{i}} &= l_{x_{i} u_{i}} + A_{i}^{T} P_{i+1} B_{i} \\ Q_{u_{i} x_{i}} &= l_{u_{i} x_{i}} + B_{i}^{T} P_{i+1} A_{i} \\ Q_{u_{i}^{2}} &= l_{u_{i}^{2}} + B_{i}^{T} P_{i+1} B_{i} \tag{13} \end{align*}$
一般来说有 $Q_{x_{i} u_{i}}=Q_{x_{i} u_{i}}^{T}$ ，根据式(9)，如果当前状态 $x_{i}$ ，输入是 $u_{i}$ ，希望 $x_{i} + \delta x_{i}$ 的代价值函数 $\tilde{J}_{i}\left(x_{i}+\delta x_{i},u_{i}+\delta u_{i}\right)$ 最小，则需要使 $\delta \tilde{J}_{i}(x_{i}, u_{i})$ 最小，有：
$\begin{align*} \delta \hat{J}_i(x_i) &= \min_{\delta u_i} \delta \tilde{J}_i(x_i, u_i) \\ &= \min_{\delta u_i} \left\{ Q_{x_i}^T \delta x_i + Q_{u_i}^T \delta u_i + \frac{1}{2} \delta x_i^T Q_{x_i^2} \delta x_i + \frac{1}{2} \delta u_i^T Q_{u_i^2} \delta u_i \right. \\ &\quad \left. + \frac{1}{2} \delta x_i^T Q_{x_i u_i} \delta u_i + \frac{1}{2} \delta u_i^T Q_{u_i x_i}^T \delta x_i \right\} \\ &= \min_{\delta u_i} \delta \tilde{J}_i(x_i, u_i) \end{align*} \qquad(14)$
$\delta \tilde{J}_{i}(x_{i}, u_{i})$ 对 $\delta u_{i}$ 求偏导，使其取得最小值得到 $\delta \hat{J}_i(x_i)$ ，并让其等于0有：
$\begin{align*} \frac{\partial \delta \tilde{J}_i(x_i)}{\partial \delta u_i} &= Q_{u_i} + \frac{1}{2} Q_{u_i x_i}^T \delta x_i + Q_{u_i^2} \delta u_i + \frac{1}{2} Q_{x_i u_i} \delta x_i \\ &= Q_{u_i} + Q_{u_i x_i} \delta x_i + Q_{u_i^2} \delta u_i = 0 \end{align*} \qquad(15)$
解出来在 $i$ 时刻的最优控制输入的变化量：
$\begin{align*} \delta \hat{u}_i^* &= -Q_{u_i^2}^{-1} \left( Q_{u_i} + Q_{u_i x_i} \delta x_i \right) \\ &\triangleq K_i \delta x_i + d_i \end{align*} \qquad(16)$
iLQR的核心思想就是在给定初解 $u_i$ 的基础上，求最优的补偿输入 $\delta \hat{u}_i^*$ 使得在 $u_i+\delta \hat{u}_i^*$ 的作用下获得更优的解，并循环这个过程。
$K_i$ 为反馈增益， $d_i$ 为前馈增益。将式(16)代入到式(9)整理得：
$\begin{align*} \delta \tilde{J}_i(x_i, u_i^*) &=Q_{x_i}^T \delta x_i + Q_{u_i}^T (K_i \delta x_i + d_i) + \frac{1}{2} \delta x_i^T Q_{x_i^2} \delta x_i \\ &\quad+ \frac{1}{2} (K_i \delta x_i + d_i)^T Q_{u_i^2} (K_i \delta x_i + d_i) \\ &\quad + \frac{1}{2} \delta x_i^T Q_{x_i u_i} (K_i \delta x_i + d_i) + \frac{1}{2} (K_i \delta x_i + d_i)^T Q_{u_i x_i} \delta x_i \\ &= \frac{1}{2} \delta x_i^T [Q_{x_i^2} + K_i^T Q_{u_i^2} K_i + Q_{x_i u_i} K_i + K_i^T Q_{u_i x_i}] \delta x_i \\ &\quad + [Q_{x_i} + K_i^T Q_{u_i^2} d_i + Q_{x_i u_i} d_i + K_i^T Q_{u_i} d_i]^T \delta x_i \\ &\quad + \frac{1}{2} d_i^T Q_{u_i^2} d_i + Q_{u_i}^T d_i \end{align*} \qquad(17)$
这里需要注意的是 $\delta \tilde{J}_i(x_i, u_i^*)=\delta \hat{J}_i(x_i)$ ，结合式(8)式(17)可以得到 $p_{i}$ 和 $P_{i}$ 的递推关系式：
$\begin{align*} p_i &= Q_{x_i} + K_i^T Q_{u_i^2} d_i + Q_{x_i u_i} d_i + K_i^T Q_u \\ P_i &= Q_{x_i^2} + K_i^T Q_{u_i^2} K_i + Q_{x_i u_i} K_i + K_i^T Q_{u_i x_i} \\ \Delta \hat{J}_i &= \frac{1}{2} d_i^T Q_{u_i^2} d_i + Q_{u_i}^T d_i \end{align*} \qquad(18)$
其中， $p_{N}^T = \frac{\partial l_f(x_{N})}{\partial x_{N}}$ ， $P_{N} = \frac{\partial^2 l_f(x_{N})}{\partial x_{N}^2}$ ； $\Delta \hat{J}_i$ 是 $\hat{J}_i(x_i)$ 二阶泰勒展开的高阶无穷小项，与 $\delta x$ 无关，不影响 $\delta u$ 的计算。
从上面的推导可以看出，如果确定 $p_{N}^T$ 和 $P_{N}$ ，就可以通过式(18)来递推得到 $p_{N-1}^T$ 和 $P_{N-1}$ ，之所以有backward pass，就是为了从 $N - 1$ 时刻，一直倒推到当前时刻，求出每个时刻的最优控制输入的变化量。

1.3 ilqr算法迭代过程

Backward pass
初始化 $p_{N}^T = \frac{\partial l_f(x_{N})}{\partial x_{N}}$ ， $P_{N} = \frac{\partial^2 l_f(x_{N})}{\partial x_{N}^2}$ ；
$f or$ $i = N - 1, ..., 0$
根据式(13)式(18)更新 $p_{i} \leftarrow p_{i+1}$ ， $P_{i} \leftarrow P_{i+1}$
根据式(16)计算 $K_i = Q_{u_i^2}^{-1} Q_{u_i x_i}$ ， $d_i = Q_{u_i^2}^{-1} Q_{u_i}$
Forward pass
初始条件 $x_{0}$ ，对于任意迭代次数 $j$ 有 $x_{0}^j = x_{0}^{j-1}$ ，这里也好理解，每次迭代都是基于当前时刻的状态，所以不会变
$f or$ $i = 0, ..., N - 1$
$\delta x_i = x_i^j - x_i^{j-1}$ ， $\delta x_i$ 的含义就是当前轮迭代解和上一轮迭代解在 $i$ 时刻的差值(是不是有牛顿法那味了)
$\delta \hat{u}_i^* = K_i \delta x_i + d_i$ ，更新控制输入 $u_{i}^j = u_{i}^{j-1} + \delta\hat{u}_i^*$
更新状态 $x_{i+1}^j = f(x_{i}^{j},u_{i}^{j})$
满足 $\left| \frac{J^{(j+1)} - J^{(j)}}{J^{(j)}} \right| < \epsilon$ 或者迭代达到最大轮次终止迭代。