超定方程组的最小二乘解

$\qquad$ 看了很多关于最小二乘解的博客，事实上都没有找到自己想要的证明过程，后来学了矩阵函数时才彻底搞明白了这件事情，所以和大家简单分享如下：
$\qquad$ 已知矩阵 $A_{m×n}(m＞n)$ 是列满秩的，则超定方程组 $A x = B$ 的最小二乘解为
$x=(A^TA)^{-1}A^TB$
$\qquad$ 需要说明的是根据线性代数的知识， $rank(A^TA)=rank(AA^T)=rank(A)=n$ ，而 $A^TA$ 的维数是n×n，所以 $A^TA$ 一定可逆。事实上MATLAB矩阵求伪逆用的也是这个公式（只不过令 $B=E_m$ ）。
$\qquad$ 最小二乘法是让近似解代入的等式右边的 $B^*$ 与 $B$ 的度量最小，为了和向量的模长兼容，这里取的是矩阵的Frobenius范数（详见这里）因此问题转换为
$x^*=arg\min_{x}||B^*-B||_F\\ s.t.Ax^*=B^*$
为了简便起见，我们仅讨论B是向量的情况（事实上矩阵的情况也可以通过向量化的方法加以解决），即 $A x = b$ 。

该问题也等价为
$F(x)=(Ax-b)^T(Ax-b)\\ x^*=arg\min_{x}F(x)$
将 $F (x)$ 展开如下：
$F(x)=(Ax−b)T(Ax−b)=(xTA−bT)(Ax−b)=xT(ATA)x−bTAx−ATbx+bTb=xT(ATA)x−2xT(ATb)+bTb\begin{aligned} F(x)&=(Ax-b)^T(Ax-b)\\ &=(x^TA-b^T)(Ax-b)\\ &=x^T(A^TA)x-b^TAx-A^Tbx+b^Tb\\ &=x^T(A^TA)x-2x^T(A^Tb)+b^Tb \end{aligned}$
需要说明的是 $b^TAx$ 是数，因此它等于本身的转置等于 $A^Tbx$ ，下面就是求 $F (x)$ 的最小值，由于 $AA^T$ 是半正定的（因为 $xT(AAT)x=(ATx)T(ATx)≥0x^T(AA^T)x=(A^Tx)^T(A^Tx)\geq0$ ），而因为之前我们证明了 $A$ 列满秩时 $A^TA$ 可逆，因此 $A^TA$ 必定没有零特征值，所以 $AA^T$ 是正定的。这样， $F (x)$ 的极值点就一定是极小值点（即严格凸优化问题）。下面无非就是求导的问题：
$∂F(x)∂x=(ATA+(ATA)T)x−2(ATb)=2(ATA)x−2(ATb)\frac{\partial F(x)}{\partial x}=(A^TA+(A^TA)^T)x-2(A^Tb)\\= 2(A^TA)x-2(A^Tb)$
令其等于0，求得
$x^*=(A^TA)^{-1}A^Tb$
这就是 $F (x)$ 的极小值点即最小二乘解。
不清楚矩阵函数求导的同志可以看一下如下的公式:
$dA(x)B(x)dx=dA(x)xB(x)+A(x)dB(x)dxdxTAxdx=(A+AT)xdCTxdx=dxTCdx=C\begin{aligned} &\frac{dA(x)B(x)}{dx}=\frac{dA(x)}{x}B(x)+A(x)\frac{dB(x)}{dx}\\ &\frac{dx^TAx}{dx}=(A+A^T)x\\ &\frac{dC^Tx}{dx}=\frac{dx^TC}{dx}=C \end{aligned}$