ADMM算法

ADMM（交替方向乘子法）是一种解决变量可分离凸优化问题的简单算法，具有求解速度快，收敛性能好的特点。ADMM可以将原问题转换为几个子问题，分别并行求解，最后协调各个子问题的解，得到原问题最优解。

算法流程

ADMM算法主要用于解决如下凸优化问题：
$\argmin_{x,y} f(x)+g(y) \\ s.t.\quad Ax+By=c$
其中， $\in R^n$ 为目标函数 $f (x)$ 的优化变量， $\in R^{m}$ 为目标函数 $g (y)$ 的优化变量， $A\in R^{p\times n}$ ， $B\in R^{p\times m}$ ， $c\in R^p$ 。函数 $f$ ， $g$ 是凸函数。

首先写出他的增广拉格朗日函数：
$L_{\rho}(x,y,\lambda) = f(x)+g(y)+\lambda^T(Ax+By-c)+\rho/2\Vert Ax+By-c\Vert ^2_2, \quad \rho>0$
$\lambda \in R^p$ 是拉格朗日乘子， $\rho$ 为惩罚参数且 $\rho>0$ 。
利用ADMM算法求解：
$x_{k+1} = \argmin_x L_{\rho}(x,y_k,\lambda_k)\\ y_{k+1} = \argmin_y L_{\rho}(x_{k+1},y,\lambda_k)\\ \lambda_{k+1} = \lambda_k+\rho(Ax_{k+1}+By_{k+1}-c)$
实际上就是将 $x$ 和 $y$ 的联合优化过程分开了。
利用放缩对偶变量进行化简：
根据向量乘法公式 $\Vert a+b\Vert_2^2 = \Vert a \Vert_2^2+2a^Tb+\Vert b \Vert_2^2$ 得 $2a^Tb +\Vert b \Vert_2^2= \Vert a+b\Vert^2_2-\Vert a \Vert_2^2$ ，所以 $L_{\rho}(x,y,\lambda)$ 中的线性项 $\lambda^T(Ax+By-c)$ 和二次项 $\rho/2\Vert Ax+By-c\Vert ^2_2$ 可以进行合并：
$\lambda^T(Ax+By-c)+\rho/2\Vert Ax+By-c\Vert ^2_2 \\ \begin{array}{l} =\frac{\rho}2\left ( 2\frac{\lambda^T}{\rho}(Ax+By-c)+\Vert Ax+By-c\Vert ^2_2\right ) \\ =\frac{\rho}2(\Vert Ax+By-c+\lambda^T/\rho\Vert_2^2 - \Vert \lambda/\rho\Vert_2^2 \end{array}$
由于最后一项 $\Vert \lambda/\rho\Vert_2^2$ 与 $x$ ， $y$ 无关，因此不影响 $x$ 和 $y$ 子问题的求解，可以在求解子问题时省略。
令放缩对偶变量为 $u=\lambda/\rho$ ，则ADMM算法可以改写为以下形式：
$x_{k+1} = \argmin_x f(x)+\rho/2\Vert Ax+By_k-c+u_k\Vert_2^2\\ y_{k+1} = \argmin_x g(y)+\rho/2\Vert Ax_{k+1}+By-c+u_k\Vert_2^2\\ u_{k+1} = u_k+Ax_{k+1}+By_{k+1}-c$
论文中经常利用放缩形式的ADMM算法，而刚开始接触ADMM时并不知道这种形式，所以导致很长一段时间我没看懂论文里公式是怎么推导的，这里对他的推导进行了一个总结。

在压缩图像重建中的应用

压缩快照成像过程
以上是压缩快照图像的成像过程，可以用以下公式来表示：
$\pmb{y}= \pmb{H}\pmb{x}+\pmb{z}$
$\pmb{y}$ 代表观测图像， $\pmb{x}$ 代表理想的干净图像， $H$ 代表退化矩阵，是已知的， $\pmb z$ 代表观测噪声。
作者结合了深度图像先验以及去噪先验提出了以下重建模型：

其中 $TΘ(e) \pmb{T_\Theta(e)}$ 是一个未训练的神经网络(参考论文Deep Image Prior)，用于提取图像先验， $R(x) \pmb{R(x)}$ 是去噪先验。以上优化模型可以利用ADMM算法进行求解，这里的第一项是保真项，后两项是先验项。然后引入放缩对偶变量 $\pmb{b}$ ，就能得到下面的式子：
增广拉格朗日函数
再利用ADMM算法就可以将上述问题解耦为关于 $x,Θ,b \pmb{x,\Theta,b}$ 的三个子问题：
$\begin{array}{l} \hat{\boldsymbol{\Theta}}=\argmin\limits_{\Theta} \frac{\rho}{2}\left\|\boldsymbol{y}-\boldsymbol{H} \boldsymbol{T}_{\boldsymbol{\Theta}}(\boldsymbol{e})\right\|_{2}^{2}+\frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{T}_{\boldsymbol{\Theta}}(\boldsymbol{e})-\boldsymbol{b}\right\|_{2}^{2} \end{array}\\ \hat{\boldsymbol{x}}=\argmin_{\boldsymbol{x}} \frac{1}{2}\|\boldsymbol{y}-\boldsymbol{H} \boldsymbol{x}\|_{2}^{2}+\lambda R(\boldsymbol{x})+\frac{\mu}{2}\left\|\boldsymbol{x}-\boldsymbol{T}_{\boldsymbol{\Theta}}(\boldsymbol{e})-\boldsymbol{b}\right\|_{2}^{2} \\ \boldsymbol{b}^{k+1}=\boldsymbol{b}^{k}-\left(\boldsymbol{x}^{k}-\boldsymbol{T}_{\boldsymbol{\Theta}^{k}}(\boldsymbol{e})\right)$
关于 $\Theta$ 的子问题利用DIP网络求解，这个式子可以直接作为他的loss函数，关于x的子问题含有 $R (x)$ 先验项，不便于直接求解，可以再利用ADMM算法进行分解，相当于ADMM里嵌套了一个ADMM，具体可以参考原论文。
论文链接: Self-supervised Neural Networks for Spectral Snapshot Compressive Imaging
参考网址：Anna的知乎回答：ADMM算法的详细推导过程是什么