在这篇blog中我们一起来阅读一下 On the convergence of FedAvg on non-iid data 这篇 ICLR 2020 的paper.

主要目的

本文的主要目的是证明联邦学习算法的收敛性。与之前其他工作中的证明不同，本文的证明更贴近于实际联邦学习的场景。特别的，

所有用户的数据non-iid分布；
每次只有一部分用户参与FedAvg.

系统模型

考虑一个联邦学习系统 with $N$ 用户和一个PS. 每用户有一些local data，训练发生在用户处，每隔一段时间用户上传自己学习的模型来做FedAvg.

将第 $k$ 个用户的数据记为 $\bm{x}=\{x_{k,1},x_{k,2},x_{k,3},...,x_{k,n_k}\}$ , 每个人都有一个学习目标，即最小化 loss 函数
$F_k(\bm{w})=\sum_{j=1}^{n_k}\ell_k(\bm{w},x_{k,j}) \tag{1}$

其中 $\ell_k(\bm{w},x_{k,j})$ 是每个训练数据的 loss. $F_k(\bm{w})$ 相当于是每个人所有数据上的loss，如果仅仅做local training, 那最终每个用户会 arrive at
$\text{Local minimum}:~~~~F_k^*=\min_{\bm{w}} F_k$

而FL考虑的是一种分布式的优化，即我们要minimize的目标函数
$\text{Global minimum}:~~~~F^*=\min_{\bm{w}} \sum_{k=1}^{N} p_k F_k(\bm{w})$

其中 $p_k$ 是一个distribution用来表示每个用户所占的权重。换句话说，我们最终想找到一个共同的 $\bm{w}$ 来最小化每个用户 loss 的一个加权和。

To this end, 本文考虑FedAvg, 并证明其能收敛到 global optimum.

FedAvg 的具体步骤描述如下：首先，我们按单次SGD为一个时间刻度把时间轴分为离散的slot $t = 1, 2, 3, . . ., T$ , 即总共进行 $T$ 次 local SGD, 每次 SGD每个用户从自己的数据集中随机均匀的采样出一个数据来进行训练。特别的，每隔 $E$ slots, 所有 active users 把自己的本地参数发送给PS进行 FedAvg，之后PS会把avg后的参数发还给各个用户。以上模型用数学语言可以写为以下两步：

Local training

每个用户在第 $t$ 个时刻基于 $\bm{w}^k_t$ 进行 SGD, 得到
$\bm{v}^k_{t+1}=\bm{w}^k_t-\eta_{t}\nabla \ell_k(\bm{w}^k_t,\xi^k_t) \tag{2}$

其中 $\xi^k_t$ 是从本地数据中随机采样出的一个sample。注意，这样单步SGD得到的 $\bm{v}^k_{t+1}$ 只是一个中间变量而不是下一时刻的 $\bm{w}^k_{t+1}$ ，因为我们还有可能做 FedAvg。更具体地说，在 $E$ 的非整数倍slot上，
$\bm{w}^k_{t+1}=\bm{v}^k_{t+1},~~~~\text{if}~~t+1\notin\mathcal{J}_E=\{nE:n=1,2,...\}.$

而在 $E$ 的整数倍slot上，我们还得额外做 FedAvg.

FedAvg

若下一时刻是 $E$ 的整数倍周期，即 $t+1\in\mathcal{J}_E=\{nE:n=1,2,...\}$ ，我们进行FedAvg，此时
$\bm{w}^k_{t+1}=\sum_{k=1}^N p_k \bm{v}^k_{t+1} \tag{3}$

注意，这里面我们假设每个人都参与更新，稍后我们会release这个条件允许PS按照某种分布采样一部分人进行更新。

小结

如果我们从每个用户的角度看，它的参数变化可以用下图归纳 ( $E = 3$ )。

在这里插入图片描述

几个假设

本文的推导基于以下假设。

Assumption 1 ( $L$ -smoothness). 所有用户的 loss 函数 ${F^k:k=1,2,...,N\}$ 都是 L-smooth.
$F^k(\bm{x_2})-F^k(\bm{x_1})\leq \nabla f(\bm{x_1})^\top (\bm{x_2-x_1}) + \frac{L}{2}\|\bm{x_2-x_1}\|^2$

Assumption 2 ( $\mu$ -strongly convex). 所有用户的 loss 函数 ${F^k:k=1,2,...,N\}$ 都是 $\mu$ -strongly convex.
$F^k(\bm{x_2})-F^k(\bm{x_1})\geq \nabla f(\bm{x_1})^\top (\bm{x_2-x_1}) + \frac{\mu}{2}\|\bm{x_2-x_1}\|^2$

以上两个假设对 loss 函数的基本性质做了一些要求。即，函数变化的速度不会太快 ( $L$ -smooth) 也不会太慢 ( $\mu$ -strongly convex). 这两个假设下函数更详细的属性可参考 [1]. 等下证明时用到了哪个定义或者属性我们会再提及。

一般文献用这两个定义的原因是，我们可以把 bound " $F$ 和最优 $F^*$ 之间距离" 的问题转化为 bound " $w$ 和最优 $\bm{w}^*$ 之间距离" 的问题。即，只要明确了 $w$ 和 $\bm{w}^*$ 之间距离，就可以相应的把 $F$ 和 $F^*$ 之间的距离大概确定。

Assumption 3 (bounded variance of the stochastic gradients). 每个用户进行 SGD 时，其均匀采样的sample的随机梯度的 variance is bounded by $\sigma^2_k$ :
$\mathbb{E}\| \nabla \ell_k(\bm{w}^k,\xi^k) - \nabla F^k(\bm{w}) \|^2\leq \sigma^2_k$

Assumption 4 (bounded stochastic gradient). 每个用户的随机梯度的模值也是bounded:
$\mathbb{E}\| \nabla \ell_k(\bm{w}^k,\xi^k) \|^2\leq G^2$

Full device participation

一些定义

作者首先证明了 FedAvg 在所有用户共同参与下的收敛性。

首先，基于上图 $\bm{v}^k$ 和 $\bm{w}^k$ 两个序列，我们定义两个虚拟序列
$\bar{\bm{v}}_t=\sum_{k=1}^N p_k \bm{v}^k_{t},~~~~~~~~\bar{\bm{w}}_t=\sum_{k=1}^N p_k \bm{w}^k_{t}.$

实际上这两个序列是 $\bm{v}^k$ 和 $\bm{w}^k$ 自身在所有用户上的加权和。特别的， $\bar{\bm{v}}_t =\bar{\bm{w}}_t$ , 因为在非 $n E$ slot他们完全相等，在 $n E$ slot, 所有人的 $\bm{w}^k_{nE}$ 都是相等的且等于 $\bar{\bm{v}}_{nE}$ , 即
$\bm{w}^1_{nE}=\bm{w}^2_{nE}=...=\bm{w}^N_{nE}=\bar{\bm{w}}_{nE}=\bar{\bm{v}}_{nE}$ .

而且，我们还可以把连续的两个 slots $t$ 和 $t + 1$ 联系起来，因为我们知道
$\bm{v}^k_{t+1}=\bm{w}^k_{t} - \eta_t \nabla \ell(\bm{w^k_t}, \xi^k_t) \tag{4}$

定义单次SGD每个用户 gradient 的加权和
$\bm{g}_t=\sum_{k=1}^{N}p_k \nabla\ell(\bm{w^k_t}, \xi^k_t) \tag{5}$

和单次steepest gradient descent (使用所有data) 每个用户 gradient 的加权和
$\bar{\bm{g}}_t=\sum_{k=1}^{N}p_k \nabla F^k(\bm{w_t}) =\sum_{k=1}^{N}p_k \frac{1}{n_k}\sum_{j=1}^{n_k}\nabla \ell(\bm{w^k_t}, x_{k,j}) =\mathbb{E} [\bm{g}_t] \tag{6}$

其中 $\mathbb{E}$ averages over 所有用户选择的sample。

给定 $\bm{g}_t$ , 我们可以把 (4) 两边用 $p_k$ 加权和
$\bar{\bm{v}}_{t+1}=\bar{\bm{w}}_{t} - \eta_t \bm{g}_t \tag{7}$

Lemmas

我们跟随作者的思路，先证明一些 lemmas.

Lemma 1 (Results of one-step SGD). Assuming assumptions 1 and 2. If $\eta_t\leq \frac{1}{4L}$ , we have
$\mathbb{E}\|\bar{\bm{v}}_{t+1}-\bm{w}^* \|^2 \leq (1-\eta_t\mu)\mathbb{E}\|\bar{\bm{w}}_t-\bm{w}^* \|^2 + \eta^2_t\mathbb{E}\|\bm{g}_t-\bar{\bm{g}}_t \|^2+6L\eta^2_t\Gamma+2\mathbb{E}\sum_{k=1}^N p_k\|\bar{\bm{w}}_t-\bm{w}^t_k\|^2 \tag{8}$

where $\Gamma=F^*-\sum_{k=1}^{N} p_k F^*_k\geq 0$ .

Lemma 1 显然是很重要的，理解它对于后面的证明大有帮助。我们首先来看看其中的变量. 在某个slot $t$ ,

每个用户的参数为 $\bm{w}^k_t$ , 平均参数为 $\bar{\bm{w}}_t$ (averaged over all users).
每个用户SGD更新的方向是 $\nabla\ell(\bm{w^k_t},\xi^k_t)$ , 平均方向是 $\bm{g}^k_t$ (averaged over all users), 再 average over all data 的平均方向是 $\bar{\bm{g}}_t$ .
每个用户更新完后得到 $\bm{v}^k_{t+1}$ , 平均参数是 $\bar{v}_{t+1}$ (averaged over all users).

因此，如果 $E = 1$ 即每个时刻都做 FedAvg 的话，global 参数的演变历程其实就是 $\bar{\bm{w}}_t$ 沿着 $\bm{g}_t$ 的方向演变成 $\bar{v}_{t+1}$ 的过程：
$\bar{\bm{w}}_{t+1}=\bar{\bm{v}}_{t+1}=\sum_{k=1}^{N}p_k\bm{v}^k_{t+1}=\sum_{k=1}^{N}p_k(\bm{w}^k_{t}-\eta_t\nabla \ell_k) =\sum_{k=1}^{N}p_k\bm{w}^k_{t}-\eta_t\sum_{k=1}^{N}p_k \nabla \ell_k=\bar{\bm{w}}_{t}-\eta_t{\bm{g}_t}$

当 $E > 1$ 时, 虽然我们并不是在每个时刻 averaging, 但是想象中这个平均的更新轨迹依然存在。而Lemma就是在bound这个平均运动轨迹每次更新后的 $\bar{\bm{v}}$ 与最优参数 $\bm{w}^*$ 的距离。

基于以上的定义，Lemma 1在干什么尼？显然，作者想基于 $t$ 时刻的所有信息预测经过一步SGD之后 $\bar{\bm{v}}_{t+1}$ 与 $\bm{w}^*$ 的距离。这个距离可以用以下4项来bound (分别对应Lemma 1中的4项):

$t$ 时刻，即SGD之前， $\bar{\bm{w}}_{t}$ 与 $\bm{w}^*$ 的距离；
单步SGD的更新方向的variance；
heterogeneity $\Gamma$ ;
$t$ 时刻所有用户参数的variance。

Proof. 整个证明比较tedious，建议理解为重。

为了证明这个bound，我们从 (8) 式左侧开始推:

其中第一步直接由定义得出。特别的，作者引入了真实梯度 $\bar{\bm{g}}_t$ (gradient averaged over users and all data) 来替换掉随机梯度 $\bm{g}_t$ (stochastic gradient averaged only over users)，因为 $\bar{\bm{g}}_t$ 更好处理。第二步由向量模的基本运算得到 (想回顾的同学 [2] 中有)。特别的，因为 $\mathbb{E}(\bm{g}_t -\bar{\bm{g}}_t)=0$ ，所以中间项 $A_2$ 的均值为0.

Bound $A_1$ : $A_1$ 可以进一步写为

好，我们现在已经成功剥离出上一时刻的 $\bar{\bm{w}}_t$ 与 $\bm{w}^*$ 的距离了 (即第一项)。接下来继续 bound ${B}_1$ and ${B}_2$ .

Bound $B_2$ : $B_2$ 可以写为
$\eta^2_t\|\bar{\bm{g}}_t \|^2 = \eta^2_t\left\| \sum_{k=1}^N p_k \nabla F_k(\bm{w}^k_t) \right\|^2 \leq \eta^2_t \sum_{k=1}^N p_k \left\| \nabla F_k(\bm{w}^k_t) \right\|^2$

因此我们需要 bound $\left\| \nabla F^k(\bm{w}^k_t) \right\|^2$ , 即任意一个用户 loss 函数 (所有数据的loss) 的梯度. 假设1和2中，我们用俩二次函数bound了每个用户loss的梯度 (即 $\mu$ strongly convex 和 $L$ smooth), 这里我们可以用 $L$ smoothness 来bound $\left\| \nabla F^k(\bm{w}^k_t) \right\|^2$ .
在这里插入图片描述此式成立原因见 Definition 4.1 in [1]. 因此， $B_2$ 可以被 bound 为

Bound $B_1$ : $B_1$ 可以写为

这里作者引入一个中间变量 $\bm{w}^k_t$ 。这样一来, 我们便可以从分析 $\bar{\bm{w}}_t-\bm{w}^*$ 转变为分析 $\bar{\bm{w}}_t-\bm{w}^k_t$ 和 $\bm{w}^k_t-\bm{w}^*$ .

TBD.

Lemma 2. Assuming assumption 3, we have
$\mathbb{E}\|\bm{g}_t-\bar{\bm{g}}_t \|^2\leq \sum_{k=1}^{N}p^2_k\sigma^2_k$

Lemma 3. Assume assumption 4. If $\eta_t$ is non-increasing and $\eta_t\leq 2 \eta_{t+E}$ , then
$\mathbb{E}\sum_{k=1}^N p_k\|\bar{\bm{w}}_t-\bm{w}^t_k\|^2 \leq 4 \eta^2_t(E-1)^2G^2$

Theorem 1: Convergence

将 Lemmas 2, 3 的结果代入 Lemma 1，我们即可得到
$\mathbb{E}\|\bar{\bm{w}}_{t+1}-\bm{w}^* \|^2 \leq (1-\eta_t\mu)\mathbb{E}\|\bar{\bm{w}}_t-\bm{w}^* \|^2 + \eta^2_t B \tag{9}$

其中
$\sum_{k=1}^{N}p^2_k\sigma^2_k+6L \Gamma+8(E-1)^2G^2$

换句话说，如果我们看 $\bar{\bm{w}}_{t}$ 这个虚拟序列，它距离最优 $\bm{w}^*$ 的距离可以由 (9) 式 recursively 刻画。那么下面我们唯一需要做的，就是证明这个距离序列是逐渐减小的即可。

令 $\Delta_{t}=\mathbb{E}\|\bar{\bm{w}}_{t}-\bm{w}^* \|^2$ , (9) 式可简写为
$\Delta_{t+1}\leq (1-\eta_t\mu)\Delta_t +\eta^2_t B$

此式成立的两个条件: 1) $\eta_t\leq \frac{1}{4L}$ ; 2) $\eta_t$ is non-increasing and $\eta_t\leq 2 \eta_{t+E}$ . 下面，我们来选取一组符合这两个条件的 $\eta_t$ 来证明 $\Delta_t$ 是随时间逐渐减小的。

首先，选取 $\eta_t=\frac{\beta}{t+\gamma}$ . 它是decreasing的，所以额外两个参数 $\beta,\gamma$ 需要确保 $\eta_1=\frac{\beta}{1+\gamma}\leq\frac{1}{4L}$ 和 $\frac{\beta}{t+\gamma}<2\frac{\beta}{t+E+\gamma}$ 才行。我们额外还希望 $0<\eta_1\mu<1$ 这样 $\Delta_t$ 前的系数就小于 $1$ 了.