个性化联邦学习所面临的挑战:
1、Federated Learning with Personalization Layers
Li等人(2019)最近发表的综述文章阐述了联邦学习系统面临的许多独特挑战。其中一个挑战是,不同客户端的有效数据分布可能在参与的设备之间(可能有数百万台)差异很大。这种统计异质性可能会损害机器学习训练算法在个性化、推荐、欺诈检测等应用中的性能,因为传统的机器学习训练算法是为可以严格控制数据分区的中央或分布式计算环境设计的。克服联邦学习中统计异质性的不良影响是一个活跃的研究领域,最近有几项研究(Chen et al., 2018;Smith等人,2017;Zhao et al., 2018;Sahu et al., 2018)。
在本文中,我们研究了个性化设置作为深度前馈神经网络联邦学习中统计异质性来源的影响。个性化是ML的一个关键应用程序,因为从原始用户数据中捕获的用户偏好不同,所以个性化是可能的。在边缘设备属于用户的联邦设置中,这必然意味着用于个性化的数据在统计上是异构的。对于通过推荐实现个性化,ud din等人(2019)首次尝试将协同过滤扩展到联邦设置,Chen等人(2018)设计了一种用于联邦训练的元学习方法。虽然这些方法被证明在MovieLens 100k数据集上表现非常好(Harper and Konstan, 2015),但如何将它们扩展到深度神经网络模型或无法通过协同过滤解决的问题并不明显。我们是我相信,个性化联邦学习的正确方法是一个非常重要的问题,研究界在这个问题上才刚刚触及表面。特别是,挑战来自多个方面,包括但不限于:
(1)许多个性化任务,如个性化图像美学(Ren et al., 2017)和个性化高光检测(Garcia del Molino and Gygli, 2018)在数据中没有明确的用户特征,需要在训练过程中提取这些特征。因此,相同的输入数据可以从不同的用户接收不同的标签,这意味着个性化模型必须在不同的用户之间有所不同,以便能够预测相似测试数据的不同标签。这已经超出了标准联邦学习的范围(McMahan等人,2017),后者学习一个全局模型,并在每个客户端本地有效地复制它。
(2)每个用户的训练样本数量不足以单独训练单个ML模型。因此,需要一些沟通和协作来利用人群的智慧。然而,协同过滤算法可能不适用,因为它们需要不同用户评价的项目之间有相当大的重叠。根据Ren et al. (2017);Garcia del Molino和Gygli(2018),在个性化图像美学和个性化高光检测等任务的典型数据集中,充分重叠条件不成立。
- 我们建议通过将深度学习模型视为基础层+个性化层来捕获联邦学习中的个性化方面,如图1所示。我们的训练算法包括通过联邦平均(或其变体)训练的基础层和仅通过随机梯度下降(或其变体)从局部数据训练的个性化层。我们证明了不受联邦平均(FEDAvG)过程影响的个性化层可以帮助对抗统计异质性的不良影响。
-
所有用户设备共享一组具有相同权重(蓝色)的基础层,并具有不同的个性化层,可以潜在地适应个人数据。基础层与参数服务器共享,而个性化层则由每个设备保持私有。
2、Federated Continual Learning with Weighted Inter-client Transfer
由于单个客户机上的数据隐私和高昂的通信成本,可能无法在客户机之间或服务器与客户机之间直接通信数据。联邦学习(McMahan et al., 2016;Li et al., 2018;YurochkinEt al., 2019)是一种学习范式,通过传递参数而不是原始数据本身来解决这个问题。我们可能有一个服务器,它接收在多个客户端本地训练的参数,将其聚合为单个模型参数,并将其发送回客户端。在我们从间接经验中学习的直觉的激励下,我们解决了联邦持续学习(FCL)的问题,其中我们使用在私有任务序列上训练的多个客户端执行持续学习,这些客户端通过全局服务器通信它们的任务特定参数。
然而,联合持续学习的问题也带来了新的挑战。首先,持续学习不仅会带来灾难性的遗忘,还会带来来自其他客户潜在干扰的威胁。图2用一个简单实验的结果描述了这个挑战。在这里,我们训练一个用于MNIST数字识别的模型,同时与在不同数据集上训练的另一个客户端通信参数。当从另一个客户端转移的知识与目标任务(SVHN)相关时,模型开始时精度高,收敛速度快,达到更高的精度(绿线),而如果转移的知识来自与目标任务高度不同的任务(CIFAR-10,红线),则模型的性能低于基本模型。因此,我们需要有选择地利用来自其他客户的知识,以尽量减少客户间的干扰,最大限度地提高客户间的知识转移。联邦学习的另一个问题是有效的通信,因为通信成本可能会变得过大利用其他客户端的知识,因为在使用边缘设备时,通信成本可能是实际场景中的主要瓶颈。因此,我们希望知识的表示尽可能紧凑。
图2 联邦持续学习的挑战。其他客户由于分享不相关的知识而产生的干扰可能会阻碍目标客户的最佳培训(红色),而来自其他客户的相关知识将有利于目标客户的学习(绿色)。
为了解决这些挑战,我们提出了一个新的联邦持续学习框架,联邦加权客户端间传输(fe户口),它将局部模型参数分解为密集的基本参数和稀疏的任务自适应参数。FedWeIT减少了不同任务之间的干扰,因为基本参数将编码任务通用知识,而任务特定知识将编码到任务自适应参数中。当我们利用通用知识时,我们还希望客户端有选择地利用从其他客户端获得的特定于任务的知识。为此,我们允许每个模型采用从服务器广播的任务自适应参数的加权组合,这样它就可以选择对手头任务有用的特定于任务的知识。FedWeIT是通信高效的,因为任务自适应参数是高度稀疏的,并且在创建时只需要通信一次。此外,当沟通效率不是跨筒仓联邦学习中的关键问题时(Kairouz等人,2019),我们可以使用我们的框架根据其任务自适应参数的注意力权重来激励每个客户端。我们在多个不同的场景中验证了我们的方法,这些场景在不同的客户端之间具有不同程度的任务相似度,并针对各种联邦学习和本地持续学习模型进行了验证。结果表明,我们的模型在所有基线上都获得了明显更好的性能,更快地适应新任务,并且大大降低了通信成本。本文的主要贡献如下:
- 本文提出了联邦持续学习(FCL)的新问题,即多个模型在分布式客户端上持续学习,这对防止客户端间干扰和客户端间知识转移提出了新的挑战。
- 我们提出了一种新颖且通信高效的联邦持续学习框架,该框架允许每个客户端通过通信稀疏参数自适应更新联邦参数并有选择地利用来自其他客户端的过去知识。
3、基于SK注意力机制的个性化联邦学习方法
虽然McMahan[4]等人提出的FedAvg算法在非独立同分布数据下也取得了良好的准l确率, Zhao[5]等人在CIFAR-10数据集上,利用FedAvg训练的卷积神经网络模型的准确率比传统集中式训练的模型准确率低51%,这可以通过各参与者模型参数的推土距离(EarthMover's Distance,EMD)来量化,且这个距离与参数者数据分布的情况有关。Duan[6]等人提出Astraea联邦学习框架,以改善由于参与者数据类别不均衡而导致模型精度下降的问题。在训练开始之前,框架结合客户端的数据分布,采用旋转和移动操作来增强类别较少的数据。另外,所述方法还通过协调器执行模型聚合步骤,协调器将趋向于选择数据分布较为均匀的客户端参加训练。但是,当参与者大多是边缘设备时,这一数据增强思路通常很难实现。
Li等人在FedAvg的目标函数中引入了近端项,提出了FedProx[7]算法,该算法在数据异质的情况下,限制了本地训练时模型对全局模型的偏离。Arivazhaga等人主张将一个深1度神经网络分成基础层和个性化层,提出FedPer[8],其中基础层是协同学习的,而个性化层是针对每个用户的。Hanzely[9]等人采用来自多个用户的本地模型和一个全局模型结合1的方案,从而克服了单一模型的局限性,使更多的数据可以用于训练,从而提高模型的准确度。Jiang[10]等人引入了MAML(Model-Agnostic Meta-Learning)技术,将MAML中的元训练步骤映射到FL全局模型训练过程中,将元测试步骤映射到FL个性化模型训练过程中,从而改善联邦学习的个性化能力,提高模型的准确性,并且可以有效地减少训练新任务所需的时间和资源。Li等人提出使用迁移学习和知识蒸馏开发一个联邦学习框架FedMD[11],此框架允许不同的客户端根据其计算能力设计不同的网络结构,在FL训练和知识蒸馏1阶段之前,首先使用一个在公共数据集上预训练的模型进行迁移学习。然后,每个客户在其私人数据上微调该模型。Fallah[12]等人提出了Per-FedAvg,利用元学习为所有用户学习一个共同的初始化模型,然后利用梯度下降法来适应每个用户的数据分布。另一种方法, pFedMe[13],通过Moreau envelope函数,将个性化模型优化从全局模型学习中分解出来,使得pFedMe可以像FedAvg一样更新全局模型,同时又可以根据每个客户端的本地数据分布,并行优化个性化模型,从而提高模型性能。Smith[14]等人将多任务学习引入联邦学习,提出MOCHA算法,其允许本地训练模型仅在结构上保持相同,并使用交替优化算法[15]来求解最优值。
[4] McMahan B,Moore E,Ramage D,et al. Communicationefficient learning of deep networks from decentralized data[C]//Artificial intelligence and statistics. PMLR,2017:1273-1282.
[5] Zhao Y,Li M,Lai L,et al. Federated learning with noniid data[J]. arXiv preprint arXiv:1806.00582,2018.
[6] Duan M,Liu D,Chen X,et al. Astraea:Self-balancing federated learning for improving classification accuracy of mobile deep learning applications[C]//2l 019 IEEE 37th international conference on computer design(ICCD). IEEE,2019:246-254.
[7] Li T,Sahu A K,Zaheer M,et al. Federated optimization in heterogeneous networks[J]. Proceedings of Machine learning and systems,2020(2):429-450.
[8] Arivazhagan M G,Aggarwal V,Singh A K,et al.Federated learning with personalization layers[J]. arXiv preprint arXiv:1912.00818,2019.
[9] Hanzely F,Richtárik P. Federated learning of a mixture of global and local models[J]. arXiv preprint arXiv:2002.05516,2020.
[10] Jiang Y,KonečnýJ,Rush K,et al. Improving federated learning personalization via model agnostic meta learning[J].arXiv preprint arXiv:1909.12488,2019.
[11] Li D,Wang J. Fedmd:Heterogenous federated learning via model distillation[J]. arXiv preprint arXiv:1910.03581,2019.
[12] Fallah A, Mokhtari A, Ozdaglar A. Personalized federated learning:A meta-learning approach[J]. arXiv preprint arXiv:2002.07948,2020.l
[13] T Dinh C,Tran N,Nguyen J. Personalized federated learning with moreau envelopes[J]. Advances in Neural Information Processing Systems,2020(33):21394-21405.
[14] Smith V,Chiang C K,Sanjabi M,et al. Federated multitask learning[J]. Advances in neural information processing systems,2017:30.
[15] Bezdek J, Hathaway R. Some notes on alternating optimization[J]. Advances in Soft Computing-AFSS 2002,2002:187-195.
4、联邦学习个性化算法的性能优化研究
传统的联邦学习希望在服务器端训练出一个具有泛化性能的全局模型。但由于客户端间数据的非独立同分布(Non-IID)问题,单一全局模型存在收敛困难或在客户端上表现不佳等问题。为了缓解 Non-IID问题的影响,个性化联邦学习的概念被提出,其旨在为不同的客户端提供个性化模型。但综合现有研究,大多数个性化联邦学习算法普遍存在着性能提升有限、训练步骤复杂或者通讯成本过高等问题。更为关键的是,模型的个性化性能与泛化性能是相互排斥的,即个性化联邦学习与传统联邦学习的目标互不兼容,这大大限制了个性化联邦学习的发展前景和研究价值。
联邦学习梯度:
不幸的是,移动处理能力的巨大差异性尚未得到解决。更糟糕的是,用户数据之间的高方差增加了另一层统计异质性[12],并使参与者的选择成为一个不平凡的问题。不适当的选择会不利地导致梯度发散并削弱减少计算时间的一切努力。通过实证研究,我们首先验证瓶颈实际上已经从通信转移回消费者移动设备上的计算。运行时行为取决于特定于供应商的软件实现和底层硬件架构的复杂组合,即片上系统(SoC)电源管理策略和输入计算强度
1、Picking winning tickets before training by preserving gradient flow
过度参数化有利于神经网络的优化和遗传,但大型网络在训练和测试时都需要大量资源。
2、隐私保护的分布式学习算法研究
此外,为了区分良性参与者和恶意参与者,大部分现有的防御方法[48,111,113-116]要求参与者以明文形式上传模型更新,这不可避免地带来了隐私泄露的风险。尽管联邦学 习避免了原始训练数据的直接披露,但最近的研究[54-57,64]表明,直接传输模型更新仍然 可能泄露参与者的敏感信息。例如,文献 [64] 用多个实例表明一小部分的模型梯度就 能泄露有用的数据信息。文献 [57] 提出了一种基于模型梯度的数据重构方法,能够根据深度神经网络的梯度重建出高分辨率的图像数据。