个性化联邦学习所面临的挑战:

个性化联邦学习所面临的挑战:

1、Federated Learning with Personalization Layers

Li等人(2019)最近发表的综述文章阐述了联邦学习系统面临的许多独特挑战。其中一个挑战是,不同客户端的有效数据分布可能在参与的设备之间(可能有数百万台)差异很大。这种统计异质性可能会损害机器学习训练算法在个性化、推荐、欺诈检测等应用中的性能,因为传统的机器学习训练算法是为可以严格控制数据分区的中央或分布式计算环境设计的。克服联邦学习中统计异质性的不良影响是一个活跃的研究领域,最近有几项研究(Chen et al., 2018;Smith等人,2017;Zhao et al., 2018;Sahu et al., 2018)。

在本文中,我们研究了个性化设置作为深度前馈神经网络联邦学习中统计异质性来源的影响个性化是ML的一个关键应用程序,因为从原始用户数据中捕获的用户偏好不同,所以个性化是可能的。在边缘设备属于用户的联邦设置中,这必然意味着用于个性化的数据在统计上是异构的。对于通过推荐实现个性化,ud din等人(2019)首次尝试将协同过滤扩展到联邦设置,Chen等人(2018)设计了一种用于联邦训练的元学习方法。虽然这些方法被证明在MovieLens 100k数据集上表现非常好(Harper and Konstan, 2015),但如何将它们扩展到深度神经网络模型或无法通过协同过滤解决的问题并不明显。我们是我相信,个性化联邦学习的正确方法是一个非常重要的问题,研究界在这个问题上才刚刚触及表面。特别是,挑战来自多个方面,包括但不限于:

(1)许多个性化任务,如个性化图像美学(Ren et al., 2017)和个性化高光检测(Garcia del Molino and Gygli, 2018)在数据中没有明确的用户特征,需要在训练过程中提取这些特征。因此,相同的输入数据可以从不同的用户接收不同的标签,这意味着个性化模型必须在不同的用户之间有所不同,以便能够预测相似测试数据的不同标签。这已经超出了标准联邦学习的范围(McMahan等人,2017),后者学习一个全局模型,并在每个客户端本地有效地复制它。

(2)每个用户的训练样本数量不足以单独训练单个ML模型。因此,需要一些沟通和协作来利用人群的智慧。然而,协同过滤算法可能不适用,因为它们需要不同用户评价的项目之间有相当大的重叠。根据Ren et al. (2017);Garcia del Molino和Gygli(2018),在个性化图像美学和个性化高光检测等任务的典型数据集中,充分重叠条件不成立。

  1. 我们建议通过将深度学习模型视为基础层+个性化层来捕获联邦学习中的个性化方面,如图1所示。我们的训练算法包括通过联邦平均(或其变体)训练的基础层和仅通过随机梯度下降(或其变体)从局部数据训练的个性化层。我们证明了不受联邦平均(FEDAvG)过程影响的个性化层可以帮助对抗统计异质性的不良影响。
  2. 所有用户设备共享一组具有相同权重(蓝色)的基础层,并具有不同的个性化层,可以潜在地适应个人数据。基础层与参数服务器共享,而个性化层则由每个设备保持私有。

2、Federated Continual Learning with Weighted Inter-client Transfer

由于单个客户机上的数据隐私和高昂的通信成本,可能无法在客户机之间或服务器与客户机之间直接通信数据。联邦学习(McMahan et al., 2016;Li et al., 2018;YurochkinEt al., 2019)是一种学习范式,通过传递参数而不是原始数据本身来解决这个问题。我们可能有一个服务器,它接收在多个客户端本地训练的参数,将其聚合为单个模型参数,并将其发送回客户端。在我们从间接经验中学习的直觉的激励下,我们解决了联邦持续学习(FCL)的问题,其中我们使用在私有任务序列上训练的多个客户端执行持续学习,这些客户端通过全局服务器通信它们的任务特定参数。

然而,联合持续学习的问题也带来了新的挑战。首先,持续学习不仅会带来灾难性的遗忘,还会带来来自其他客户潜在干扰的威胁。图2用一个简单实验的结果描述了这个挑战。在这里,我们训练一个用于MNIST数字识别的模型,同时与在不同数据集上训练的另一个客户端通信参数。当从另一个客户端转移的知识与目标任务(SVHN)相关时,模型开始时精度高,收敛速度快,达到更高的精度(绿线),而如果转移的知识来自与目标任务高度不同的任务(CIFAR-10,红线),则模型的性能低于基本模型。因此,我们需要有选择地利用来自其他客户的知识,以尽量减少客户间的干扰,最大限度地提高客户间的知识转移。联邦学习的另一个问题是有效的通信,因为通信成本可能会变得过大利用其他客户端的知识,因为在使用边缘设备时,通信成本可能是实际场景中的主要瓶颈。因此,我们希望知识的表示尽可能紧凑。

图2 联邦持续学习的挑战。其他客户由于分享不相关的知识而产生的干扰可能会阻碍目标客户的最佳培训(红色),而来自其他客户的相关知识将有利于目标客户的学习(绿色)。

为了解决这些挑战,我们提出了一个新的联邦持续学习框架,联邦加权客户端间传输(fe户口),它将局部模型参数分解为密集的基本参数和稀疏的任务自适应参数。FedWeIT减少了不同任务之间的干扰,因为基本参数将编码任务通用知识,而任务特定知识将编码到任务自适应参数中。当我们利用通用知识时,我们还希望客户端有选择地利用从其他客户端获得的特定于任务的知识。为此,我们允许每个模型采用从服务器广播的任务自适应参数的加权组合,这样它就可以选择对手头任务有用的特定于任务的知识。FedWeIT是通信高效的,因为任务自适应参数是高度稀疏的,并且在创建时只需要通信一次。此外,当沟通效率不是跨筒仓联邦学习中的关键问题时(Kairouz等人,2019),我们可以使用我们的框架根据其任务自适应参数的注意力权重来激励每个客户端。我们在多个不同的场景中验证了我们的方法,这些场景在不同的客户端之间具有不同程度的任务相似度,并针对各种联邦学习和本地持续学习模型进行了验证。结果表明,我们的模型在所有基线上都获得了明显更好的性能,更快地适应新任务,并且大大降低了通信成本。本文的主要贡献如下:

  1. 本文提出了联邦持续学习(FCL)的新问题,即多个模型在分布式客户端上持续学习,这对防止客户端间干扰和客户端间知识转移提出了新的挑战。
  2. 我们提出了一种新颖且通信高效的联邦持续学习框架,该框架允许每个客户端通过通信稀疏参数自适应更新联邦参数并有选择地利用来自其他客户端的过去知识。

3、基于SK注意力机制的个性化联邦学习方法

虽然McMahan[4]等人提出的FedAvg算法在非独立同分布数据下也取得了良好的准l确率, Zhao[5]等人在CIFAR-10数据集上,利用FedAvg训练的卷积神经网络模型的准确率比传统集中式训练的模型准确率低51%,这可以通过各参与者模型参数的推土距离(EarthMover's Distance,EMD)来量化,且这个距离与参数者数据分布的情况有关。Duan[6]等人提出Astraea联邦学习框架,以改善由于参与者数据类别不均衡而导致模型精度下降的问题。在训练开始之前,框架结合客户端的数据分布,采用旋转和移动操作来增强类别较少的数据。另外,所述方法还通过协调器执行模型聚合步骤,协调器将趋向于选择数据分布较为均匀的客户端参加训练。但是,当参与者大多是边缘设备时,这一数据增强思路通常很难实现。

Li等人在FedAvg的目标函数中引入了近端项,提出了FedProx[7]算法,该算法在数据异质的情况下,限制了本地训练时模型对全局模型的偏离。Arivazhaga等人主张将一个深1度神经网络分成基础层和个性化层,提出FedPer[8],其中基础层是协同学习的,而个性化层是针对每个用户的。Hanzely[9]等人采用来自多个用户的本地模型和一个全局模型结合1的方案,从而克服了单一模型的局限性,使更多的数据可以用于训练,从而提高模型的准确度。Jiang[10]等人引入了MAML(Model-Agnostic Meta-Learning)技术,将MAML中的元训练步骤映射到FL全局模型训练过程中,将元测试步骤映射到FL个性化模型训练过程中,从而改善联邦学习的个性化能力,提高模型的准确性,并且可以有效地减少训练新任务所需的时间和资源。Li等人提出使用迁移学习和知识蒸馏开发一个联邦学习框架FedMD[11],此框架允许不同的客户端根据其计算能力设计不同的网络结构,在FL训练和知识蒸馏1阶段之前,首先使用一个在公共数据集上预训练的模型进行迁移学习。然后,每个客户在其私人数据上微调该模型。Fallah[12]等人提出了Per-FedAvg,利用元学习为所有用户学习一个共同的初始化模型,然后利用梯度下降法来适应每个用户的数据分布。另一种方法, pFedMe[13],通过Moreau envelope函数,将个性化模型优化从全局模型学习中分解出来,使得pFedMe可以像FedAvg一样更新全局模型,同时又可以根据每个客户端的本地数据分布,并行优化个性化模型,从而提高模型性能。Smith[14]等人将多任务学习引入联邦学习,提出MOCHA算法,其允许本地训练模型仅在结构上保持相同,并使用交替优化算法[15]来求解最优值。

[4] McMahan B,Moore E,Ramage D,et al. Communicationefficient learning of deep networks from decentralized data[C]//Artificial intelligence and statistics. PMLR,2017:1273-1282.

[5] Zhao Y,Li M,Lai L,et al. Federated learning with noniid data[J]. arXiv preprint arXiv:1806.00582,2018.

[6] Duan M,Liu D,Chen X,et al. Astraea:Self-balancing federated learning for improving classification accuracy of mobile deep learning applications[C]//2l 019 IEEE 37th international conference on computer design(ICCD). IEEE,2019:246-254.

[7] Li T,Sahu A K,Zaheer M,et al. Federated optimization in heterogeneous networks[J]. Proceedings of Machine learning and systems,2020(2):429-450.

[8] Arivazhagan M G,Aggarwal V,Singh A K,et al.Federated learning with personalization layers[J]. arXiv preprint arXiv:1912.00818,2019.

[9] Hanzely F,Richtárik P. Federated learning of a mixture of global and local models[J]. arXiv preprint arXiv:2002.05516,2020.

[10] Jiang Y,KonečnýJ,Rush K,et al. Improving federated learning personalization via model agnostic meta learning[J].arXiv preprint arXiv:1909.12488,2019.

[11] Li D,Wang J. Fedmd:Heterogenous federated learning via model distillation[J]. arXiv preprint arXiv:1910.03581,2019.

[12] Fallah A, Mokhtari A, Ozdaglar A. Personalized federated learning:A meta-learning approach[J]. arXiv preprint arXiv:2002.07948,2020.l

[13] T Dinh C,Tran N,Nguyen J. Personalized federated learning with moreau envelopes[J]. Advances in Neural Information Processing Systems,2020(33):21394-21405.

[14] Smith V,Chiang C K,Sanjabi M,et al. Federated multitask learning[J]. Advances in neural information processing systems,2017:30.

[15] Bezdek J, Hathaway R. Some notes on alternating optimization[J]. Advances in Soft Computing-AFSS 2002,2002:187-195.

4、联邦学习个性化算法的性能优化研究

传统的联邦学习希望在服务器端训练出一个具有泛化性能的全局模型。但由于客户端间数据的非独立同分布(Non-IID)问题,单一全局模型存在收敛困难或在客户端上表现不佳等问题。为了缓解 Non-IID问题的影响,个性化联邦学习的概念被提出,其旨在为不同的客户端提供个性化模型。但综合现有研究,大多数个性化联邦学习算法普遍存在着性能提升有限、训练步骤复杂或者通讯成本过高等问题。更为关键的是,模型的个性化性能与泛化性能是相互排斥的,即个性化联邦学习与传统联邦学习的目标互不兼容,这大大限制了个性化联邦学习的发展前景和研究价值。

联邦学习梯度:

不幸的是,移动处理能力的巨大差异性尚未得到解决。更糟糕的是,用户数据之间的高方差增加了另一层统计异质性[12],并使参与者的选择成为一个不平凡的问题。不适当的选择会不利地导致梯度发散并削弱减少计算时间的一切努力。通过实证研究,我们首先验证瓶颈实际上已经从通信转移回消费者移动设备上的计算。运行时行为取决于特定于供应商的软件实现和底层硬件架构的复杂组合,即片上系统(SoC)电源管理策略和输入计算强度

1、Picking winning tickets before training by preserving gradient flow

过度参数化有利于神经网络的优化和遗传,但大型网络在训练和测试时都需要大量资源。

2、隐私保护的分布式学习算法研究

此外,为了区分良性参与者和恶意参与者,大部分现有的防御方法[48,111,113-116]要求参与者以明文形式上传模型更新,这不可避免地带来了隐私泄露的风险。尽管联邦学 习避免了原始训练数据的直接披露,但最近的研究[54-57,64]表明,直接传输模型更新仍然 可能泄露参与者的敏感信息。例如,文献 [64] 用多个实例表明一小部分的模型梯度就 能泄露有用的数据信息。文献 [57] 提出了一种基于模型梯度的数据重构方法,能够根据深度神经网络的梯度重建出高分辨率的图像数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/652985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

04.领域驱动设计:了解聚合和聚合根,怎样设计聚合

目录 1、概述 2、聚合 3、聚合根 4、怎么设计聚合 4.1 聚合的构建过程主要步骤 第 1 步:采用事件风暴。 第 2 步:选出聚合根。 第 3 步:找出与聚合根关联的所有紧密依赖的实体和值对象。 第 4 步:画出对象的引用和依赖模型…

P2246 SAC#1 - Hello World(升级版)

网址如下: P2246 SAC#1 - Hello World(升级版) - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 刚开始是用递归做的,虽然用了哈希表优化,但是超时,只得了50 后面想到了一个新的算法,时间复杂度…

喝酒筛子小游戏集合源码微信小程序喝酒骰子程序带流量主版本源码酒桌玩筛子源码

2023新版酒桌小游戏喝酒小程序源码-(流量主版本) 修改增加了广告位 根据文档直接替换,原版本没有广告位 直接上传源码到开发者端即可 通过后改广告代码,然后关闭广告展示提交,通过后打开即可 无广告引流 流量主版…

3338 蓝桥杯 wyz的数组IV 简单

3338 蓝桥杯 wyz的数组IV 简单 //C风格解法1&#xff0c;通过率50% #include<bits/stdc.h>int main(){std::ios::sync_with_stdio(false);std::cin.tie(nullptr);std::cout.tie(nullptr);int n; std::cin >> n;int ans 0;std::vector<int>a(n);for(auto &am…

必应聊天在当前安全搜索设置下不可用

使用Bing必应搜索引擎&#xff0c;想用必应AI聊天功能会提示&#xff1a;必应聊天在当前安全搜索设置下不可用。 当安全搜索设置设置为“严格”时&#xff0c;不支持必应聊天。 那么怎么修改安全搜索设置呢&#xff1f; 点击右上角的菜单图标&#xff0c;在下拉菜单里点击安全…

权威的健康养生与医学基础知识科普学习信息汇总

目录 1 关于健康与食物营养的权威网址1.1 世界卫生组织&#xff08;World Health Organization: WHO&#xff09;1.2 美国国家卫生研究院 (National Institutes of Health: NIH)1.3 澳大利亚政府健康门户 (Healthdirect)1.4 国际食品信息委员会 (International Food Informatio…

【Midjourney】内容展示风格关键词

1.几何排列(Geometric) "Geometric" 是一个与几何有关的词汇&#xff0c;通常用于描述与形状、结构或空间几何特征相关的事物。这个词可以涉及数学、艺术、工程、计算机图形学等多个领域。 使用该关键词后&#xff0c;图片中的内容会以平面图形拼接的方式展示&#…

Apache Shiro <= 1.2.4反序列化漏洞攻击 CVE-2016-4437 已亲自复现

Apache Shiro < 1.2.4反序列化漏洞攻击 CVE-2016-4437 已亲自复现 漏洞名称漏洞描述影响版本 漏洞复现环境搭建漏洞利用 修复建议总结 漏洞名称 漏洞描述 在 1.2.5 之前的 Apache Shiro 中&#xff0c;当未为“记住我”功能配置密钥时&#xff0c;远程攻击者可以通过未指定…

obsidian阅读pdf和文献——与zotero连用

参考&#xff1a; 【基于Obsidian的pdf阅读、标注&#xff0c;构建笔记思维导图&#xff0c;实现笔记标签化、碎片化&#xff0c;便于检索和跳转】 工作流&#xff1a;如何在Obsidian中阅读PDF - Eleven的文章 - 知乎 https://zhuanlan.zhihu.com/p/409627700 操作步骤 基于O…

武忠祥2025高等数学,基础阶段的百度网盘+视频及PDF

考研数学武忠祥基础主要学习以下几个方面的内容&#xff1a; 1.微积分:主要包括极限、连续、导数、积分等概念&#xff0c;以及它们的基本性质和运算方法。 2.线性代数:主要包括向量、向量空间、线性方程组、矩阵、行列式、特征值和特征向量等概念&#xff0c;以及它们的基本…

RK3568平台 of 操作函数获取设备树节点

一.of函数概述 Linux内核给我们提供了一系列的函数来获取设备树中的节点或者属性信息&#xff0c;这一系列的函数都有一个统一的前缀 ”of“ &#xff0c; 所以在很多资料里面也被叫做OF函数。 Linux 内核使用device_node 结构体来描述一个节点&#xff0c;此结构体定义在文件…

Python初学者学习记录——python基础综合案例:数据可视化——折线图可视化

一、案例介绍 效果一&#xff1a;2020年印美日新冠累计确诊人数 效果二&#xff1a;全国疫情地图可视化 效果三&#xff1a;动态GDP增长图 数据来源&#xff1a; 本案例数据全部来自《百度疫情实时大数据报告》&#xff0c;及公开的全球各国GDP数据 使用的技术&#xff1a; E…

C++爱好者的科目四易错点总结

科目四易错点总结 在科目四考试中&#xff0c;一部分内容是可以通过刷题快速掌握的&#xff0c;一部分内容缺因易混淆而降低我们的准确率&#xff0c;本文主要对后者进行总结&#xff0c;期待大家补充与指正。 注&#xff1a; 本文不是全部的知识点总结处 本文不是权威机构 本文…

张维迎《博弈与社会》笔记(3)导论:一些经济学的基础知识

这篇的主要内容介绍了经济学的基础知识吧。 经济学、社会学、心理学的区别 经济学与社会学的区别与共同点 经济学一般是从个人的行为出发解释社会现象&#xff08;from micro to macro&#xff09;。社会学的传统方法则是从社会的角度来解释个人的行为&#xff08;from macro…

硕士毕业论文如何体现自己的工作量

一、工作量是什么 工作量就是你在科研过程中做的所有工作量的体现&#xff0c;包括你对背景的调查&#xff0c;对问题的发现&#xff0c;你做的实验&#xff0c;提出的创新点。 notice&#xff1a;任何别人做的实验&#xff0c;提出的模型&#xff0c;都不能算是你的工作量。…

uniapp+vue3+ts --微信小程序tab导航可以上下滚动选中选项组件代码

uniappvue3ts --微信小程序tab导航可以上下滚动选中选项组件代码 废话不多说&#xff0c;直接上代码。 组件代码&#xff1a; <template><view class"scroll-tabs-container"><view class"radiusz bg-white pt-[10rpx] z-[999]" :class&…

文件包含漏洞长度截断

长度截断 文件漏洞的利用方式什么是长度截断通过实操理解00截断对版本要求更高一点&#xff0c;而长度截断则是利用了windows的系统漏洞&#xff0c;就是windows文件名&#xff08;就是文件名后缀之后&#xff09;之后如果有空格&#xff0c;或者是点都会被忽略掉&#xff0c;也…

Python tkinter (6) —— Listbox控件

Python的标准Tk GUI工具包的接口 tkinter系列文章 python tkinter窗口简单实现 Python tkinter (1) —— Label标签 Python tkinter (2) —— Button标签 Python tkinter (3) —— Entry标签 Python tkinter (4) —— Text控件 Python tkinter (5) 选项按钮与复选框 目录…

【并发编程】volatile原理

&#x1f4dd;个人主页&#xff1a;五敷有你 &#x1f525;系列专栏&#xff1a;并发编程 ⛺️稳重求进&#xff0c;晒太阳 volatile原理实现是内存屏障&#xff0c;Memory Barrier 对volatile变量的写指令后会加入写屏障。对volatile变量的读指令前会加入读屏障 如何…

响应式Web开发项目教程(HTML5+CSS3+Bootstrap)第2版 例5-2 JavaScript 获取HTML元素对象

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>JavaScript 获取 HTML 元素对象</title> </head><body> <input type"text" value"admin" /> <br> <input …