一文重新认识联邦学习

重要申明:本文转载自https://user.guancha.cn/main/content?id=674888。

人工智能助力抗疫又添新场景。据报道,英国剑桥爱登布鲁克医院(Addenbrooke’s Hospital)与全球20家医院和医疗科技中心联合医疗科技领军企业英伟达采用人工智能预测新冠肺炎患者从抵院急救起24小时内的氧气需求量。

该研究的一大亮点在于采用了联邦学习技术分析了全球约10,000名新冠患者的数据,成为迄今为止规模最大,范围最广的联邦学习临床研究之一。参与研究的多位专家表示,联邦学习不仅在医疗领域设立了全新标准,更可以让各行各业在不牺牲隐私的前提下打造强大的人工智能模型。

作为隐私计算技术的主要路径之一,联邦学习近年来受到广泛关注并被寄予厚望。业界常以“数据不动模型动”来概括联邦学习的基本原理。也就是说,参与联邦学习的各方基于本地数据训练形成本地模型,不同的本地模型再经过参数传递,最终聚合形成全局模型。

从其名称也可以看出,“联邦”代表各数据拥有方以分布式架构开展合作,“学习”则代表机器学习、深度学习人工智能算法模型。其中的关键点就在于,联邦学习实现了让“模型找数据”,而非“数据找模型”,数据始终只留在本地,也就大大降低了数据泄露风险。

尽管联邦学习的知名度不断提升,落地应用逐步推广,但整体发展仍处早期,在不少方面尚未形成共识,甚至存在一些误区,亟待业界“正本清源“。

误区一:金融领域的联邦学习更Cool,需求更高,难度更大?

隐私计算形成了让数据“可用不可见”的解决方案。从甲子光年《2021隐私计算行业研究报告》的示意图可以看到,联邦学习处于整个隐私计算技术体系的“核心位”。

在这里插入图片描述
来源:甲子光年《2021隐私计算行业研究报告》

近年来伴随技术成熟及数据安全相关合规要求趋严,联邦学习不仅从理论走向实践,还受到资本热捧,商业落地正在迎来爆发。据《2021隐私机密计算蓝皮书》,医疗、金融、政务是隐私计算的三大应用场景。

在众多落地领域中,金融业可谓首屈一指。联邦学习在智能风控、反洗钱等方面优势明显。金融领域合规要求严,数字化、智能化及数据结构化程度高,都为联邦学习的落地创造了先天优势条件。

不过需要指出的是,虽然联邦学习在金融领域成果显著,但实际上联邦学习却原生于医疗领域。相对来说,医疗领域的复杂度和门槛则更高。而对于联邦学习技术服务企业来说,选择医疗这条路,也就意味着更加硬核的技术自信、投入度和专注力。

“我们50%的研究精力以及商业业务都在隐私计算与医疗的结合上,政务、金融等为医疗领域之外较为注重的领域”,锘崴科技创始人、董事长王爽教授坦言。据他介绍,隐私计算在医疗领域的应用其实相当复杂。

一是数据类型的复杂度,包括结构化、非结构化、基因组学、影像学数据等数据类型医疗大数据的分析经常需要利用多模态数据的联合分析,得出完整的患者画像,辅助医疗诊断和治疗。

二是方法论,除了金融领域常用的回归模型、树模型等,医疗领域由于其数据类型的多模态性、疾病的多样性、应用场景的高复杂性,医疗领域需要更复杂和多样化的方法论的支持。

三是模型精准度,医疗领域对模型的精准度要求更高,金融通常侧重于模型的预测结果的精度,医疗则是模型参数和预测结果的精度并重,模型中涉及的参数(如预测有无糖尿病模型中,不同标签如血压、肥胖、是否过度饮酒等因素所对应的模型参数的权重)均可指导临床治疗,影响临床治疗路径。

四是建模的安全性,由于建模过程设计多个合作方,如何避免参与方的恶意行为(例如,计算过程掺假等)可能对于疾病诊疗结果造成的影响也是一个关键的问题。这需要联邦学习系统提供额外的应对恶意行为的能力。

误区二:训练模型,数据多就是好?

追根溯源,医疗场景的复杂性和高要求还是源于其数据的复杂性。尽管人们一般认为人工智能模型基于大数据“喂养”,训练数据越多,模型预测越准。但现实中,最好的算法却往往来源于优质精炼的数据集,也就是要“保量”更要“保质”,而非一味求多。

这样的数据集显然十分稀缺。伴随各行业数据安全意识的增强以及各国法律法规的完善,传统的中心化数据共享模式已经难以走通。更难的是,医疗机构视数据为核心资产,医疗数据敏感性高,安全隐私合规要求严格,更不用提跨境数据流动这一全球性难题了。

联邦学习之所以能够解决数据隐私和治理的挑战,就在于其实现了把分散的“小数据”提供给机器学习模型。在联邦学习框架下,无论是训练阶段还是验证阶段,数据拥有方都不仅能规定自己的数据管治流程及其相关隐私政策,还能控制甚至取消数据访问权限。

联邦学习“数据不动模型动”的优势就在于,庞杂的医疗数据无需再以中心化方式从各本地机构复制到中心“数据湖”,再由每个使用者复制到各自本地用于模型训练。由于是模型在各机构间移动,模型自身就能“汲取”越来越多的数据集而变得更大更强,更无需考虑数据存储的相关要求和成本。

基于这样的先天优势,联邦学习可以为医疗领域带来大规模、跨机构的数据共享。借助联邦学习,使得在数据合规可控的前提下获得丰富的数据多样性成为可能,如跨地域、跨人种的病例数据。另一个典型例子就是罕见病的创新研究,因为罕见病的发生概率很低,单个医疗机构的相关数据量也就很少。

由于联邦学习实现了数据无需集中汇集就可以进行联合分析,同时结合专业的医疗领域的模型开发能力,以及可扩展的底层隐私计算和联邦学习框架,其应用范围就可以扩展至整个医疗领域的人工智能模型开发。2020年,王爽教授带领锘崴科技团队完成了全国首例利用联邦学习在带有隐私保护的情况下进行的全国性多中心强直性脊柱炎(AS) 全基因组关联分析(GWAS)。该分析研究通过隐私保护计算实现了在不分享明文原始数据(个体基因数据)的情况下的联合分析,其成果发表在生物信息学顶级期刊Briefing in Bioinformatics上。

总结来说,联邦学习对数据集的需求是贵精不贵多,根据场景所需精准聚合小数据,再串联成大数据,才能训练出更精准的模型。

误区三:联邦学习理论各有说法,一定有高下之分?

目前我国联邦学习领域已经诞生了一批代表性企业,其中不仅包括腾讯、阿里这样的巨头,也有一众实力不俗的创业企业,还涌现出不少技术大牛。除王爽教授外,微众银行首席人工智能官杨强、同盾科技人工智能研究院院长李晓林等也都是业内公认的联邦学习“三剑客”。

目前隐私计算企业多采用以一个技术为主,其余技术为辅助的研究方式,从上述各企业负责人或首席科学家的研究方向看也是如此。在商业应用中,隐私计算企业随着技术结合商业落地的实践,隐私计算技术也在不断更新迭代。

事实上,联邦学习领域无论技术还是市场都尚处发展早期,面对不同技术路径与其纠结孰优孰劣,不如坦然接受百家争鸣。比如,杨强教授的迁移学习、王爽教授的安全联邦学习,李晓林教授的知识联邦,三者解决的问题和场景不同,也各有优势。

以迁移学习为例,其经典的“羊吃草”模型深入人心,虽然灵活可控,但前提是需要足够大的草原(即庞大的数据量),大草原能更好的养出通用肥美的羊(即模型),比如产奶的羊产更好更多的奶,或者用于肉食的羊,肉质更加肥美等,再迁移到相关场景微调使用,比如基于互联网数据学的自然语言处理模型,应用到医学某个疾病领域,需要再通过医学的专业数据进行模型调优。

在这里插入图片描述
图:羊吃草模型(来源:互联网)

这个过程中,一方面数据规模可能不够,预训练“肥美的羊”时,通常需要的数据和算力会比模型微调时多,有些场景下,并没有“足够的大数据”条件来支撑训练;另一方面算法和数据的安全还可能面临挑战,“羊吃草”的过程可能也会出现不可预料的安全意外,比如羊预期吃的是有机草,没有农药,但是被提供的草是假有机草,里面有很多农药化肥;又或者食料员给喂的食料有偷工减料等。甚至羊本身也会被掳走、被调包,产奶的羊被变成肉食的羊或者产羊毛的羊换成产奶的羊,羊和草的安全都无法保证。

总的来说,联邦学习并非无懈可击。从过程来说,尽管数据不出本地,但联邦学习的分布式架构决定了其必然需要节点间的通信。本地模型形成全局模型的过程需要传递参数,遇到“有心人”就有可能在通信过程中获取这些参数并反推出原始数据,甚至释放出假参数来破坏训练模型。

从结果来看,联邦学习的最终目的是要获得人工智能模型,在联邦学习的合作中,技术无法辨别参与方是否怀有恶意,如果有参与方借机作恶,让联邦学习训练出错误的模型,便会导致训练失败,那么即便原始数据安然无恙,整个联邦学习仍将毫无意义。

为了从底层切中要害,安全联邦学习以数据不动模型动的多数据源合作方式与数据全流程加密相结合确保“程序正义+结果正义”双重实现,这个计算过程可类比为有机水果(organic fruits)的种植过程。通过安全联邦学习可以确保在不涉及技术数据泄漏的前提下,将种植有机水果的过程中如育种的机理数据、有机肥的生产配方、培育浇灌的技术、运输中的数据进行综合利用,培育出更优质的有机水果。同时可以验证培育过程是有机的,符合有机食品生产的全流程标准,防止在送到消费者手中的过程被掉包。。最终消费者可以一目了然的得知手中有机果实的生产全过程,安心使用。

放之于上面提到的羊吃草模型,安全联邦学习的出现可以很好的补足两点:一是为羊吃草,搭建一个巨大的保护罩,让羊沿着既定的路径不受外界干扰的去吃草,定点定量的为客户提供羊奶、羊毛和羊肉,避免出现被盗和滥用的情况。二是跨联打通各领域的“小草原”,既划定好各小草原的安全边界,又能让数据交叉互通。

各个联邦学习理论无论外延有多丰富,本质目标和攻坚点都是在于,做好模型拆分,适配不同的业务需求,训练构建出不同类型的精准模型,实现精准预测,需要兼顾建模参数的精准度、数据隐私保护性能、安全性、实时性等多重要求,安全联邦学习可以说是这一理念的最佳实践,其强化的安全性为数据和模型提供了安全保障,同时强调准确性,给模型匹配正确相关的数据,而非盲目“投喂”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507496.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spi四种工作模式时序图_还没学会SPI总线协议?干货都在这里

SPI总线基本概念SPI是一种高速、全双工、同步的串行通信总线,全称是Serial Peripheral Interface,使用时在芯片的管脚上只占用三根或者四根线(如果单向传输的话只需三根线就可以了),节约了芯片的管脚资源,所以在实际项目中应用也非…

命令不识别_互助问答138期:GMM命令代码中如何识别年份国家及异方差检验问题...

老师您好,有两个关于系统GMM的问题想请教一下:(1)在所学的教程里,系统GMM没有引入时间,我目前是分行业分国家的时间为T年的面板数据,请问时间应该放入xtdpdsys的命令中的哪个位置?代码是写作i.year吗&#…

【二叉树】【单调双向队列】LeetCode239:滑动窗口最大值

作者推荐 map|动态规划|单调栈|LeetCode975:奇偶跳 涉及知识点 单调双向队列 二叉树 题目 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动…

如何理解马尔可夫决策过程?

1 引言 马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关; 马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关; 马尔可夫决策过程(Markov Decision Proce…

雷电3接口能干嘛_acasis阿卡西斯推出首款雷电3接口WIFI6网卡:内置Intel AX200

手机、笔记本、平板等智能移动设备已经无声无息成为人们不可或缺的一部分,5G、WiFi是作为信息首发的主要通讯技术。还记得以前连接路由器的人多了就开始卡起来,这是旧式WiFi信道拥堵所造成的,随着技术发展,WiFi从802.11n到802.11a…

萤火虫小程序_9.9元起!萤火虫中秋文化节来了!特价门票限量秒杀,手慢无!...

记忆中关于儿时夏天的美好:睡莲娇绽,绿树成荫,抱着大半个西瓜对着吹风扇,叼着冰棍在院子里玩蛐蛐儿,叫上小伙伴们浅溪里扑棱水,带上手电去树林里寻萤火虫…然而充满浪漫色彩的夏天转瞬即逝,心心…

jmeter 加密解密_犯罪大师入门篇密文答案 谜之解密入门篇密文解题详解_游戏资讯...

第一关犯罪大师入门篇密文答案是什么?犯罪大师谜之解密开启了新的入门篇解密,这次的解密分为四章,每章的内容涉及猪圈密码、埃特巴什密码和元音密码三个内容。因此对玩家来讲难度是很高的,那么具体的答案是什么呢?这里就为大家带…

人工智能+录/测井数据的一些应用举例

1 横波速度的预测(油层段) https://www.bilibili.com/video/BV1xt4y1B7Mx?spm_id_from333.337.search-card.all.click 2 泥质含量的预测 https://www.bilibili.com/video/BV1tr4y1P7x6?spm_id_from333.337.search-card.all.click 3 甜点和非甜点预…

redmi airdots手动串联_串联谐振试验装置组成图

原标题:串联谐振试验装置组成图湖北中试高测电气控股有限公司技术博士为您解说:串联谐振试验装置组成图中试控股是串联谐振试验装置的生产厂家,串联谐振试验装置主要针对10kV、35kV电缆,35kV主变,交流耐压试验设计制造…

From AlphaGo Zero to 2048论文分享

0 摘要 近年来,游戏 2048 获得了巨大的人气 [6]。游戏允许玩家移动屏幕上的数字(2 的幂,例如 2、4、8、16 等),总和至少为 2048。因为它只有 4 个动作,所以很容易上手: 上、下、左、右。但是,很…

云计算的概念_近500亿资金汹涌出逃!云计算概念龙头抛压沉重,科技股资金出逃名单出炉...

数据是个宝数据宝炒股少烦恼两市主力资金全天净流出492.93亿元。科技股今日资金集中流出,云计算概念浪潮信息流出资金超9亿元。受假日外围市场不振影响,A股三大指数低开后弱势震荡,最终集体小幅收跌。截至收盘,沪指下跌0.61%&…

iphone8plus屏幕尺寸_百思买在苹果发布会前列出了一款“iPhone SE Plus”屏幕保护保护膜...

百思买旗下品牌Insignia在苹果“时光飞逝”发布会活动前几个小时,在其网站上开始销售一款名叫“iPhone SE Plus”的屏幕保护贴,尽管预计苹果不会活动上发布任何iPhone。更大的iPhone SE过去一直被各路泄露好手提到,不过普遍认为它会在2021年初…

英文写作句子积累

0 摘要 In this paper, another strategy to learn from multi-label data is studied, where label-specific features are exploited to benefit the discrimination of different class labels. Accordingly, an intuitive yet effective algorithm named LIFT, i.e. multi…

手机qq和电脑qq怎么同步消息_手机QQ接入华为HMS!停止运行也能接收消息

腾讯昨日发布了安卓手机QQ 8.4.10正式版,带来了视频包厢、图片提取文字即时翻译、同时扫描多个二维码等新玩法、新功能。据网友@皮蛋棒棒糖发现,新版手机QQ已经悄然接入了华为HMS移动服务框架,基于华为提供…

安卓手机软件开发_无代码手机app软件开发,让人人都是专业开发工程师

点击上方蓝色字关注我们~近期,谷歌发布了自己的无代码在线app开发平台,这款全新工具旨在让任何一个人都可以轻松进行手机app软件开发。这样的动作无疑指引着安卓软件开发的未来。🙊1无代码开发手机app其实由来已久,业内反复讨论了…

AD19 add pins to nets错误_《英雄联盟手游》错误代码问题大全 LOL的错误代码都是什么意思...

英雄联盟手游上线引起广泛的关注,但是有些玩家在进入游戏的时候出现了代码报错的问题,那么针对这些不同的错误代码要如何解决呢?100036 请求超时,网络不好或者加速器速度不够,换个好点的网络或者加速器 10075 100036 账号没有在p…

Linux编程基础 1:初识Linux

0 学分、课时、成绩组成 本课程3学分(包含上机项目) 理论课时24,上机课时24 考核方式介绍及各项所占比重 1 知识准备 计算机网络基础:OSI模型,TCP/IP协议相关知识 C语言与数据结构相关的知识:指针&…

Linux编程基础 2.1:Linux文件系统与操作

1 文件I/O open() read() write() lseek() close() 1.1 open函数 #include <fcntl.h> int open(const char *pathname, int flags[, mode_t mode);open函数参数说明&#xff1a; pathname&#xff1a;待打开文件的文件路径名&#xff1b;flags&#xff1a;访问模式&a…

主成分分析法_探索主成分分析法

主成分分析法 (Principal Component Analysis, PCA) 是一种数据压缩法&#xff0c;可以从数据中提取重要的部分并排除不重要的部分&#xff0c;是奇异值分解 (Singular Value Decomposition, SVD) 的重要应用。SVD 是线性代数的一个亮点。 是一个 的列阵&#xff0c;矩阵秩 &am…

android 插入耳机 使用自身mic录音_这样选用麦克风,耳机降噪效果会更好

降噪耳机已经越来越普及&#xff0c;降噪耳机要想实现好的降噪效果面临很多挑战&#xff0c;其中如何正确选用麦克风又是一项具有重要影响的基础工作。本文目的旨在帮助读者正确选用麦克风以实现更好的耳机降噪性能&#xff0c;当然也可以帮助您更好地了解降噪耳机原理与实现方…