CACM观点:超越联邦学习,让AI跨越公司边界

601bcdf45a7380f2df1f0f688c5e9662.png

来源:AI科技评论 

编译:张泷玲、杨柳

编辑:维克多

今年1月份,苏黎世联邦理工学院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)产业落地过程中常见挑战:如何开展跨公司合作?

a0e1fa25095c3f45aeacc89eb5d7580f.png

教授表示:通过数据共享构造大规模的跨公司数据集是一种方式,但有数据保密和隐私泄漏风险,且受隐私相关法律的限制。

而保护隐私的分布式机器

学习框架—联邦学习,能让数据不出本地,解决上述痛点。

但传统的联邦学习目前并不能提供规范的隐私保护证明,此外,其场景容易受到因果攻击。

因此,教授指出,结合联邦学习和领域自适应,能够更大限度让合作公司从协作AI模型中受益,同时将原始训练数据保持在本地。

以下是Stefan Feuerriegelc教授对领域自适应联邦学习的介绍,由星云Clustar高级算法工程师张泷玲、杨柳翻译整理。

近年来,以AI为核心的数字技术正在驱动经济社会发展。数据显示,2030年,AI将使全球工业部门的经济活动增加13万亿美元。

然而,由于无法获取或有效利用跨国公司数据,使得这一技术的潜力在很大程度上仍未得到完全开发。AI收益于大量具有代表性的数据(representative data),这些数据通常需要来自于多家公司,特别是在实际工业场景中,面对少见的意外事件或者关键系统状态,想使AI模型取得良好的性能是极具挑战性的。

实现跨公司AI技术的一种直接方式是通过数据共享构造大规模的跨公司数据集。但出于数据保密和隐私泄漏风险的考虑,大多数公司都不愿意直接共享数据。并且在大多数情况下,共享数据受到隐私相关法律的限制。因此,具有领域自适应的联邦学习是解决跨公司AI问题的关键,一方面,联邦学习能够在不泄漏各公司数据隐私的前提下,实现模型训练和推理;另一方面,领域自适应允许各公司按照自己特定的应用场景和条件,对联邦模型做定制。

1

AI合作的障碍

跨公司AI主要存在两个障碍:

首先是跨公司的数据隐私性。因为直接共享原始数据可能会给竞争对手公司暴露有关自身公司的运营流程或知识产权专有信息等。这一障碍常常出现在公司寻求与供应商、客户或竞争对手公司想进行AI合作时。

例如,制造工厂的数据可以揭示参数设置、产品成分、产率、产量、路线和机器正常运行时间。如果此类数据被泄漏,它可能会被客户在公司谈判中滥用或进而帮助竞争对手提高生产力和改进产品。同时除了知识产权之外,一些深层的限制因素也会降低公司之间共享数据的意愿或倾向,例如公司间的信任程度、道德约束、保护公司用户隐私权的法律法规以及网络安全风险。因此我们需要一个保护数据隐私的解决方案,即在不暴露各公司的源数据前提下进行模型推断。

其次是跨公司间的合作需要考虑到领域偏移(domain shifts)的影响。领域偏移是指为不同公司使用不同配置机器或操作系统采集得到的数据分布不匹配。例如,来自一家公司采集到的机器数据可能不能作为另一家公司的代表性数据由于不同机器数据采集条件不一样。领域偏移给潜在的推论带来了障碍:在一家公司的数据上训练得到的模型可能表现不佳当部署到另一家数据分布明显不同的公司时。

2

跨公司AI

AI研究的最新进展有望突破这两个难题。联邦学习是一种保护隐私的分布式机器学习框架,旨在让多个边缘设备或服务器在不共享数据样本的前提下,通过共享本地模型参数(梯度或权重),共同进行机器学习的模型训练。

跨公司的纵向联邦学习可以从所有参与公司(例如,来自多个工厂、机车车辆厂或发电厂)的共同数据(joint data)中进行,通过共享各公司的模型参数(梯度或权重),共同进行机器学习的模型训练。

为了实现这一点,跨公司的纵向联邦学习通过将模型训练与对原始训练数据的访问解耦:各公司通过加密技术在不暴露各自的原始数据前提下对齐共同数据。通过利用各参与方本地数据进行模型训练,并将中间结果返回给协调方。协调方汇总各参与方的中间结果,构建协作模型,以整体提升模型性能和效果。在此过程中,没有公司有权直接访问到其他公司的原始训练数据。

在跨公司AI的背景下,针对跨公司间的合作的领域偏移问题,由于不同公司的数据分布通常只是较少重叠,即目标域和源域域有一定差异,我们引入领域自适应理论,目标是学习到的不变量,即不受合作公司的特定操作条件限制,从而减轻跨公司之间由于领域偏移产生的模型表现不佳的影响。

具体主要通过学习源域和目标域的公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同,以便边缘分布在特征空间中对齐。

跨公司AI合作可以通过使用联邦学习来解决直接数据共享的隐私保护的障碍和通过域适应解决领域偏移的障碍。这种组合通常被称为联邦迁移学习。

在工业生态系统中通常会遇到两种类型的迁移学习方法,通常将故障视为标签但由于故障通常在系统中不常见,因此是不均衡。通常出现标签在源域中出现但在目标域中没有(称为无监督域适应);标签在源域和目标域中都没有(称为无监督迁移学习)

2b942fc19a2f0780d94d5a4eee2aaa62.png

3

跨公司AI落地

公司可以结合联邦学习和领域自适应,在工业生态系统中实现协同AI。一旦部署,它允许合作公司从协作AI模型中受益,同时将原始训练数据保持在本地。同时,协作模型的训练方式可以很好地概括每家公司的数据。并且任何时候都不会共享跨公司的边界专有数据,只有模型的中间结果(例如梯度)在公司之间共享,此外,协作模型通过学习不变量来代表公司之间的异质性程度。例如,不受公司特定运营条件的影响,每个参与的利益相关公司能够通过其他合作公司的经验来扩展自己的运营经验。

对于工业生态系统,传统的联邦学习中的训练过程通常由中央服务器协调各参与者,但一方面,由于中央服务器的瓶颈特性,可能会造成潜在的漏洞。另一方面,这种集中式架构目前也仅仅应用到双边合作这种普遍的场景。

去中心化的方式实施跨公司的AI合作的是十分具有潜力和巨大价值的,因此引入了去中心化的学习设置。在去中心化联邦学习中,与中央服务器的通信被替换为对等通信,这对于由应用程序或操作条件的相似性和特定用例和操作条件的演变动态形成子网络内的跨公司协作。同时为了完成传统的中央服务器的任务,分布式账本技术的使用在此处的应用也是可行的。最后,这里讨论的方法需要根据跨企业的实践经验中进行选择,以便公司选择是否更倾向集中式或去中心化方法的联邦学习。

虽然联邦学习能够提供较为显着的隐私保护策略,并鼓励跨公司边界的协作,但迄今为止,传统的联邦学习目前并不能提供规范的隐私保护证明,半诚实参与方是可能从梯度更新和之前的模型参数中推断出一些信息。此外,传统的联邦学习场景容易受到因果攻击,即训练好的模型可能会因参与方错误的模型更新而遭到破坏。对于公司而言,避免此类攻击的实施是非常重要的,这里有一种解决方案是提出使用额外的隐私保护技术,例如差分隐私或密码学手段等等。

4

结合联邦学习和领域自适应

可以在跨公司环境中释放AI的力量

对于从业者而言,将跨公司的AI合作引入工业生态系统将需要指导和实施过程的一系列设计原则。例如,如果两家公司的应用程序内的数据分布没有明显的领域偏移,则可以直接应用联邦学习而不需要与领域自适应相结合等。

此外,跨公司AI合作的实施必须满足实践的进一步需求,这可能需要更多扩展,例如持续学习和数据异质性的解决方案。例如,对于高度异构的系统,必须选择足够鲁棒的模型实现,从而实现可迁移性(例如,跨不同的产品型号、不同的传感器组组合或不同的制造商)。同时随着时间的推移,行业成熟后也应该做好引导工作来制定一系列的标准规范跨公司合作进一步释放AI的力量。

5

发展方向

将联邦学习与领域适应相结合,可以在跨公司合作中释放AI的力量。这种跨公司的AI合作可以扩展到传统的供应链或领域之外。例如,创建合作评级组织的大型生态系统。虽然这一愿景可能会在不久的将来实现,但公司可以开始在值得信赖的合作伙伴中学习和使用这项新技术。同时仍然需要开发公平指标去分配模型,这是跨公司AI合作的微观经济含义。行业经理应确定可以帮助更全面优化其绩效的数据合作伙伴,做到与系统思维保持一致。

跨公司的 AI 还可以激发新的商业模式,例如通过AI即提供服务或由第三方公司支持数据。特别是中小型公司将从利用其他公司的数据资源中受益。在这方面,服务系统工程可以帮助制定基于跨公司AI设计和开发服务系统网络的系统原则。朝着这个方向迈出的第一步是系统地理解利益相关者和资源之间的价值共创模式。

跨公司利用AI合作将受益于正在进行的研究。目前研究也在做出新的尝试来推进联邦学习,提高其可扩展性、鲁棒性和有效性,同时加强的隐私保护和提高模型性能方面。对这些具有领域自适应能力的联邦学习可以促进跨公司边界使用AI合作呈指数级增长。

参考链接:

https://cacm.acm.org/magazines/2022/1/257442-artificial-intelligence-across-company-borders/fulltext

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d36783b04fafc4d072c16aa769cd2b94.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知识图谱最新权威综述论文解读:知识图谱应用部分

知识图谱在人工智能的许多领域都发挥了重要作用,综述论文的这一章引入多个最新的基于深度学习的知识驱动方法,主要包括的应用领域有自然语言理解,推荐系统和问答系统。 1 自然语言理解 知识感知的自然语言理解通过将结构化的知识注入一个统一…

知识图谱和专家系统、知识工程、数据库等概念的比较

知识图谱虽然是Google在2012年公布其开发的搜索引擎时提出的名词,但是知识图谱的雏形早在1960左右就已经出现,因此,知识图谱其实是很多相关技术继承发展的结果。并且,和知识图谱类似的还有好几个概念:专家系统、知识工…

CICC城市大脑专委会成功举办“城市大脑成熟度评估专家研讨会”

来源:中国指挥与控制学会2020年以来,城市大脑已成为科技领域的新热点。作为一个新兴的前沿科技领域,不同企业、不同城市对城市大脑的理解并不相同,在建设的过程中没有统一的建设规范和标准作为指导,从而导致不同企业建…

“知识图谱+”系列:知识图谱+图神经网络

最近有很多朋友联系泽宇说想了解一些知识图谱和图神经网络(GNN)结合的研究。那泽宇当然要满足朋友们的要求啊,本期泽宇从知识图谱的几个不同研究方向总结了结合GNN的经典研究,也和大家一起分享。所有内容是泽宇查阅了很多顶会论文…

周志华:“数据、算法、算力” 人工智能三要素,在未来要加上“知识”!

来源:AI科技评论作者:李雨晨 编辑:丛末在CCF-GAIR 2020 的人工智能前沿专场上,南京大学计算机系主任、人工智能学院院长、CCF会士、ACM、AAAI、IEEE、IAPR Fellow周志华教授以“反绎学习”为题发表了大会报告。周志华表示&#x…

“知识图谱+”系列:知识图谱+强化学习

泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标。因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容,包括知识图谱推理…

吴恩达 | 未来十年,人工智能将向以数据为中心转变

来源:IEEE Spectrum访者:吴恩达 计算机科学家吴恩达在人工智能领域可谓声名显赫。2000 年底,他与斯坦福大学的学生一起开创了使用图形处理单元(GPU)训练深度学习模型的先河,并在 2011 年共同创立了谷歌大脑…

给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技...

来源:机器学习研究组订阅AIscience 领域近来有了诸多进展。设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展&#x…

MIT新发现:细胞在分裂前会把垃圾带走

来源:生物通 细胞可以利用这种策略清除有毒的副产品,给后代一个干净的环境。麻省理工学院(MIT)的研究人员发现,在细胞开始分裂之前,它们会进行一些清理,将似乎不再需要的分子排出体外。利用他们开发的一种测量细胞干质…

图灵测试其实已经过时了

来源:立委NLP频道图灵测试的实质就是要让人机交互在限定时间内做到真假莫辨。玩过GPT3的同学们都清楚,其实这一点已经做到了。从这个角度看,图灵测试已经过时了。区别人和机器,需要寻找其他的标准。今天就唠一唠正在风口上的预训练…

揭示世界本质的「机器科学家」,比深度神经网络还强?

来源:AI科技评论作者:Charlie Wood编译:王玥、刘冰一编辑:陈彩娴我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。2017 年,西北大学化学与生物工程系的…

AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

来源:ACM通讯编译:王玥编辑:陈彩娴在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推…

物理学家:时间旅行有可能实现,但前提是……

来源:机器之心作者:Barak Shoshany原文链接:https://phys.org/news/2022-04-parallel-timelines.html时间旅行是科幻电影、小说中经久不衰的话题,然而直到现在,我们依然无法确定这种幻想是否可行。在这篇文章中&#x…

二叉树----数据结构:二叉树的三种遍历及习题

二叉树----数据结构:二叉树的三种遍历,利用递归算法。 关于二叉树的遍历,应用非常广泛,不单单是访问打印结点,还可以进行一系列的操作,如赋值、删除、查找、求二叉树的深度等等。 有递归和非递归两种算法,非递归用到了…

谷歌硬件主管:AR眼镜还在开发,环境计算是未来目标

来源:网易智能5月13日消息,谷歌硬件主管里克奥斯特洛 (Rick Osterloh)日前在接受采访时表示,“环境计算”是谷歌未来的目标和愿景。奥斯特洛周三在接受采访时表示:“计算应该能够无缝帮助你解决任何问题,而且就在你身边…

大脑衰老可逆转,只需注入年轻脑脊液,「返老还童」登Nature

来源:FUTURE远见 选编:闵青云 「老喽,记不住喽。」随着年龄的不断增长,不少人都会发出这样的感叹——记忆力逐渐下降。那么是否存在一种方法,可以让这种自然现象「逆天改命」呢?Nature说:有的。…

人工智能在苍蝇眼的帮助下监测无人机:新的仿生算法从噪声中提取信号

来源:国际仿生工程学会2018年12月,由于有报道称附近有无人机飞行,数千名度假旅客被困在伦敦盖特威克机场。导致这个欧洲非常繁忙的机场关闭了两天,造成重大延误,并使航空公司损失了数百万美元。商业空域中未经授权的无…

树的知识点总结-数据结构

** 一:树的基本术语 1.定义 树是一种非线性结构,只有一个根结点,除根结点外每个孩子结点可以有多个后继,没有后继的结点叫叶子结点。 2.概念 根结点:没有前驱; 孩子:有前驱的结点;…

NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA

来源:机器之心编辑:张倩、小舟在这篇论文中,来自谷歌的研究者提出了一种统一各种预训练范式的预训练策略,这种策略不受模型架构以及下游任务类型影响,在 50 项 NLP 任务中实现了 SOTA 结果。当前,NLP 研究人…

赫夫曼树编码的算法及应用习题--数据结构

赫夫曼树编码的算法及应用习题 1.构造赫夫曼树的方法 1.根据给定的n个权值{w1,w2,---wn},构成n棵二叉树的集合F{T1,T2...,Tn},其中每棵二叉树中只有一个带权为Wi的根结点,其左右子树为空。 2.在F中选取两棵根结点的权值最小的树作为左右子树&#xff…