身份安全风险不断上升:企业为何必须立即采取行动

在推动安全AI 模型的过程中,许多组织已转向差异隐私。但这种旨在保护用户数据的工具是否阻碍了创新?

开发人员面临一个艰难的选择:平衡数据隐私或优先考虑精确结果。差分隐私可以保护数据,但通常以牺牲准确性为代价——对于医疗保健和金融等行业来说,这是一种不可接受的权衡,因为在这些行业中,即使是微小的错误也可能造成严重后果。

寻找平衡

差异隐私通过添加随机噪声来保护个人数据,使得在保留数据集的同时识别个人变得更加困难。

基本概念围绕一个参数 epsilon ( ε ) 展开,该参数充当隐私旋钮。较低的 epsilon 值可实现更强的隐私保护,但会增加更多噪音,从而降低数据的实用性。

一家大型金融科技公司的开发人员最近对差分隐私对其欺诈检测系统的影响表示不满,该系统需要检测交易数据中的微小异常。他们解释说:“当为了保护用户数据而添加噪音时,那些细微的信号就会消失,使我们的模型效率大大降低。”欺诈检测依赖于发现微小的偏差,而差分隐私很容易掩盖这些关键细节。

医疗保健领域的风险甚至更高。例如,用于乳腺癌检测的 AI 模型依赖于医学图像中的精细图案。添加噪音以保护隐私可能会模糊这些图案,从而可能导致误诊。这不仅仅是技术上的不便,还可能危及生命。

差异隐私局限性的一个典型例子是 2020 年美国人口普查。人口普查局首次使用差异隐私来匿名化个人数据。虽然目标是加强隐私保护,但结果却出现了意想不到的后果:注入较小社区数据的噪音扭曲了人口统计信息,导致学校收到错误的资金以及公共服务与实际社区需求不匹配等问题。

各行各业的开发人员都熟悉这种困境。无论是在政府、医疗保健还是金融领域,他们通常都必须遵守隐私法,同时保持数据准确性。当平衡过于偏向隐私时,它会产生远远超出软件性能的连锁反应。

重新思考数据收集

隐私辩论中的一个关键问题是:我们真的需要收集这么多数据吗?隐私问题往往源于过度收集,而不仅仅是我们如何处理数据。“数据越多,模型越好”这一信念促使组织储存信息,尽管其中很多信息都没有用到。

例如,我曾经为一家初创公司提供咨询,这家公司积累了数 TB 的用户数据,但目的不明确。当被问及原因时,他们回答说:“我们可能有一天会需要它。”这增加了隐私风险,并给开发人员带来了庞大的数据集负担,从而降低了性能。数据集越大,匿名化所需的噪声就越多,这进一步降低了模型的准确性。

更智能的数据收集策略有助于解决隐私问题和模型准确性这两个问题。通过只关注必要数据,公司可以减少需要匿名化的信息量,为开发人员提供更干净、更准确的数据集。

开发商的隐性成本

时间是开发人员最宝贵的资源之一,而差分隐私往往会导致效率低下。花费在抵消噪音所损失的准确度上的时间本可以更好地用于构建新功能或改进模型。一家电子商务公司在向其推荐引擎添加差分隐私时,从惨痛经历中吸取了教训。旨在保护用户数据的噪音导致了不相关的产品建议,例如向购买衣服的顾客推荐厨房用具。

这让用户感到沮丧,并推迟了新功能的发布,使公司在速度至关重要的行业中处于竞争劣势。

挑战与限制

差异隐私面临的最大挑战之一是在隐私和数据效用之间找到适当的平衡。隐私应用得越多,数据就越没用。这对于依赖大型数据集中精确模式的人工智能模型来说尤其成问题,因为即使是很小的误差也会破坏关键结果。开发人员,尤其是那些需要高精度的领域的开发人员,一直对差异隐私迫使他们在安全性和性能之间做出妥协表示担忧。

探索更智能的隐私解决方案

如果差分隐私不是每种情况的最佳解决方案,那么还有哪些替代方案?两个有希望的选择是联合学习和更智能的数据收集。

联合学习在智能手机等分散设备上训练 AI 模型,无需共享原始数据。相反,只会发回聚合的匿名更新,在保持模型准确性的同时保护隐私。谷歌和苹果等公司将这种技术用于预测文本等服务,在不暴露敏感数据的情况下改进模型。

联邦学习 (FL) 允许数据保留在生成数据的设备上,从而增强数据隐私。这种方法减少了传输过程中敏感信息的暴露。此外,通过最大限度地减少集中存储,FL 降低了大规模数据泄露的风险。

FL 还通过将训练过程分散到多个客户端来降低集中攻击风险。即使一台设备受到攻击,攻击者也只能访问一小部分数据。

更智能的数据收集侧重于仅收集最相关的信息。我曾合作过的一家医疗保健公司从收集大量患者数据转变为仅关注改进诊断模型所需的关键数据点。通过使用较小的有针对性的数据集,他们无需依赖差异隐私即可保持较高的准确率。

灵活的法规以实现更智能的隐私

GDPR和 CCPA等隐私法规促使许多公司默认采用差异隐私。但隐私挑战并不统一。随着人工智能的发展,隐私法也需要适应。

与我交谈过的一位 AI 伦理顾问总结道:“政府必须认识到 AI 正在不断发展。差异隐私解决了一些老问题,但 AI 已经取得了快速发展。”为了让开发人员采用适合其模型的隐私方法,法规需要提供更大的灵活性,允许采用在不牺牲性能的情况下保护隐私的方法。

重新思考人工智能开发中的隐私

随着人工智能不断改变行业,组织显然需要重新考虑其隐私保护方法。差异隐私有其适用之处,但它远非人们通常所认为的万能解决方案。

通过采用联合学习和更智能的数据收集等替代方案,开发人员可以在不牺牲创新的情况下构建准确、保护隐私的 AI 模型。组织不应收集大量数据,而应专注于只收集必要的数据。真正的问题可能不是如何保护我们收集的数据,而是我们是否应该首先收集这么多数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于51单片机的手环设计仿真

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于STC89C52单片机,DHT11温湿度采集温湿度,滑动变阻器连接ADC0832数模转换器模拟水位传感器检测水位,通过LCD1602显示信息,然后在程序里设置好是否…

C++/CLI编程知识点小记

1.前言 本篇博文并非详细的C/CLI教程,仅是博主就学习和实践总结的部分知识点记录。 第一次接触C/CLI是2017年了,用C编写底层库,C/CLI编写wrapper层,在C#项目中进行调用,开发应用。 2.内容 C/CLI是一种混合编程&…

哈希简单介绍

1.直接定址法(值的分布范围集中) 比如统计字符串中字符出现的字数,字符范围是集中 2.除留余数法(值的分布范围分散) hashkey%n 哈希冲突:不同的值映射到相同的位置 解决哈希冲突的方案: 闭散…

Kafka集群扩容(新增一台kafka节点)

kafka集群扩容、kafka topic迁移 现有环境 IP组件角色192.168.17.51kafka01broker1192.168.17.52kafka02broker2192.168.17.53kafka03broker3 扩容之后环境 IP组件角色192.168.17.51kafka01broker1192.168.17.52kafka02broker2192.168.17.53kafka03broker3192.168.17.54ka…

三端全隔离压接端子485中继器磁耦隔离数据双向透传工业级2口信号放大器抗干扰防雷

美思联压接端子485中继器磁耦隔离工业级2口信号放大器抗干扰防雷https://item.taobao.com/item.htm?ftt&id736247434823 MS-H312S是一款专为工业自动化通信而生解决RS-485总线星型结构组网,解决复杂电磁场环境下RS-485大系统要求而设计的RS-485总线分割集线器(…

【设计模式】万字详解:深入掌握五大基础行为模式

作者:后端小肥肠 🍇 我写过的文章中的相关代码放到了gitee,地址:xfc-fdw-cloud: 公共解决方案 🍊 有疑问可私信或评论区联系我。 🥑 创作不易未经允许严禁转载。 姊妹篇: 【设计模式】&#xf…

Linux中使用cp命令的 -f 选项,但还是提醒覆盖的问题

问题: linux 在执行cp的命令的时候,就算是执行 cp -f 也还是会提醒是否要进行替换。 问题原因: 查看别名,alias命令,看到cp的别名为cp -i,那就是说cp本身就是自带覆盖提醒,就算我们加上-f 的…

JavaEE初阶——初识EE(Java诞生背景,CPU详解)

阿华代码,不是逆风,就是我疯,你们的点赞收藏是我前进最大的动力!!希望本文内容能帮到你! 目录 零:Java的发展背景介绍 一:EE的概念 二:计算机的构成 1:CU…

五、CAN总线

目录 一、基础知识 1、can介绍 2、CAN硬件电路 3、CAN电平标准 4、CAN收发器芯片介绍 5、CAN帧格式 ① CAN帧种类 ② CAN数据帧 ③ CAN遥控帧​编辑 ④ 位填充 ⑤ 波形实例 6、接收方数据采样 ① 接收方数据采样遇到的问题 ② 位时序 ③ 硬同步 ④ 再同步 ⑤ 波…

Java的IO流(二)

目录 Java的IO流(二) 字节缓冲流 基本使用 使用缓冲流复制文件 字符缓冲流 缓冲流读取数据原理 字符编码 字符集 转换流 序列化流与反序列化流 基本使用 禁止成员被序列化 序列号不匹配异常 打印流 基本使用 系统打印流与改变流向 Prop…

【网络安全】依赖混淆漏洞实现RCE

未经许可,不得转载。 文章目录 正文 依赖混淆是一种供应链攻击漏洞,发生在企业的内部依赖包错误地从公共库(如npm)下载,而不是从其私有注册表下载。攻击者可以在公共注册表中上传一个与公司内部包同名的恶意包&#xf…

【深入理解SpringCloud微服务】了解微服务的熔断、限流、降级,手写实现一个微服务熔断限流器

【深入理解SpringCloud微服务】了解微服务的熔断、限流、降级,手写实现一个微服务熔断限流器 服务雪崩熔断、限流、降级熔断降级限流 手写实现一个微服务熔断限流器架构设计代码实现整体逻辑ProtectorAspect#aroundMethod(ProceedingJoinPoint)具体实现1、获取接口对…

低级编程语言和高级编程语言

一.区分低级编程语言和高级编程语言的方法 1.低级编程语言 低级编程语言,并不是简单的编程语言,而是写起来很费事的编程语言,如所有编程语言的"祖宗":汇编语言,写起来极其麻烦,说不定一个 int a1; 它就得写好几行,甚至十几行 这样麻烦的编程语言为什么还没消失那,因…

P9235 [蓝桥杯 2023 省 A] 网络稳定性

*原题链接* 最小瓶颈生成树题,和货车运输完全一样。 先简化题意, 次询问,每次给出 ,问 到 的所有路径集合中,最小边权的最大值。 对于这种题可以用kruskal生成树来做,也可以用倍增来写,但不…

react:组件通信

组件通信 父组件向子组件通信 function App() {return (<div><div>这是父组件</div><Child name"这是子组件" /></div>); }// 子组件 function Child(props) {return <div>{props.name}</div>; }props说明 props可以传…

[Python学习日记-26] Python 中的文件操作

[Python学习日记-26] Python 中的文件操作 简介 操作模式 循环文件 其他功能 混合模式 修改文件 简介 在 Python 中的文件操作其实和我们平时使用的 Word 的操作是比较类似的&#xff0c;我们先说一下 Word 的操作流程&#xff0c;流程如下&#xff1a; 找到文件&#x…

re题(39)BUUCTF-[FlareOn3]Challenge1

BUUCTF在线评测 (buuoj.cn) 查壳是32位&#xff0c;ida打开&#xff0c;进入main函数&#xff0c;进入sub_401260看看 查看byte_413000存的字符串 _BYTE *__cdecl sub_401260(int a1, unsigned int a2) {int v3; // [espCh] [ebp-24h]int v4; // [esp10h] [ebp-20h]int v5; //…

python selenium网页操作

一、安装依赖 pip install -U seleniumselenium1.py&#xff1a; from selenium import webdriver from selenium.webdriver.common.by import Bydriver webdriver.Chrome() driver.get("https://www.selenium.dev/selenium/web/web-form.html") title driver.ti…

https的连接过程

根证书: 内置在操作系统和浏览器中,可手动添加,下级是中间证书或服务器证书,只有当中间证书或服务器证书关联到已存在的根证书时,中间证书或服务器证书才视为有效 中间证书: 位于根证书和服务器证书之间,他们之间也可以没有中间证书,作用是对根证书增加一个下级,方便管理,由根…

整合多方大佬博客以及视频 一文读懂 servlet

参考文章以及视频 文章&#xff1a; 都2023年了&#xff0c;Servlet还有必要学习吗&#xff1f;一文带你快速了解Servlet_servlet用得多吗-CSDN博客 【计算机网络】HTTP 协议详解_3.简述浏览器请求一个网址的过程中用到的网络协议,以及协议的用途(写关键点即可)-CSDN博客 【…