隐私计算:数据匿名化的优点和缺点

PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。

数据分析是如今商业社会业务运营的核心工具,节省成本的同时还可以深入了解用户偏好,通过定制产品来收获最大化收益。然而,企业持有的大量数据是用户的私有数据,可能会危及用户的隐私安全。因此全球范围内已经制定实施了一些相关法律法规,例如《通用数据保护条例》(GDPR)、1996年的《健康保险可移植性和责任法案》(HIPAA)和《加州消费者隐私法》(CCPA)。
在保护数据隐私的各类方法中,数据匿名化是经常采用的一种方法,可以在不损害用户隐私和安全的情况下使用其持有的信息。本文将探讨数据匿名化这种方法的缺点和优势。

什么是数据匿名化?

数据匿名化是一种去除或哈希化与个体相关联的各种数据点的过程。这个过程使组织能够存储和交换用户数据,可以用于分析、可视化或与第三方分享,同时不会暴露数据与特定个人的任何联系。

数据匿名化通常会尽量保留更多的数据,匿名化的数据往往与原始数据集相似,但粒度较低。例如,如果收集完整的出生日期(月/日/年),可以通过隐藏月份和日期,只保留年份来进行匿名化,从而不暴露个人可识别信息(PII)。

数据匿名化技术

以下是如今常用的一些数据匿名化技术。

  • 数据屏蔽 涉及创建数据的一个虚假但结构相似的版本。通过修改技术来实现,如洗牌、简单的单词或字符替换、加密或屏蔽某些数据。例如,字母“R”可以通过替换屏蔽变成“L”,或者信用卡号可以被屏蔽为“**** **** **** **** 1126”。

  • 伪匿名化 是从数据集中删除标识符并替换为伪名称的过程。这种匿名化技术的主要目标是确保特定数据除非与另一组信息相结合,否则无法与可识别的个人匹配。伪匿名化数据的简单方法是用假名(伪名)替换个人的姓名。例如,如果用户在注册时提交姓名“Jane”,则主数据库可以简单地将其存储为“Person 2647”。将Person 2647与Jane的映射算法可以存储在另一个安全数据库中。

  • 泛化 是删除数据的更具体方面以减少其可识别性的过程。这实际上就像缩小放大镜,隐藏了更精细的细节,但仍保持了用于分析的高准确性。例如,如果有一个数据集,其中包含每个人的年龄,可以使用类别进行泛化,如21到25和26到30。还可以通过删除房屋和街区号码而保留街道名称、城市或邮政编码来泛化地址。

  • 数据交换 是一种简单的匿名化方法,涉及将数据某一列中的属性与同一列中的其他属性进行交换。这意味着在此过程结束时将得到一个混洗的数据库,不会透露任何自然人的具体信息。

假设有如下数据库:

First NameLast NameD.O.BCity
JohnMaxwell12/4/1985London
ClaireCook3/7/1994New York
MattJansen5/10/1991Amsterdam
SusanClark17/11/1989Stockholm

数据可以如下所示交换以匿名:

First NameLast NameD.O.BCity
MattClark5/10/1991London
ClaireMaxwell12/4/1985Amsterdam
SusanCook17/11/1989Stockholm
JohnJansen3/7/1994New York
数据匿名化的优缺点
数据匿名化的优点
  1. 防止数据滥用 根据2021年Verizon数据泄露调查报告,数据匿名化有助于防止授权访问敏感数据的用户无意中滥用或暴露数据。

  2. 易于实施 匿名化主要使用简单的算法来交换、泛化、伪匿名化或屏蔽特定数据。这使得该过程成本效益高、快速且容易实施。

  3. 作为损害控制措施 没有系统是100%防不胜防的,所以始终需要准备可能的渗透。但在这种情况下,数据匿名化可以帮助保护敏感数据,因为对攻击者来说,数据不会有太多意义。该过程还有助于在数据库泄露中减少数据损失。

  4. 符合法规 欧洲联盟的GDPR要求在欧盟居民的数据必须进行伪匿名化/匿名化,数据不再被分类为个人数据,可以在不违反合规法规的情况下用于更广泛的目的。

  5. 提高业务绩效 由于匿名化数据可以在不违反合规标准的情况下进行分析和使用,企业可以利用数据了解他们的用户并提供更好的服务。

  6. 保护业务和品牌声誉 数据匿名化是组织保护敏感、个人和机密数据的重要任务的一部分。这些信息的丢失或泄露可能导致信任和市场份额的可能损失。

数据匿名化的缺点
  1. 分析不够准确 减少存储和分析的数据细化程度会导致信息不够有意义和洞察不够准确。

  2. 不维护数据关系 数据匿名化减少了数据的细化程度和准确性,因此在某些情况下破坏了数据点之间的关系。失去的关系对于任何人工智能或数据科学活动都至关重要,匿名化数据在可获得的效用方面受到限制。

  3. 仅适用于聚合数据 数据匿名化仅在需要汇总数据的情况下有用,这些方法的目标是对数据集执行统计分析。该技术不能用于分析个体记录级数据,其中个人可识别的数据对分析非常重要。在其他情况下,比如在健康研究中,这意味着如果分析显示特定主体面临致命疾病的高风险,就无法识别出那个个体以通知他们发现并将这一重要信息传达给健康受到威胁的个人。数据匿名化还使数据无法用于定向优惠的个性化,因为连接洞察力与个人的能力已经被破坏。

  4. 隐私风险仍然存在 大多数数据匿名化形式都可以通过获取外部数据集来逆向工程。例如,在伪匿名化的情况下,如果内部人员已经可以访问伪匿名化的数据,他们只需要访问伪匿名数据库就可以对整个数据集进行去匿名化。

  5. 无法在多个数据源之间链接数据 在某些情况下,人们希望在多个数据库之间记录级别上链接数据,例如,将来自基因组数据库、临床数据库和可穿戴设备数据库的患者数据进行合并。或在金融科技场景中,将银行、电信公司和保险公司的个人数据进行链接。但在匿名化的情况下,这是不可能的,记录链接的关键就是这些技术消除的标识符。

  6. 在协作设置中无法控制数据使用 匿名化技术不允许数据所有者对一旦匿名化并传输给第三方后如何使用数据有任何控制。一旦第三方收到匿名化数据,它可以以多种方式使用,包括重新识别数据,就像著名的Netflix数据去匿名化丑闻中发生的那样。

总结而言,数据匿名化的主要优点是在对聚合或个体数据进行分析时,它是一种简单、廉价的保护隐私的方式。然而,在大多数情况下,缺点远远超过了优点。数据匿名化产生的结果不够准确,不允许数据链接。它也不够安全,容易实现重新识别。此外,它也不允许对数据和模型的使用进行任何控制,也不能保护数据和模型的知识产权。然而,也许数据匿名化最具挑战性的方面是当人们想要与第三方合作时。匿名化后,无法在多个数据库之间链接数据。同样,在汇总匿名化数据的情况下,无法删除重复数据并创建有偏差的数据集。

数据匿名化技术被许多数据隐私法规明确要求或接受,但这并不意味着它们是安全的,这实际上取决于所希望获得的分析和效用类型。隐私增强工具和技术的选择需要根据具体情况进行考虑,但应谨慎使用数据匿名化,因为它已被证明很容易被破坏。寻求从数据中获取更多价值的数据驱动型企业需要一个综合性的隐私保护数据协作平台,该平台允许根据组织和数据源的需要灵活选择和组合多个隐私增强技术(PETs)。

原文地址:Data Anonymization Techniques: Pros and Cons
原文作者:Tova Dvorin
翻译 & 整理:开放隐私计算 & PrimiHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/578440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SVM的鸟鸣识别,语谱分析

目录 支持向量机SVM的详细原理 SVM的定义 SVM理论 Libsvm工具箱详解 简介 参数说明 易错及常见问题 完整代码和数据下载链接: 基于SVM的鸟鸣识别,语谱分析(代码完整,数据齐全)资源-CSDN文库 https://download.csdn.net/download/abc991835105/88610830 SVM应用实例, 基于S…

基于机器学习算法的数据分析师薪资预测模型优化研究(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

阿里云“块存储”是系统盘和数据盘的意思

阿里云“块存储”是什么意思?块存储是指阿里云服务器的系统盘或数据盘。块存储EBS(Elastic Block Storage)是为云服务器ECS提供的低时延、持久性、高可靠的块级随机存储。块存储支持在可用区内自动复制您的数据,防止意外硬件故障导…

W5100S-EVB-Pico评估版介绍

文章目录 1 简介2 硬件资源2.1 硬件规格2.2 引脚定义2.3 工作条件 3 参考资料3.1 Datasheet3.2 原理图3.3 尺寸图(单位:mm)3.4 参考例程 4 硬件协议栈优势 1 简介 W5100S-EVB-Pico是一款基于树莓派RP2040和全硬件TCP/IP协议栈以太网芯片W5100…

Java基于TCP网络编程的群聊功能

服务端 import java.net.ServerSocket; import java.net.Socket; import java.util.ArrayList; import java.util.List;public class Server2 {public static List<Socket> onlineList new ArrayList<>();public static void main(String[] args) throws Except…

运维工程师的出路

在当今社会&#xff0c;随着科技的不断进步和数字化转型的加速&#xff0c;运维工程师这一职业面临着前所未有的挑战和机遇。许多运维工程师开始思考自己的职业出路&#xff0c;他们想知道如何在竞争激烈的市场中脱颖而出&#xff0c;寻找更好的职业发展机会。本文将探讨运维工…

java流浪动物保护系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java Web 流浪动物保护系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql…

工具系列:TensorFlow决策森林_(6)模型预测

文章目录 重要提示设置model.predict(...) 和 pd_dataframe_to_tf_dataset 函数model.predict(...) 和手动的TF数据集model.predict(...)和model.predict_on_batch()在字典上的使用使用YDF格式进行推理 TensorFlow决策森林&#xff08; TF-DF&#xff09;的 预测。 在本文中&…

kubernetes(k8s) Yaml 文件详解

YAML格式&#xff1a;用于配置和管理&#xff0c;YAML是一种简洁的非标记性语言&#xff0c;内容格式人性化&#xff0c;较易读。 1、查看API 资源版本标签 kubectl api-versions 2、编写资源配置清单 kubectl create -f nginx-test.yaml --validatefalse 2.3 查看创建的po…

氢燃料电池商用车系统架构开发与集成技术

一、国家及不同地区对氢能发展支持政策 近三年国家对氢能及燃料电池产业的支持政策 近年来22个省市的发展规划中提到了大力支持氢能源产业发展 二、燃料电池客车架构分解及国内外已有车型 未来燃料电池客车发展方向 未来燃料电池客车新增加的燃料电池堆产业链及供应商 国内外差…

Java毕业设计——vue+springboot音乐网站音乐播放器,歌曲管理系统

1&#xff0c;项目背景 随着计算机技术的发展&#xff0c;网络技术对我们生活和工作显得越来越重要&#xff0c;特别是现在信息高度发达的今天&#xff0c;人们对最新信息的需求和发布迫切的需要及时性。为了满足不同人们对网络需求&#xff0c;各种特色&#xff0c;各种主题的…

spring初始化bean之后执行某个方法

这个问题可以分两种解释&#xff1a; 1. 某个bean初始化执行? 2. 所有bean初始化后执行? 第一个问题可以在spring bean的生命周期中找到答案&#xff1a; bean定义-实例化-初始化-销毁。注意&#xff1a; 这里的bean定义是指所有的bean定义完成&#xff0c;然后才继续执…

1.Linux是什么与如何学习

第 1 章 Linux 是什么与如何学习 历史部分略过。 1.2.5 Linux的内核版本 Linux的内核版本编号有点类似如下的样子&#xff1a; 3.10.0-123.el7.x86_64 主版本.次版本.发布版本-修改版本虽然编号就是如上的方式来编的&#xff0c;不过依据 Linux 内核的发展期程&#xff0c;…

使用代码生成器生成代码 mybatis-plus-generator

1、将相关依赖导入到项目中 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-generator</artifactId><version>3.4.1</version></dependency><dependency><groupId>org.apache.velocity<…

猫头虎博主第六期赠书活动:《手机摄影短视频和后期从小白到高手》

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

移动应用专项测试:确保用户体验的全方位保障

引言&#xff1a; 随着移动应用的普及和功能的不断增加&#xff0c;开发者需要对应用进行全面的测试&#xff0c;以确保其在不同场景下的稳定性、安全性和用户体验。本文将介绍一些常见的移动应用专项测试&#xff0c;包括安装测试、卸载测试、特殊操作测试、交互测试、通知测试…

MySQL中varchar和int隐式转换的注意事项!

一、前言 在一个阳光明媚的下午&#xff0c;我们的测试在运行SQL是发现了一个灵异事件。 别着急&#xff0c;等我慢慢说来&#xff0c;是一个查询库存的SQL&#xff0c;控制台打印了&#xff0c;查询为0条记录。 想着不太信&#xff0c;自己把SQL粘出来执行一下&#xff0c;刚…

【美团大数据面试】Java面试题附答案

目录 1.多线程代码示例 2.单例代码示例 3.LinkedBlockingQueue原理解析 4.模板设计模式讲解 5.生产者-消费者队列设计方法 6.堆内存和栈内存的区别 7.ThreadLocal底层机制 8.synchronized原理&#xff0c;存在的问题&#xff0c;解决方案 9.volatile使用场景和原理&am…

解析动态规划

本文由 简悦 SimpRead 转码&#xff0c; 原文地址 juejin.cn 前言 我们刷 leetcode 的时候&#xff0c;经常会遇到动态规划类型题目。动态规划问题非常非常经典&#xff0c;也很有技巧性&#xff0c;一般大厂都非常喜欢问。今天跟大家一起来学习动态规划的套路&#xff0c;文章…

突破PHP disable_functions方法

1. 利用 LD_PRELOAD 环境变量 知识扫盲 LD_PRELOAD&#xff1a;是Linux系统的一个环境变量&#xff0c;它指定的*.so文件会在程序本身的*.so文件之前被加载。putenv()&#xff1a;PHP函数&#xff0c;可以设置环境变量mail()&#xff0c;error_log()&#xff1a;PHP函数&…