网络数据隐私保护,阿里工程师怎么做?

个人数据挖掘和个人隐私保护,并非鱼与熊掌,可视分析的技术手段能够帮助我们保护个人隐私数据,避免后续的数据挖掘暴露隐私的同时,平衡数据质量发生的变化,减少对后续数据挖掘的影响。针对网络数据中的隐私保护问题,浙江大学、加州大学戴维斯分校和阿里云DataV团队,共同发表了最新的研究成果《GraphProtector: a Visual Interface for Employing andAssessing Multiple Privacy Preserving Graph Algorithms》【1】,这项成果也已论文形式收录在IEEE TVCG中。

背景

关系描述了人与人之间的互相联系,它可以是一种静态的连接,如“亲属”、“朋友”等,也可以是动态的,通过动作将其关联,例如“通话”、“邮件”等。科技的进步使得人与人之间的联系更为密切,关系变得更复杂,进而形成了一张偌大的网,因此,我们也把这类数据称之为网络数据(或图数据)。网络数据的研究被广泛应用于各个领域,它能够帮助识别社团、划分人群,定位特殊人物、研究信息传播、追踪欺诈行为等。但在对这类数据进行研究的同时,伴随着巨大的隐私泄露风险。为了能够在探索数据背后巨大价值的同时,保护用户的隐私不被泄露,我们提出了一个能够应对网络数据隐私攻击,提供有效隐私保护的可视分析系统——GraphProtector,它不仅能够更全面、更细致地保护用户隐私,同时也能够兼顾数据的实用性,保证数据的质量。

隐私保护方法和流程

针对网络数据的隐私保护相较于一般数据而言,更为困难,原因主要有以下两点:

1) 网络数据自身结构特征繁多,例如,度数分布,最短路径分布,接近中心性分布等,任意的结构特征都有可能成为攻击者的攻击入口,可谓是防不胜防;

2) 网络数据中节点和边都携带了大量的数据,这些数据无疑给了攻击者更多的机会去识别用户现实世界中的身份。

因此,想要完全解决图数据中的隐私问题,将会是一个非常复杂和困难的工作。在当前阶段,我们将研究的重点放在了网络数据的结构特征上,通过修改图的结构特征保护用户的身份不被泄露。其中,之所以选择结构特征作为着手点,最重要的原因是结构特征是网络数据的基础属性,解决结构特征暴露的隐私风险是是解决隐私暴露的必经之路。在这次的研究中,我们先以以下三种结构特征作为示例:

度数:节点度数是和它关联的边的总数(如图二中,图c表格中Degree展示了原始图图a的度数分布);

中心指纹:是指在最长路径`i`的限制下,图中普通节点和中心节点们之间的最短路径所形成的向量。这里为了简化复杂度,我们取`i`设为了`1`,即普通节点和中心节点们是否存在相邻关系作为节点的中心指纹(如图二中,图c中HubFingerprint为选取了原始图图a中4号节点和7号节点作为中心的的中心指纹分布);

子图:指节点集和边集分别是某一图的节点集的子集和边集的子集的图(如图二中,图b为原始图图a的子图);

前人的研究提供了多种隐私匿名保护思路,如k-匿名、聚类和查分隐私等等,我们在研究中选取了k-匿名模型作为我们保护的基本方法。k-匿名模型是最经典的语义匿名模型之一,在隐私保护领域得到了广泛的应用,在这个模型中,它通过准标识符将数据分成若干个等价类(例如度数相同的节点形成了一个度数等价类,中心指纹相同的节点形成了一个中心指纹等价类,结构相同的子图形成了一个子图等价类),并要求每个等价类中至少存在k个数据记录(例如当k为2时,k-匿名模型要求每一个度数等价类中至少存在2个节点),对于这k个数据记录中的任意一条,被识别出的概率为1/k,从而使得攻击者无法确定他们的攻击目标。

通过前人的研究分析我们得知,没有任何一种隐私保护方法能够抵抗所有的攻击,k-匿名模型是众多方法中最为强大的一种,它在一定条件下可以抵抗大部分的隐私攻击,并且对于数据质量伤害的程度较小,使得经过隐私匿名保护后的数据仍然能够应用于后面的分析和研究中。

在k-匿名模型的基础上,为了尽可能地减少对数据质量的损害,我们采取了保持节点个数不变,仅增加或减少边的策略。同时,在目前我们的研究中,为了减少保护方法之间的冲突以及降低计算的复杂度,我们首先将研究的重点放在了增加边的策略上。

上文中多次提到了“数据质量”,保证数据质量是我们隐私保护过程中的一个重要目标(试想,如果不考虑数据质量,我们完全可以同化所有的用户数据,这样一来攻击者将无法定位到攻击目标,但这样的数据却失去了研究意义)。在使用k-匿名模型增加边的方法来保护数据隐私时,有两种处理策略:

1)为当前等价类中的元素增加适当的边,使得这些元素全部转移到其他等价类中,使得当前等价类不存在,也就不会存在隐私暴露风险;

2)为其他等价类中元素增加适当的边,使其中的元素转移到当前等价类中,从而使当前等价类满足k-匿名模型的要求。基于保护数据质量的目的,对于这两种策略,我们将计算它们的代价,及增加边的数量,采取代价较小的的方法执行。我们设计了详细的算法来实现这一目标。另一方面,对于数据质量的变化,系统提供若干的实用性指标,如度数、最短路径等,我们将在数据处理中以及数据处理后呈现这些指标的变化,帮助使用者进行决策,从而能够采取“最优”的解决方案。

下图展现了采用`GraphProtector`进行网络数据隐私保护的流程:

数据导入:首先,导入待保护的网络数据,系统将使用节点连接图的形式呈现原始数据。此外,系统还提供一些原始数据的结构特征分布供使用者观察和探索。

优先级制定及评估指标选取:在这个阶段,通过观察原始数据的结构特征分布,使用者对节点的优先级进行排序,优先级排序决定了节点的处理顺序,排序较高的节点将会被优先处理。此外,使用者在优先级排序时可以锁定一些节点,被锁定的节点(一般为比较重要的节点,如核心人物等)将不会参与到处理过程中,因此在隐私保护处理前后,它的关联关系将不发生改变。在这个阶段,使用者还需要选择关注的实用性指标,在数据处理前后,系统将呈现这些指标的变化,使用者可以通过它们来评估数据质量的变化。

隐私保护处理:经过以上步骤,我们进入了隐私保护的核心步骤,系统在这个阶段提供多个保护器(Protector)用来进行隐私保护处理。每一个保护器仅针对一种结构特征,使用者可以按照自己的需求选择多个保护器进行组合,从而实现更为全面和细致的保护。

这些保护器的使用方法将统一遵循图三种c图所示的流程,首先,根据用户自定义的k值,保护器会去识别数据中风险,并将风险通过一定的视觉编码呈现给使用者。然后,使用者可以制定一个或多个保护方案(即保护目标),对于每一个制定的方案,使用者都可以查看处理前后数据实用性指标的变化。接着,使用者对比不同方案的处理结果,观察是否达到了隐私保护的目的,以及数据质量变化是否在可接受的范围之内,最终选择“最优”的方案进行执行。

导出数据:最后,当数据处理到满意的程度时,使用者可以选择导出经过处理的的数据和数据的节点链接图,以及指标变化情况。

系统设计

下面将向大家详细介绍GraphProtector 系统的可视化及交互设计。系统主要围绕两个界面进行(图一和图四):

图四展示了数据导入(图四a)和优先级制定(图四b)及评估指标选取(图四c)阶段的视图:

节点链接图视图(图四a):主要通过节点链接图以及力引导布局形式展现了原始数据的分布,在数据处理过程中,用户可以调出该视图查看数据变化。

优先级视图(图四b):使用者可以通过结构特征优先级的分布,在坐标轴上选取节点属性的范围,从而制定节点的优先级。视图右侧的每一个区块都代表了一个节点集合,其中罗列了该集合中节点的属性以及该集合中节点的个数,使用者通过拖拽交互来调整集合的优先级顺序,以及选择是否锁定某些集合的节点。

实用性视图(图四c):使用者通过这个视图,选取所关注的数据质量评估指标,这些指标的变化将会在处理前后呈现出来。

图一为隐私保护处理(图一a,b)和数据导出阶段的视图:

保护器视图(图a):主要用于风险定义,风险识别,风险处理和数据评估。这些保护器具有统一的处理流程(如下图五所示),分别通过保护器中的以下控件完成:

 ●  全局k值输入框:快速设定保护器内的k值;
 ●  “半运行”按钮:模拟执行制定方案的运行结果,并记录数据变化;
 ●  “记录”按钮:记录一个方案,方便后续对比不同方案的执行效果;
 ●  “方案相册”按钮:展现所有被记录的方案以及这些方案被执行后的实用性指标变化,方便使用者进行比较,从而选取“最优”方案执行;

目前系统设计了三种保护器,分别为度数保护器,中心指纹保护器和子图保护器。

度数保护器

我们采用柱状图可视化了数据中的节点度数分布,横轴编码度数,按照从小到大的顺序排列,此外,在横轴上,我们还设计了一个“度数跳跃”符来编码度数分布之间的跳跃情况。纵轴编码该度数等价类中的节点个数,蓝色和灰色矩形分别编码锁定和未锁定的节点个数。

为了减少用户的认知和交互负担,我们设定了纵轴上的最高值,这个值是我们认为的安全值,即当度数等价类中的节点个数超过这个值时,这个等价类一般是安全的,所以当节点度数高于这个值时,我们可以暂且忽略其具体值,而将重点放在那些不满足k值的节点上。系统用虚线来编码整体k值(在系统中,我们称之为k线),辅助用户判断k值和节点个数的关系,从而定位风险所在。使用者除了可以通过滑动坐标轴上滑块来调整当前保护器内的整体k值外,还可以通过刷选度数范围,调整范围内的局部k值(系统中用实线编码),制定更加细致的隐私保护方案。

中心指纹保护器

中心指纹保护器分为两个部分,左侧为中心节点选取面板,右侧为中心指纹树。中心节点选取面板呈现了所有节点的结构信息,用户通过这个面板,选取重要的节点作为中心节点。右侧中心指纹树将根据用户的选择进行实时响应,树上每个节点代表了一个中心指纹等价类,即这个等价类中的节点具有相同的中心指纹,树中深度为i+1的等价类节点表示与i个中心节点相邻,所以若n为中心节点的个数,那么树的高度为n+1。

中心指纹树上的每一个节点编码与度数等价中的编码保持一致,虚线表示当前保护器设定的整体k值,蓝色和灰色举行分别编码锁定和未锁定的节点个数,右侧从上到下排列的i个矩形分别代表i个中心节点,顺序和左侧中心节点选取面板中中心节点的顺序保持一致,只有与当前节点等价类关联的中心节点所代表的矩形将才会被绘制出来,通过这种编码方式表达每个中心指纹等价类的指纹信息。

子图保护模块

子图保护器分为三个部分,左侧为子图设定面板,使用者通过这个面板设定子图,子图可以来自于一些经典拓扑结构,如形状结构,环形结构等,也支持从外部导入。在子图设定面板中,系统同样通过灰色矩形的个数编码识别得到的子图的个数。中间面板为子图识别面板,将可视化图中识别得到的当前子图结构和相似子图结构,当识别得到的当前子图结构不满足k值时,用户可以选择将相似的子图补全成为当前的子图。右侧子图结构展示面板,使用者可以通过与子图识别面板的交互查看子图在图中的位置。

历史记录视图

历史记录视图使用时间轴的形式可视化了每一步隐私保护操作后数据的变化。在每一个历史记录中,标题描述了该步骤采用的是哪种类型的保护器,记录左侧我们采用CDE(curvedensity estimates)的方法可视化了图的原始分布(即图四a的节点连接图),边越多颜色越深。在CDE得到的分布图上,我们使用深色的直线表示当前处理所增加的边,当用户鼠标移动到一个历史记录时,该步所增加的边将在图四a中高亮出来。右侧则呈现了数据指标的变化,包括指标的当前值和变化量,通过红绿颜色编码指标的增加和递减,而对于不能计算增量的指标,我们用蓝色进行编码。


阿里云双十一1折拼团活动:满6人,就是最低折扣了!
【满6人】1核2G云服务器99.5元一年298.5元三年 2核4G云服务器545元一年 1227元三年
【满6人】1核1G MySQL数据库 119.5元一年
【满6人】3000条国内短信包 60元每6月
参团地址:http://click.aliyun.com/m/1000020293/


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

刷爆了!这份被程序员疯传的Python神作牛在哪?

随着AI的兴起,Python彻底火了。除了谷歌爬虫、Google广告等项目在大量使用Python开发。包括豆瓣、知乎在内的很多互联网公司都将 Python 作为了主要编程语言开发。对于程序员来说,Python应用前景广,市场需求大,随之而来的是薪资非…

SpringBoot 2.x yml 文件中自定义参数解析对象

在SpringBoot中通过自定义参数可以实现很多重要的功能来达到解耦。 SpringBoot 自定义参数的类型有&#xff1a; 简单键值对&#xff0c;自定义对象&#xff0c;数组&#xff0c;List&#xff0c;Map&#xff0c;List<Map>1. yml中添加自定义参数 # yml 自定义参数 cus:…

阿里云李刚:下一代低延时的直播CDN

在上周落幕帷幕的多媒体领域技术盛会——LiveVideoStackCon音视频技术大会上&#xff0c;阿里云的高级技术专家李刚进行了《下一代低延时的直播CDN》技术分享。主讲人李刚&#xff0c;多年关注在CDN这个领域&#xff0c;早期主要研究和cache服务器缓存以及流媒体相关的技术, 专…

云计算体系结构中soa构建层_云计算的服务模式及技术结构

IaaS: Infrastructure-as-a-Service(基础设施即服务)第一层叫做IaaS&#xff0c;有时候也叫做Hardware-as-a-Service&#xff0c;几年前如果你想在办公室或者公司的网站上运行一些企业应用&#xff0c;你需要去买服务器&#xff0c;或者别的高昂的硬件来控制本地应用&#xff0…

我的计算机专业作文800字,我家的电脑作文800字

一天我和妈妈逛街来到一家衣服店&#xff0c;遇到这家店里刚好有抽奖活动。我对买衣服没啥兴趣&#xff0c;就连忙跑去抽奖。我用手轻轻的推了一下转盘&#xff0c;它就飞快的转了起来&#xff0c;最后慢慢的停在了“电脑一台”。我兴奋地一把抱住老板娘&#xff0c;不停的说&a…

教你用一条SQL搞定跨数据库查询难题

导读 日前&#xff0c;某电商用户由于业务发展迅猛&#xff0c;访问量极速增长&#xff0c;导致数据库容量及性能遭遇瓶颈。为降低数据库大小&#xff0c;提升性能&#xff0c;用户决定对架构进行垂直拆分。根据不同的表来进行拆分&#xff0c;对应用程序的影响也更小&#xf…

漫画:什么是公有云、私有云和混合云?

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 漫话编程 责编 | 阿秃为了方便大家理解&#xff0c;我们尽量用通俗的语言和举例子的方式讲解&#xff0c;并且文中还配备了漫画供大家参考学习。随着最近几年的云计算技术的主键发展和普及&#xff0c;越来越多的企业通过采用…

dell idrac 复位_DELL 服务器 装系统前初始化(恢复出厂、超线程、虚拟化、iDRAC设置)...

参考链接&#xff1a;一、初始化BIOS1、开机启动期间&#xff0c;按“F2 System Setup”(系统设置)2、按 重设 BIOS 或 UEFI 设置为其默认设置。二、CPU超线程设置&#xff1a;1、开机启动期间&#xff0c;按“F2 System Setup”(系统设置)2、选择“System BIOS”(BIOS设置)3…

PTS + ARMS打造性能和应用诊断利器

服务端的性能测试&#xff0c;尤其是业务性能测试&#xff0c;是用来评估性能容量、诊断性能瓶颈和应用错误&#xff0c;或是验证高可用的能力&#xff0c;以此达到降低成本、提升用户体验的目的。但是&#xff0c;当需要有进一步的定位和刨析时&#xff0c;这类性能测试就会显…

计算机如何玩二十四点游戏,数学二十四点游戏有什么技巧吗?

首先.电脑是不存在随机这样东西..因为电脑所用到的随机也不可能是完全的随机吧....怎么也是有个初始条件的吧..至于那个初始条件能不能模拟那就是另一回事了..纯粹数学上的话..应该把开了的区域和没开的区域分开..开了的区域和没开的区域之间的没开的第一行叫做他们的边界.这样…

mybatis 插入数据后返回自增id

useGeneratedKeys"true" keyProperty"id">sql全部内容&#xff1a; <insert id"insertSelective" parameterType"com.gblfy.mall.pojo.Shipping" useGeneratedKeys"true" keyProperty"id">insert into …

Envoy源码分析之Dispatcher

Dispatcher 在Envoy的代码中Dispatcher是随处可见的&#xff0c;可以说在Envoy中有着举足轻重的地位&#xff0c;一个Dispatcher就是一个EventLoop&#xff0c;其承担了任务队列、网络事件处理、定时器、信号处理等核心功能。在Envoy threading model这篇文章所提到的EventLoo…

这项技术厉害了!让旅行者 2 号从星际空间发首批数据!

限时8.3折&#xff0c;立即购票&#xff1a;https://dwz.cn/z1jHouwE物联网作为信息系统向物理世界的延伸&#xff0c;极大地拓展了人类认知和控制物理世界的能力&#xff0c;被称为继计算机和互联网之后的世界信息产业的第三次浪潮&#xff0c;正在深刻地改变着人类的生存环境…

修改文件 华为交换机_华为交换机系统文件管理配置命令大全(二)

11、解压文件&#xff08;unzip&#xff09;<Huawei>dirDirectory of flash:/Idx Attr Size(Byte) Date Time FileName0 drw- - Aug 07 2015 13:51:14 src1 drw- - Apr 02 2016 11:29:41 pmdata2 drw- - Apr 02 2016 11:29:52 dhcp3 -rw- 28 Apr 02 2016 11:29:53 privat…

从阿里云数据库入选Gartner谈数据库的演化

根据全球权威的IT咨询公司Gartner的最新研究报告&#xff0c;在2018年度数据库系统的魔力象限中&#xff0c;阿里云数据库被列入“远见者”象限&#xff0c;这是国产数据库首次进入Gartner魔力象限。Gartner的魔力四象限&#xff0c;描述了数据库厂商的产品能力和市场规模。四个…

申请美国计算机科学,美国计算机科学的申请特点

计算机科学官方定义&#xff1a;计算机科学是系统性研究信息与计算的理论基础以及它们在计算机系统中如何实现与应用的实用技术的学科。它通常被形容为对那些创造、描述以及转换信息的算法处理的系统研究&#xff0c;计算机科学专业的申请特点如下&#xff1a;申请难度中等学校…

mysql 插入数据时 自动设置创建时间和更新时间

一般除了配置表&#xff0c;表中都会有create_time &#xff0c;update_time 2个字段&#xff0c;而这个2个字段测处理方式雨2种&#xff1a; 1在代码中设置当前日期 2>mysq自动设置&#xff08;推荐使用&#xff09; 加入&#xff0c;已经设置好了&#xff0c;修改一下表结…

基于智能家居场景的POALRDB性能体验

Polardb 是阿里云研发的一种关系型数据库&#xff0c;与mysql完全兼容&#xff0c;而性能又是其6倍&#xff0c;具有高吞吐&#xff0c;低延迟等特性&#xff1b; 本测试通过模拟控制智能家居开关的终端场景&#xff0c;来体验polardb的性能&#xff1b; 1、环境搭建 1.1 po…

云计算软件生态圈:摸到一把大牌

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 老姜责编 | 阿秃出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;“我觉得我摸着了一把大牌。”软件领域的新锐企业——有赞公司创始人兼CEO白鸦在转向SaaS领域的一个细分市场时&#xff0c;曾对天使投资人…