【中文翻译】第1章-The Algorithmic Foundations of Differential Privacy

为方便阅读,故将《The Algorithmic Foundations of Differential Privacy》翻译项目内容搬运至此;

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

中文翻译版 Github 项目地址1:https://github.com/guoJohnny/algorithmic-foundation-of-dp-zh-cn

中文翻译版 Github 项目地址2:https://github.com/doubleheiker/algorithmic-foundation-of-dp-zh-cn

感谢前辈的翻译工作!

在这里插入图片描述

前言

隐私保护数据分析的问题由来已久,涉及多个学科。随着有关个人的电子数据变得越来越详细,并且随着技术能够更强大地收集和管理这些数据,对隐私的鲁棒性、隐私的意义和隐私在数学上严格的定义需求不断增长,对满足隐私定义的算法需求也在不断增长。差分隐私就是这样的定义。

在讨论了差分隐私的含义之后,本书主要介绍了实现差分隐私的基本技术,并将这些技术应用于创造性的结合中(第3-7节),其中使用了’查询发布问题’作为示例。其中最重要的是:对比单纯用差分隐私计算替换非隐私的每个计算步骤这种实现方法,通过重新思考计算目标能有更好的结果。

尽管有一些惊人的强大的计算结果,但仍然存在根本的局限性——不仅局限于使用差分隐私可以实现什么目标,而且还局限于什么方法可以防止隐私被完全破坏(泄露)(第8节)。

实际上,本书中讨论的所有算法都针对不同计算能力的对手保持着不同的隐私。某些算法是计算密集型的,其他算法则为高效率的。攻击者和算法的计算复杂度均在第9节中讨论。

在第10节和第11节中,我们从基础知识转向查询发布以外的应用程序,讨论了用于机制设计和机器学习的差分私有方法。关于差分私有算法的绝大多数文献都考虑了要进行大量分析的单个静态数据库。在第12节中讨论了其他模型中的差分隐私,包括分布式数据库和数据流计算。

最后,这本书是对差分隐私问题和技术的全面介绍,但并不是要进行详尽的调查,因为到目前为止,在差分隐私方面有大量研究,我们可以只覆盖一小部分。

一、差分隐私的承诺

差分隐私 描述了数据持有者对数据主体的承诺:“无论您将数据用于任何研究或分析,都不会受到不利影响或其他影响。” 差分数据库机制可以使机密数据广泛用于准确的数据分析,而无需诉诸数据清洗,数据使用协议,数据保护计划,或其他受限方面。但是,保证隐私性的同时,将消耗数据实用性:《信息恢复基本法》指出,对太多问题的过于准确的回答将以一种惊人的方式破坏隐私。关于差分隐私的算法研究的目标是将这种不可避免性推迟尽可能长的时间。

差分隐私解决了一个问题,即分析人员通过数据集学习整体信息的同时(趋势、统计信息),无法获取个人的详细信息。

医学数据库可能会告诉我们,吸烟会导致癌症,影响保险公司对吸烟者长期医疗费用的看法。吸烟者受到分析的伤害了吗?如果保险公司知道他吸烟,他的保险费可能会上涨。他可能也会得到帮助。但保险公司学习他的健康风险,使他进入戒烟计划。吸烟者的隐私被侵犯了吗?当然,研究结束后对他的了解比以前更多,但他的信息是不是“泄露”了?差分隐私将认为它不是,理由是对吸烟者的影响是相同的独立于他是否在研究中。是这项研究得出的结论影响了吸烟者,而不是他在数据集中的存在与否影响了实验得出的结论。

差分隐私在满足隐私保护需求下,同时保证了分析数据集能得出相同的结论,例如,吸烟会导致癌症,这与是否有人的数据选是否在数据集中无关。具体地说,任何个体的存在或不存在这个数据集中,差分隐私能确保输出(对查询的响应)在“本质上”发生的概率是相同的。这里,概率被差分隐私机制(由数据持有者控制)所做的随机选择所取代,这里术语“本质上”被抽象为参数 ϵ \epsilon ϵ。较小的 ϵ \epsilon ϵ 将产生更好的隐私(和更不准确的响应)。

差分隐私在满足隐私保护需求下,同时保证了分析数据集能得出相同的结论,例如,吸烟会导致癌症,这与是否有人的数据选是否在数据集中无关。具体地说,任何个体的存在或不存在这个数据集中,差分隐私能确保输出(对查询的响应)在“本质上”发生的概率是相同的。这里,概率被差分隐私机制(由数据持有者控制)所做的随机选择所取代,这里术语“本质上”被抽象为参数 ε \varepsilon ε。较小的 ε \varepsilon ε 将产生更好的隐私(和更不准确的响应)。

差分隐私是一个定义,而不是一个算法。对于给定的计算任务 T T T 和给定的 ε \varepsilon ε 值,将有许多不同的私有算法以 ε \varepsilon ε-差分隐私 方式实现 T T T。有些算法会比其他算法更准确。当 ε \varepsilon ε 很小时,很难为任务 T T T 找到一个高精度的 ε \varepsilon ε-差分隐私算法,就像为一个特定的计算任务找到一个数值稳定的算法一样。

1.1 隐私保护的数据分析

差分隐私是针对隐私保护数据分析问题而提出的一种隐私定义。我们简要地讨论了解决隐私保护的其他方式的一些问题(个人认为:此处的其他方式应该是:属性隐藏、匿名、少量数据等隐私保护方式)。

数据不能完全匿名并且仍然有用

一般来说,数据越丰富,就越有趣和有用。这就产生了“匿名化”和“删除可识别个人信息”的概念,这些概念希望部分数据记录可以被掩盖,其余部分可以发布并用于分析。

然而,由于数据的丰富性使得“个人”数据属性可能与其他领域的数据属性相重合,比如邮政编码、出生日期和性别的组合,甚至三个电影的名字和一个独立的人观看这些电影的大致日期。这种“命名”功能可用于联动攻击,以将不同数据集中的“匿名”记录与非匿名记录进行匹配。有如下两个事例:

  • 1.通过将匿名医疗遭遇数据与(公开提供的)选民登记记录相匹配,确定了马萨丘塞特政府的医疗记录。

  • 2.通过与互联网电影数据库(IMDB)的链接,确定了 Netflix 用户,其观看历史记录包含在 Netflix 发布的匿名电影记录集合中,作为推荐竞赛的训练数据。

差分隐私能中和联动攻击:因为差分隐私是数据访问机制的一个属性,并且与对手可用的辅助信息(背景知识)的存在或不存在无关,访问 IMDb 用户数据将不能对存在 Netflix 训练集中的用户数据进行联动攻击,换言之,攻击在数据集中的用户成功的可能性不会超过不在数据集中的用户。

重标识“匿名”记录并非唯一风险

“匿名”数据记录的重新标识显然是不可取的,这不仅是因为重新标识本身(这肯定揭示了数据集中的成员身份),而且还因为记录可能包含损害信息,如果它与个人相关联,则可能会造成损害。在给定日期从特定紧急护理中心收集的医疗遭遇记录可能只列出少量不同的投诉或诊断。邻居在相关日期访问设施的附加信息给出了邻居病情的一系列可能诊断结果。可能无法将特定记录与邻居匹配这一事实为邻居提供了最低限度的隐私保护。

个人理解:此处的重标识“匿名”记录应该指的是上一小节中通过其他数据集共有属性对匿名数据进行标识。个人认为此处的邻居诊断例子是指,通过关联特定信息,虽然无法确切知道这个人患了什么病,但却缩小了其患病的种类,排除了多余信息,这样是否是种变相的隐私泄露?因为这样只能提供很小的隐私保护。

不具有保护性的大数据集查询

对于特定个体的查询无法准确地得到安全的回答,事实上,人们可能希望直接拒绝他们(如果在计算上无法识别他们)。但如下面的差分攻击所示,强迫查询超过大型集并不是万能的。假设攻击者已知X先生在某个医学数据库中。综上所述,这两个大问题的答案是 :

  • 1.“数据库中有多少人具有镰状细胞特征?”

  • 2.“数据库中除了X外,还有多少人有镰状细胞的特征?”

通过这两个数据查询得出数据,交出X先生是否有镰状细胞特征。

个人理解:如果某种查询是不允许针对特定个人(这里指的是X)进行查询,只能针对大规模数据统计类查询,这种数据发布的方式也是不具有保护性的,能通过差分攻击攻击得到隐私数据,如标题所示,对大数据集的查询不具有保护性。

查询审查存在的问题

查询审核有问题。如果根据历史记录,回答当前的查询会损害隐私,那么人们可能会倾向于审查查询和响应的序列,以阻止任何响应。例如,审核员可能在寻找可能构成差分攻击的成对查询。这种方法有两个困难。首先,拒绝回答一个问题本身就有可能被披露。第二,查询审计在计算上是不可行的;事实上,如果查询语言足够丰富,则甚至不存在算法过程来判断一对查询是否构成差分攻击。(审核、防止差分攻击语句是不现实的

“不安全”的摘要统计

在某种意义上,将摘要统计作为隐私解决方案是失败的,是直接来自上述差分攻击。摘要统计的其他问题包括针对数据库的各种重建攻击,数据库中每个人都有一个要保护的“秘密位”。有用性目标可以是允许,例如,形式的问题“满足属性 p 的多少人具有秘密比特值 1 ?”。另一方面,对手的目标是增加猜测个人秘密的机会。第 8.1 节中描述的重建攻击显示了即使是这种类型的线性查询数也难以保护:除非引入足够的不精确性,否则几乎所有的秘密比特都可以重建。

公布汇总统计数据的风险的一个显著例证是,应用统计技术,最初是为了确认或驳斥个人 DNA 在法医学混合物中的存在,以裁定个人是否参与全基因组关联研究。根据人类基因组计划的一个网站,“单核苷酸多态性”(SNPs,发音为“snips”)是当基因组序列中的单核苷酸(A、T、C或G)改变时发生的 DNA 序列变异。例如,一个 SNP 可能会改变 AAGGCTAA 到 ATGGCTAA 的 DNA 序列。“在这种情况下,我们说有两个等位基因:A 和 T。对于这样一个 SNP,我们可以问,给定一个特定的参考群体,这两个可能等位基因的频率是多少?考虑到参考群体中 SNP 的等位基因频率,我们可以研究这些频率对于有特定疾病的亚群(即“病例”组)可能有什么不同,寻找与疾病相关的等位基因。因此,全基因组关联研究可能包含大量snp病例组的等位基因频率。根据定义,这些等位基因频率只是聚合的统计数据,而(错误的)假设是,通过这种聚合,它们保留了隐私。然而,考虑到个体的基因组数据,理论上有可能确定个体是否属于病例组(并且,因此,有疾病)。作为回应,国家卫生研究院和 Wellcome信托基金终止了公众从他们资助的研究中获取总频率数据的途径。

受制于相关知识缺失,未能理解此段重建攻击和 DNA 事例,需要对第 8.1 节进行了解

这是一个具有挑战性的问题,即使是对于差分隐私,因为涉及到大量的——数十万甚至一百万——测量,这些测量包含和关联了大群体中的小数量的个体。

长期的事实并不“好”

如果一个数据主体随着时间的推移而被跟踪,那么揭露数据个体长期的行为(例如购买面包)可能会有问题。举个例子,假设某人,他年复一年地定期买面包,直到突然转向很少买面包。一位分析师可能会得出结论,某人很可能被诊断为2型糖尿病。分析员可能是正确的,也可能是不正确的;不管怎样,某人的隐私都会受到伤害。

此处原文为Ordinary Fact,根据下文内容来看,更应该表示为一种长期的普遍性结果,故将其翻译为“长期”

“少数人”原则

在某些情况下,一种特定的技术实际上可以为数据集的“典型”成员提供隐私保护,或者更普遍地说,为“大多数”成员提供隐私保护。在这种情况下,人们经常听到这样的说法,即这种技术是足够的,因为它损害了“少数”参与者的隐私。撇开那些对隐私最重要的人来说可能是离群者这一担忧不谈,“少数人”原则在本质上并不是没有价值的:需要做出社会判断,权衡成本和收益。一个清晰的隐私定义与“少数人”的理念相一致,但还没有发展出来;但是,对于单个数据集,“只有少数”的隐私可以通过随机选择行的子集并将其全部释放来实现(引理4.3,第4节)。抽样界限描述了统计分析的质量,可以在随机子样本上执行,它控制要释放的行数。当“少数人”的原则被拒绝时,差分隐私提供了另一种选择。

个人理解为离群点更容易遭受差分攻击,需要在之后深入理解

1.2 参考文献

Sweeney [81] linked voter registration records to “anonymized” medical encounter data; Narayanan and Shmatikov carried out a linkage attack against anonymized ranking data published by Netflix [65]. The work on presence in a forensic mix is due to Homer et al. [46]. The first reconstruction attacks were due to Dinur and Nissim [18].


目录导航

第1章:https://blog.csdn.net/AdamCY888/article/details/146454841
第2章:https://blog.csdn.net/AdamCY888/article/details/146455093
第3章(1/3):https://blog.csdn.net/AdamCY888/article/details/146455756
第3章(2/3):https://blog.csdn.net/AdamCY888/article/details/146455796
第3章(3/3):https://blog.csdn.net/AdamCY888/article/details/146455328
第4章:https://blog.csdn.net/AdamCY888/article/details/146455882
第5章:https://blog.csdn.net/AdamCY888/article/details/146456100
第6章(1/2):https://blog.csdn.net/AdamCY888/article/details/146456712
第6章(2/2):https://blog.csdn.net/AdamCY888/article/details/146456972
第7章:https://blog.csdn.net/AdamCY888/article/details/146457037
第8章:https://blog.csdn.net/AdamCY888/article/details/146457172
第9章:https://blog.csdn.net/AdamCY888/article/details/146457257
第10章:https://blog.csdn.net/AdamCY888/article/details/146457331
第11章:https://blog.csdn.net/AdamCY888/article/details/146457418
第12章:https://blog.csdn.net/AdamCY888/article/details/146457489
第13章(含附录):https://blog.csdn.net/AdamCY888/article/details/146457601

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/73108.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UI-TARS与Midscene.js自动化探索

结合 Midscene.js 和 UI-TARS 大模型 实现 UI 页面自动化的可实施方案,涵盖环境配置、核心流程、代码示例及优化建议: 一、环境配置与工具集成 安装 Midscene.js 方式一:通过 Chrome 插件快速安装(适用于浏览器自动化场景&#x…

Web开发-JS应用NodeJS原型链污染文件系统Express模块数据库通讯

知识点: 1、安全开发-NodeJS-开发环境&功能实现 2、安全开发-NodeJS-安全漏洞&案例分析 3、安全开发-NodeJS-特有漏洞 node.js就是专门运行javascript的一个应用程序,区别于以往用浏览器解析原生js代码,node.js本身就可以解析执行js代…

Spring AOP 核心概念与实践指南

第一章:AOP 核心概念与基础应用 1.1 AOP 核心思想 ​面向切面编程:通过横向抽取机制解决代码重复问题(如日志、事务、安全等)​核心优势:不修改源代码增强功能,提高代码复用性和可维护性 1.2 基础环境搭…

Flutter使用自签证书打包ipa

在 Flutter 中使用自签证书打包 IPA 文件,可以通过以下步骤完成: 1. 准备自签证书 方式一 生成自签证书: 打开 钥匙串访问 应用。选择 证书助理 > 创建证书。按照提示填写证书信息,选择证书类型为 代码签名,并保存…

基于STM32的机器人控制系统设计方案

一、系统概述 该机器人控制系统以STM32微控制器为核心,旨在实现对机器人的运动控制、传感器数据采集与处理、任务调度以及人机交互等功能。适用于多种类型的移动机器人,如轮式机器人、履带式机器人等,可应用于室内导航、环境监测、物流搬运等场景。 二、硬件设计 STM32微控…

【leetcode hot 100 51】N皇后

解法一:(基于集合的回溯)我们从第一行开始寻找,找每一行皇后应该放在第几列。每次找到都用Set记录已经用过的列和对角,其中从左到右向下的对角(行-列相同),右到左向下的对角&#xf…

蓝桥刷题note9(分发饼干,最长回文子串)

1.分发饼干 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j,都有…

面试常问系列(一)-神经网络参数初始化

一、背景 说到参数初始化,先提一下大家常见的两个概念梯度消失和梯度爆炸。 (一)、梯度消失:深层网络的“静默杀手” 定义: 在反向传播过程中,梯度值随着网络层数增加呈指数级衰减,最终趋近…

Manacher 马拉车算法

Manacher 马拉车算法 5. 最长回文子串 - 力扣(LeetCode) 马拉车算法是目前解决寻找字符串中最长的回文子串时间复杂度最低的算法(线性O(n)). 中心扩散法 初始化一个长度与字符串 s 相等的 臂长数组 arr 和 最长臂长 max 与 最…

(学习总结29)Linux 进程概念和进程状态

Linux 进程概念 冯诺依曼体系结构软件运行与存储分级数据流动的理论过程 操作系统操作系统(Operator System) 概念操作系统的功能与作用系统调用和库函数概念 进程概念描述进程 - PCBtask_struct查看进程通过系统调用获取进程标示符 PID通过系统调用 fork 函数创建进程简单使用…

MySQL密码修改的全部方式一篇详解

本文将详细介绍多种修改MySQL密码的方式。 本文目录 一、alter user 语句操作步骤 二、set password操作步骤 三、直接修改 mysql.user表操作步骤 一、alter user 语句 当你以 root 用户或者拥有足够权限的用户登录 MySQL 时,可以使用 ALTER USER 语句来修改密码。…

Wi-Fi NAN 架构(Wi-Fi Aware Specification v4.0,第2章:2.3~2.6)

1. NAN 数据通信架构 1.1 单播支持 要在两个NAN设备之间启动单播数据通信,服务需发起一个NAN数据路径(NDP,NAN Data Path)请求。这对NAN设备之间会建立一个NAN设备链路(NDL,NAN Device Link)&…

Lineageos 22.1(Android 15)实现负一屏

一、前言 方案是参考的这位大佬的,大家可以去付费订阅支持一波。我大概理一下Android15的修改。 大佬的方案代码 二、Android15适配调整 1.bp调整,加入aidl引入,这样make之后就可以索引代码了 filegroup {name: "launcher-src"…

Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持(146)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

Sqlite3数据库

工具库的使用&#xff1a;程序编写时#include <库名.h>即可调用库中的函数 编译时链接工具库&#xff1b; 注意&#xff1a;数据库中不区分字母大小写&#xff1b; SQLite 中的事务是数据库操作中非常重要的一个概念&#xff0c;它用于确保数据库操作的完整性和一致性。…

虚拟路由与单页应用(SPA):详解

在单页应用&#xff08;SPA&#xff0c;Single Page Application&#xff09;中&#xff0c;虚拟路由&#xff08;也称为前端路由&#xff09;是一种关键的技术&#xff0c;用于管理页面导航和状态变化&#xff0c;而无需重新加载整个页面。为了帮助你更好地理解这一概念&#…

练习:运动计划

需求&#xff1a;键盘录入星期数&#xff0c;显示今天的减肥活动。 周一&#xff1a;跑步&#xff1b; 周二&#xff1a;游泳&#xff1b; 周三&#xff1a;慢走&#xff1b; 周四&#xff1a;骑动感单车&#xff1b; 周五&#xff1a;拳击&#xff1b; 周六&#xff1a;…

通过webrtc+canvas+css实现简单的电脑滤镜拍照效果

这里我们用的是webrtc中的MediaDevices.getUserMedia()的浏览器api进行的效果实现&#xff0c;MediaDevices.getUserMedia() 会提示用户给予使用媒体输入的许可&#xff0c;媒体输入会产生一个MediaStream&#xff0c;里面包含了请求的媒体类型的轨道。此流可以包含一个视频轨道…

《TCP/IP网络编程》学习笔记 | Chapter 20:Windows 中的线程同步

《TCP/IP网络编程》学习笔记 | Chapter 20&#xff1a;Windows 中的线程同步 《TCP/IP网络编程》学习笔记 | Chapter 20&#xff1a;Windows 中的线程同步用户模式和内核模式用户模式同步内核模式同步 基于 CRITICAL_SECTION 的同步内核模式的同步方法基于互斥量对象的同步基于…

VBA-Excel

VBA 一、数据类型与变量 常用数据类型&#xff1a; Byte&#xff1a;字节型&#xff0c;0~255。Integer&#xff1a;整数型&#xff0c;用于存储整数值&#xff0c;范围 -32768 到 32767。Long&#xff1a;长整型&#xff0c;可存储更大范围的整数&#xff0c;范围 -214748364…