Multilevel Privacy Preservation Scheme Based on Compressed Sensing | IEEE Journals & Magazine | IEEE Xplore
摘要
物联网的广泛应用在给人们带来便利的同时,也引发了人们对数据采集、分析和共享过程中隐私泄露的担忧。本文提出了一种基于压缩感知的多级隐私保护方法,该方法具有采样压缩、数据隐私保护和数据访问可控等优点。在数据采集端,采用适合于资源受限环境的压缩感知技术,借助判别分量分析对信号进行采样和加密。然后,加密后的数据将及时传输到云端。在云服务上,受CS保护的信号很少向恶意攻击者泄露隐私信息,它们将被两类授权实体访问。 一种是具有低权限的半授权用户,其只能从加密数据中获取特征以供后续推理;另一种是完全授权用户,其能够重构原始数据。我们通过人脸识别系统和人体活动识别系统的两个案例研究证明了该方案,并分析了其性能。
一、引言
物联网(IoT)技术的快速发展使数据的持续收集和处理成为可能,这些数据广泛分布在我们周围,大大提高了我们的生活质量 [1] 。例如,摄像头拍摄车辆和行人的视频,以实现交通管理系统中对道路状况的监控。另一个恰当的例子是,可穿戴设备用于记录活动轨迹,以监测老年人或儿童的紧急情况。作为这些应用的基石,传感器或边缘设备获取数据,然后将其发送到云端或第三方进行分析和识别任务。然而,这些上传的数据包含大量隐私信息,这引发了对隐私保护的担忧。因此,我们希望在不损害我们隐私的情况下享受这些应用程序带来的便利。
一般来说,强加密算法(如AES [2] 或RSA [3] )不仅可以防止个人隐私泄露,而且还可以提供高级别的安全性。然而,这些加密算法的计算成本非常高,而新兴的物联网应用强调了对实时推理的需求。因此,整个信号的强加密既没有用也没有必要。压缩感知(CS) [4] 可以以比奈奎斯特低得多的采样率进行采样,并通过其随机感知机制提供轻量级加密。因此,使用CS来获取数据并同时为IoT应用提供隐私保护最近已成为流行的方法 [5] , [6] 。
在CS框架中,通过测量重构来解密信号,这带来了一个挑战,即CS由于CS重构方法的缺陷而不适用于资源有限的平台上的应用:传统的迭代优化算法 [7] 计算量大,特别是对于高维信号;最近的深度学习方法 [8] 需要一个大的训练数据集,它们的性能高度依赖于数据集。最近,Pham等 [9] 联合收割机将传统的迭代优化和深度学习相结合,以提高重建质量,但计算成本几乎是传统迭代优化的四倍。因此,希望绕过耗时的重建并直接在压缩域中进行推断,这将使CS在物联网应用中具有更广泛的前景。 然而,特定的学习任务,如二维可视化和分类,在压缩域 [10] 中通常是困难的。用简单的线性变换代替非线性重构是一种明智的策略,它在许多方法中得到了应用。第一种方法 [11] 、 [12] 通常将测量的维度转换为原始信号的维度,然后在图像域中进行后续推断。虽然这些方法提高了分类精度,但由于机器学习模型随压缩比而变化,因此它们存在较大的内存开销。为了解决上述缺点,在 [13] 和 [14] 中提出了压缩分析框架,其中通过线性变换直接获得特征。然而,值得注意的是,这一框架的改进可能在以下两个方面。 一是最小二乘法得到的特征与直接在原始图像上得到的特征相比存在误差,尤其是在维数较小时。另一种是这些特征可以用于多个任务,而数据所有者希望用户获得的特征仅用于预期的推理,而不容易转移到恶意应用程序,因此无法实现细粒度的访问控制。
Kung等人 [15] 提出了压缩隐私,其使得数据所有者能够使用有损压缩来控制上传的数据,从而在递送预期效用(分类)时保护数据的隐私。判别成分分析(DCA)是实现这一目标的常用方法,其有效性已通过 [16] 中的差分互信息得到证明。如果能够在压缩域直接通过DCA投影得到约简数据(特征),将从上述两个方面改进压缩分析框架。然而,没有考虑信号恢复。在某些情况下,可能需要恢复原始信号。例如,如果患者最初是通过远程医疗监测进行诊断的,则需要恢复患者的原始数据以供进一步分析。
在这篇文章中,我们提出了一种基于CS的多级隐私保护方案,该方案考虑了所有上述问题,并在 Fig. 1 中进行了概述。在传感器端,信号由CS采样,然后上传到云端。在云服务中,未经授权的用户无法从密文中获取任何隐私信息,而半授权用户可以获取明文域的特征向量,无需复杂的重构即可完成推理任务,而完全授权用户则能够从测量数据中准确重构出原始信号。我们的具体贡献如下。
-
我们设计了一个可逆的多级隐私方案的基础上CS,允许不同的访问权限为不同的用户。半授权用户只能获得压缩域的特征向量,不能访问原始数据,而完全授权用户可以高质量地重建原始信号。
-
我们提出了一种新的测量矩阵的想法,使半授权用户可以获得一个特征向量,而无需信号重建,节省计算资源。此外,该特征向量仅用于所需的推理任务,有效地避免了进一步的隐私挖掘。
-
对于完全授权的用户,提出了一种基于SVD的变换,以提高重建质量。
-
在智能监控系统的背景下,隐私保护,在这项工作中,我们选择人脸识别和人类活动识别作为两个案例研究,以证明我们的框架适用于涉及隐私问题的多种类型的数据。
Fig. 1. 方案:原始信号先通过CS压缩加密,然后上传到云端。云上受保护的信号不会向攻击者泄露隐私,但它们可供用户A(半授权用户)使用,并可供用户B(完全授权用户)恢复。
二、背景
A. Preliminary
1)压缩感知
CS [4] 理论自诞生以来,在信号处理领域产生了巨大的影响。根据CS,只要信号是稀疏的或可压缩的,它可以以比传统的Nyquist-Shannon信号采集速率低得多的速率被采样。到目前为止,CS已成功应用于MRI成像、认知无线电通信、远程医疗监护系统等领域,在宽带频谱感知和超宽带通信方面的应用潜力表明,CS有可能在下一代通信系统中发挥重要作用。
2)判别成分分析
DCA [15] 可以被看作是监督主成分分析(PCA),其目的是找到最佳子空间的鉴别能力。给定训练数据集
值得注意的是,DCA的判别能力只存在于由前 L−1 特征向量组成的子空间,这允许我们通过投影机制来确定子空间的适当维数。此外, L≪n 表示大部分数据将被丢弃。也就是说,它可以在投影过程中提供隐私保护。数据所有者使用DCA压缩数据,然后上传压缩后的数据,这些数据提供了预期的实用程序,而不会泄露原始信息。因此,通过DCA [18] 实现压缩隐私。
B. 相关工作
1)基于CS的加密
在标准CS中,通常使用随机或伪随机测量矩阵对信号进行线性采样,这赋予CS加密 [19] 的固有能力。因此,它可以被视为一个对称密码系统,其中 x 是明文, y 是密文, Φ 是密钥。基于CS的加密最重要的优点是CS方法的线性和压缩显著降低了操作复杂度和传输成本,适用于资源受限的传感器或边缘设备。首先,在 [20] 中证明了基于CS的加密虽然没有达到Shannon定义的完美保密性,但它可以保证计算安全性。Hossein et al. [21] 也支持这一观点,并进一步证明了在源消息集的可数无限基数和一致性的假设下,CS可以实现较弱意义上的完美秘密。 在 [22] 中,据报道,已知明文攻击对于标准CS是无效的,标准CS作为一种加密方法越来越有吸引力,对于资源有限的物联网应用来说成本可以忽略不计。对于一次性高斯感知,Bianchi et al. [23]得到了一个重要的结论,即CS通过归一化算子提供了完美的保密性。总之,CS可以作为隐私保护应用程序的附加安全层。
此外,Cambareri等人 [24] 提出了一种基于CS的多级加密,其中测量矩阵被部分翻转以控制重建图像的质量。该方案只注重为不同的用户提供不同质量的重建,而忽略了数据的实用性。在此基础上,在 [25] 和 [26] 中提出了两级保密方案,即半授权用户只能恢复非敏感部分,而完全授权用户可以恢复整个信号。然而,信号需要被完全采样,然后在加密之前检测敏感部分。这在一定程度上违背了压缩感知算法的初衷,即同时实现采样和压缩,同时降低复杂度。
2)压缩推理
Calderbank等人 [27] 首次在压缩域中使用支持向量机(SVM)分类器,并给予理论上的误差边界。此外,这项工作从理论上表明,它是可行的,直接从CS测量完成的推理任务,而无需重建。Lohit et al. [28] 应用深度学习方法在压缩域中进行推断。特别地,逆投影的结果,即, x~=ΦTy 是卷积神经网络的输入,用于分类,其产生更高的分类精度。在此基础上,在 [11] 和 [12] 中提出了端到端的深度学习解决方案,其中两个完全连接的层后面是卷积层。第一全连接层的参数形成用于将原始信号压缩为测量的测量矩阵。 第二个全连接层用于逆投影,将测量值转换为代理信号作为后续卷积层的输入。然而,大多数基于神经网络的方法需要为每个压缩比训练新的网络模型。在 [29] 中,通过在测量结束时填充“0”来突破此限制,但存在训练时间和复杂性急剧增加的新问题。另一方面,Chou等人 [13] , [14] 提出了一种用于ECG信号的压缩分析框架,其中特征直接通过伪逆算子获得。Liang et al. [30] 使用非负矩阵分解将该框架扩展到图像。这些方案更灵活,可以应用于不同的压缩比。然而,当维数较低时,由于伪逆的固有误差,计算的特征向量可能不代表原始信号。
三、多层次隐私保护
CS可以一石二鸟,因为它在采样和压缩时提供隐私保护,而无需额外的成本。我们提出的方案利用CS技术,架构如 Fig. 2 所示。首先,通过DCA离线学习转换矩阵。然后,我们使用密钥控制的混沌系统,得到一个随机矩阵 R 和一个矩阵 M 。然后,生成测量矩阵 Φ ,并将其用于对信号进行编码。在解码器侧,基于SVM的分类器在投影数据上进行训练,以便半授权用户进行推断,并且完全授权用户选择重建算法来从测量中恢复原始信号。
A.多层次隐私保护的问题界定
首先,定义了一个多级隐私保护问题,包括用户A和用户B的一个编码器和两个解码器。
定义1:隐私保护编码器-解码器三元组: E(.) 、 DA(.) 、 DB(.) 。
现在,我们介绍一个实用的编码算子和两个不同用户的解码器。
B. CS加密 E(x)
对于DCA,所有特征值通常是不同的。因此, W 的所有列彼此规范正交 [31] 。选择具有较好遍历性、超混沌特性和较低实现代价的SLMM混沌系统 [32] 生成大小为 m×m 的随机矩阵 R ,并将混沌系统的控制参数和初始值作为关键, kA .接下来,由混沌系统生成长度为m−d的随机序列r,以形成对角矩阵D=diag(r)。同时,对序列进行排序,然后将其在新的有序序列中的对应位置索引表示为 index ,其是 [1,m] 范围内的随机整数序列。置换矩阵 P 由以下公式构成:
其中 Pi,j 是 P 的行 i ( i=1,…,m−d )和列 j ( j=1,…,m−d )中的元素。 在通过上述方法构造的置换矩阵中,每行和每列中只有一个元素是“1”,其余元素是“0”。矩阵M是通过将对角矩阵D和置换矩阵P相乘而产生的,即,M=DP。用于生成随机序列的控制参数和初始值用作密钥 kB 。在构建测量矩阵之后,利用CS进行编码,如 (1) 中所表达的。
测量矩阵 Φ 具有满行秩,并且证明如下所示。
我们可以将 (15) 重写为
,其中 W1 由 W 的前 m 列组成。因此, WT1 的秩是 m ,即,
详细解释如下。
Candes和Tao [34] 引入了限制等距属性(RIP)来描述稀疏信号重构的条件,其定义如下。
其中 I 是单位矩阵。