General
随着车联网的发展,汽车越来越智能化,就像是一部“装着四个轮子的手机”。
有人说,智能手机就如同一部窃听器,无论你开机或者关机,它都会无时不刻地监听着用户的一举一动。
可想而知,智能车辆上的信息安全问题可能比智能手机更加严重。比如车辆的定位信息、相机所记录下的路端画面、车舱内的乘客录音录像等等,这些数据作为智能车发展的“燃料剂”,既是不可或缺的,又需要去避免敏感数据的泄露风险。
随着各种数据安全法规的颁布,数据脱敏处理引起各大主机厂的重点关注。
何谓数据脱敏
一般来说,数据脱敏技术指的是在对敏感数据进行处理的过程中,通过数据变形的方式来降低数据的敏感程度的一种数据处理技术。
在大数据时代下,数据脱敏技术并不是什么新鲜技术,它在其它领域中已经被广泛应用,比如政务、金融、医疗、电信等。
在自动驾驶领域,中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》也定义了数据脱敏,其主要指通过一定方法在车端数据处理设备上消除原始环境数据中的敏感信息,使得信息主体无法被识别或者关联,且处理后的信息不能被复原,同时保留目标环境业务所需的数据特征或内容的数据处理过程。
如何进行数据脱敏
那么,了解了何为数据脱敏后,智能汽车中具体是如何进行数据脱敏的?在数据脱敏的过程中,又需要注意哪些事项?
关于数据脱敏的具体步骤,某主机厂信息安全工程师介绍道:“数据脱敏主要处于数据全生命周期的处理环节,
首先,技术人员需要对数据做好分类分级,并把敏感数据识别出来,要确定哪些数据属于敏感数据字段;
其次,需要确定具体的脱敏策略;
再者,将制定好的脱敏方案给到执行者,执行设定好的脱敏方案;
最后,在数据脱敏执行完毕后,对于整个数据的执行过程也会有一些审计工作。”
敏感数据的分类分级
从宏观层面来看,敏感数据主要可分为3类:
结构化数据、非结构化数据及半结构化数据。
结构化数据是指可通过二维表结构来表达和实现的数据,比如银行账号、身份证号码、手机号、日期等;
非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,比如图像、声音、文本等;
半结构化数据是指介于完全结构化数据和完全无结构的数据之间的数据,比如HTML文档、JSON、XML等。
智能汽车行业目前尚未形成细化的数据分类分级标准,主机厂需要根据自身的实际业务需求,从不同场景、不同功能等维度出发,去做敏感数据的分类。
同时,在分类完后,主机厂仍需要根据不同等级的敏感程度,对数据进行分级(如一般、重要、敏感),并对不同级别采取不同的脱敏策略。
选择合适的脱敏策略
在智能汽车行业中,目前还没有形成统一的脱敏技术规范,各家主机厂在采用相关技术或策略时,都借鉴了一些已出台的信息安全相关标准规范,如《信息安全技术个人信息去标识化指南》。
不同类型的数据所对应的脱敏算法和脱敏策略都不同。 根据《汽车传输视频及图像脱敏技术要求与方法》中的介绍,非结构化数据(如人脸、车牌)一般采用的是统一色块的脱敏算法,即用统一色块对视频中每一帧中的人脸和车牌位置信息进行替换,通过色块替换直接擦除原图上像素级别数据,确保擦除后的数据信息不可逆和不可复原。
而掩码、取整等脱敏算法主要用于车主的身份信息、自车的车牌号、车控数据等结构化数据。以车主的个人姓名为例,需要应用映射技术(Hashing)将车主名“张三”变为对应的hash值“456684923”。
图:部分结构化数据相关的脱敏算法示例
让脱敏对自动驾驶系统的影响最小化
1. 首先,数据脱敏的最终目的是减少或消除敏感信息,从而减小数据安全带来的风险,而不是阻碍自动驾驶的发展,敏感数据在进行脱敏后仍然需要保留目标的基础语义信息。
车辆在采集完数据后,数据并不一定需要存储或者传输到后端,自动驾驶系统只需要识别出前方目标物具体是什么,根本没必要识别出目标物中的人的面部特征、年龄甚至性别,或者这辆车是什么品牌、车型或车身细节。
2. 其次,现阶段先做感知融合、再做数据脱敏的方案是对整个自动驾驶系统的影响是最小的,也是较为可行的方案。如果数据是先融合后再脱敏,不仅不会降低融合的效果,也可以减少时延的影响。
3. 此外,融合后甚至可以直接销毁敏感信息,减少不必要的存储空间占用,但从感知到控制的整个过程中,由于数据未脱敏,数据传输过程需要加入一些数据加密的措施,这对加密算法的强度要求较高,最终会导致数据处理难度会加大。
数据在全生命周期中需要加密
通常来说,数据脱敏仅在数据处理环节出现,但实际上,数据脱敏其实在数据的整个生命周期中都是存在的。
数据的全生命周期包括采集、传输、存储、使用、共享、销毁。
法规需求
国际法规:GDPR (General Data Protection Regulation)
GDPR于 2018 年 5 月 25 日生效。GDPR 是一套管理整个欧盟 (EU) 个人数据隐私的准则和政策。GDPR 的主要目标是统一和协调组成联盟的许多州的数据隐私保护。
GDPR 范围包括但不限于以下内容:
基本个人信息,身份信息,联系信息,财务信息,健康和医疗数据,遗传和生物特征数据,网络和电子数据,就业和职业信息,种族或民族数据,政治和宗教信仰,性取向和性别认同,犯罪记录。
国内法规:《汽车数据通用要求》
图像脱敏技术与应用
图像脱敏技术是使用人工智能、像素干扰、特征提取与干扰、信息隐藏、数据加密与变换等脱敏技术,改变像素的亮度、对比度以及色彩、驾驶员的面部特征,对车牌号进行脱敏处理,使其在保持可用性的同时,不再包含个人身份或其它敏感信息。图像脱敏技术主要应用在车内监控、全景地图数据处理、自动驾驶、数据共享与研究等方面。
此外还可应用数据脱敏(Data Masking)、匿名化(Anonymization)、去标识化(de-identification)技术,在数据全生命周期各阶段实现保护敏感数据的目的。
脱敏算法说明
通过统一色AI算法(深度卷积神经网络算法…)进行关键信息的识别: