数据治理之法
一、数据基础设施
当今,世界正快速由工业经济时代迈向“数化万物、智化生存”的数字经济时代。
数据基础设施尚没有统一的概念。
从狭义上讲,数据基础设施是指支撑数据运转的相关软硬件资源,如数据中台、数据仓库、数据湖等。
从广义上讲,数据基础设施是指以数据为中心,深度整合存储、计算、网络等资源,以挖掘数据价值为目标,以保障数据安全为底线,支撑数据资源全生命周期运转的基础设施。
1、数据基础设施的三层架构
数据基础设施架构包括三层——基础支撑层、数据管理层和交易流通层。
基础支撑层主要提供计算、网络、存储等基础资源,构建数据资源池;
数据管理层由数据管理和安全支撑相关技术工具组成,支撑数据资源全生命周期管理,实现数据资源的要素化;
交易流通层主要支撑数据的运维、运营、价值评估和交易流通,实现数据价值的释放。
1、基础支撑层
基础支撑层,也可称为数据资源层,主要提供计算、网络、存储等基础硬件资源,最终形成数据资源池。
资源供给技术(计算技术(计算硬件、计算模式(并行计算、分布式计算、云计算))、网络技术、存储技术)
资源调度技术(虚拟化技术(平台虚拟化、资源虚拟化、应用虚拟化,典型的虚拟化技术包括服务器虚拟化、存储虚拟化、网络虚拟化等))
资源监管技术
2、数据管理层
数据管理层,也可称为数据要素层,主要提供面向数据管理和安全支撑的基础工具,将数据资源加工为可用的数据生产要素。
主数据是有关业务实体的数据。
数据集成和互操作是指数据在不同主体和应用之间调度、融合的相关过程。
数据湖是一个存储各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖可以实现数据资源的集中式管理,并在此基础上形成新的能力,包括预测分析、智能推荐等。
数据中台是企业实现数字化的一个解决方案,可将共性需求进行抽象,打造成平台化、组件化的系统能力,以接口、组件等形式共享给各业务单元使用,从而使企业可以针对特定问题,快速灵活地调用资源来构建解决方案,为业务的创新和迭代赋能。
从本质上看,数字中台是一套方法论加一个产品组合,能够承接数据湖的存储技术,利用数据技术实现对海量、多源数据的采集、处理、存储和计算等,形成可复用的数据生产要素,为上层数据应用提供支撑。
安全支撑技术
-
数据信任技术
利用基于角色的访问控制模型,实现“实名制”动态网络安全管理,为构建以“身份为中心”的数据安全体系提供基础支撑。
信任技术保障以密码技术为基础,以“最小授权、知其所需”的原则,通过细粒度角色赋权,对数据访问实施动态管控,主要由身份管理、身份认证、权限管理和责任认定四部分构成。
数字信任技术框架 -
安全监管技术
安全监管技术框架
3、交易流通层
交易流通层,也可称为数据资产层,主要提供数据产品和服务的加工、运营和交易流通支撑能力,将数据生产要素转化为数据产品或服务并上市交易。
数据运营加工技术
1、数据可信交换技术
数据可信交换是数据运营的基础。根据数据敏感度不同,可构建非加密传输通道和加密计算通道两类可信交换能力。
数据流通过程中需要采用不同的数据隐私计算技术,满足数据提供方、数据中介和数据消费方等主体的数据隐私保护诉求。隐私计算技术包括联邦学习、多方安全计算、TEE(可信执行环境)、差分隐私等。
TEE(可信执行环境)基于硬件防护能力的隔离执行环境,构建芯片级别的安全计算。
2、数据开发利用技术
数据开发利用主要基于多方安全计算、联邦学习、TEE、区块链技术等,实现多方数据核实、相关分析、安全数据查询以及联合建模等功能。
数据开发利用环境是关键,主要包括数据安全隔离域、联邦学习平台、可信硬件执行环境三个方案
3、交易流通技术
数据要素交易平台包含运营支撑、交易结算、供应管理、用户中心和交易门户五大组成部分。
2、贵州数据基础设施实践案例
二、数据定价
数据定价的影响因素,包括数据的生命周期、数据质量价值、市场流通过程、售卖方式以及数据的成本结构等方面。
数据商品的价格受到数据来源、数据规模、数据种类、数据采集方式、数据实时性等多种因素的影响。
数据共享交易1.0:共享交易数据本身,类似于传统商品的买卖。数据经过处理、清洗、脱敏等,组合成完整的数据集,并且可以被分为不同版本。在数据需求方支付了一定费用后,数据按照一定方式开放给数据需求方,主要提供数据浏览、下载(以Excel或CSV等格式)等功能,包括数字、文本、表格、图片、图像、地图等各类实时与非实时的数据。在法律允许的范围内,不限定数据下载量和数据用途。
数据共享交易2.0:共享交易数据的查询服务,在此过程中,数据本身不可见。在不改变数据所有权、管理权的前提下,仅涉及使用权、安全访问控制等问题,更容易设计和实现数据共享交易机制。
数据共享交易3.0:共享交易数据的智能服务,主要通过联邦学习、多方计算等方法提供服务,在此过程中数据不可见。这种方式的优点在于可以定制数据集以及相关智能服务产品,特别是对数据服务工具和应用进行定制。充分利用机器学习、数据挖掘等技术,将数据中隐含的信息提取到模型服务中。
数据使用场景作为数据交易流程的最终端,对数据的价值起到了决定性的作用。不同种类的数据对应不同的数据使用场景会展现不同的数据价值。数据场景的不同导致数据类型和数据效用的不同,从而影响数据的价值。(如数据类型、数据精度、数据效用(数据效用:在不同的应用场景下,消费者都采用不同的机器学习模型,这导致了数据对不同黑盒模型的贡献也是不同且模糊的。举例来说,在训练人脸识别机器学习模型的使用场景中,人脸数据对模型的训练有正向贡献。如果混入低质量的模糊图片、动物图片甚至恶意的对抗样本,那么这样的数据是没有价值的,甚至对模型的训练有负面影响,导致模型失效。但是数据效用只能在数据交易完成后才能得到验证,难以应用于交易之前的定价方法。所以我们需要尽可能地在数据交易前估计数据对相应机器学习模型的效用。))
-
基于数据要素的定价方法
1、基于效用的定价方法
价格效用理论认为决定数据价格的是其使用价值,即在具体应用场景中,使用数据前后决策者的预期收益(或损失)的差值是相应数据的价格。
将数据价值评估建模为合作博弈问题,通过计算数据对模型预测的影响来量化数据的贡献度,以达到价值评估的目的,从而可以设计基于数据效用的定价技术。
2、基于隐私量化的定价方法
当涉及敏感隐私或者机密数据时,由于数据提供者的隐私需求,隐私风险则代替数据价值成为衡量数据价格的重要指标。
-
基于博弈论和微观经济学的定价方法
1、基于拍卖机制的定价方法
由于数据应用场景的多样性,数据价值存在极大的不确定性与差异性,直接对大数据给出一个合理的价格是困难的,特别是在数据交易的前期,数据的市场价值不明确。采取拍卖机制可以激励数据卖方诚实地揭示数据价值,并保证数据卖方利益,同时兼顾市场原则。
2、基于信息设计的定价技术
上述基于拍卖理论的定价技术都假设了买家对于商品有明确、具体的估值,这在数据交易市场中不完全符合实际情况。在没有买到具体的数据之前,数据消费者无法对数据商品做出有效的估值,我们称该现象为非对称信息市场环境。
在非对称信息数据市场下,数据的交易双方很难对数据商品有准确的估值。
然而,数据卖家可以巧妙地设计数据商品的售卖形式来打破这一非对称信息壁垒,通过释放数据商品信号,比如发布免费数据、提供数据展示(data demonstration)等方式,让数据消费者了解部分数据信息,辅助其准确地对数据估值。数据卖家还可以将数据商品划分为不同版本,每个版本拥有不同的质量和价格。
在确定数据售卖形式之后,数据卖家通过和数据消费者交互以学习并探索其数据估值分布函数,同时数据卖家也会利用已经学习到的信息动态调整价格,保证交易收益。
3、基于机器学习的定价技术
在基于机器学习服务的数据市场中,数据的价值体现在机器学习模型的训练过程的上下文中。
-
基于数据特定类型的定价方法
1、基于查询的定价方法
受到传统电子产品“多版本”销售策略的启发,他们将数据库视为不同版本数据产品的合成,每个版本的数据产品对应一个具体的数据库视图。通过确定每个视图的价格,并结合数据库查询的关联规则,即可实现任意视图组合(查询)的自动定价。
-
面向区块链数据交易市场的数据定价技术
借助区块链技术,数据交易中的数据权益保障、数据隐私保护、可信安全交易等问题会找到相应的解决方案。基于区块链构建的数据交易市场将形成无中心或者多中心的分布式数据交易模式,如何在分布式数据交易的模式下进行数据定价是未来需要探索的方向。区块链技术的引入也为数据定价方法提供了设计上的便利。比如,我们可以将定价算法直接嵌入智能合约,由智能合约来保证算法的正确运行,自动检测套利行为是否存在;区块链技术还能更好地实现数据共享中的收益分成,数据定价产生的收益以夏普利值等公平性指标为指导,结合区块链安全可信的数据追溯技术,完成数据价值链条上的公平收益分配。
-
面向联邦学习数据共享系统的数据定价技术
联邦学习是数据共享的一种新范式:在不共享原始本地数据的情况下,通过分布式机器学习技术,共享本地模型参数,聚合更新全局模型,从而完成多终端的数据共享与知识传递。如何在联邦学习的框架下进行数据定价与收益分成也是未来重要的研究方向。在联邦学习中,终端数据来源多样,分布各异,在无法访问终端本地数据的情况下,如何制定个性化的数据定价技术,衡量数据源数据价值,是联邦学习中的基本问题。联邦学习中的数据定价技术还需要进一步克服数据终端可能存在的恶意攻击行为,数据终端可能通过修改本地数据来获得更多的数据报酬,或者通过“搭便车”的方式只利用全局模型而不共享数据。因此,我们需要进一步考虑具有鲁棒性抗攻击的数据定价技术。
三、数据管理
1、数据模型
常见的数据模型,包括关系模型、三元组模型、文档模型、XML以及JSON。
-
关系模型
为了保证数据的正确有效,关系模型规定了三类完整性,包括实体完整性、参照完整性和用户定义的完整性,分别保证实体的唯一性、关系之间引用的正确一致性以及符合业务逻辑的数据正确性。
关系模型对数据的操作可以用数学语言精确定义,即关系代数。关系代数的基础是集合论,包含常见的并、交、差、补等集合运算,以及选择、投影、连接等特殊的关系运算。
-
三元组模型
三元组模型采用简单的<主语,谓语,宾语>来描述数据,比如<数据治理之法,属于,书籍>这个三元组描述了“数据治理之法”这个实体属于“书籍”这个概念类型。
-
文档模型
文档模型将文档视为信息的基本单位,一个文档类似于关系数据库中的一条记录。与关系模型不同,文档可以是无结构的数据,也可以是半结构的数据,如XML、JSON等。文档模型可以看作键值的特例,每个键对应一个文档。
-
XML 和 JSON
XML(extensible markup language)即可扩展标记语言。设计XML的初衷是为了克服HTML的缺陷,如数据描述性差、可读性差、难以搜索等,从而为不同组织之间的数据交换提供一个标准的数据格式。
JSON本质上是一个序列化的对象数组。
1、元数据管理
元数据(meta-data)是描述数据的数据,包括数据资源的各种属性,如名称、类型、含义、来源、规模、存放地等。元数据在组织内部不同信息系统之间充当了纽带和桥梁的作用,便于数据跨系统正确、高效流动。
根据用途,元数据一般可以分为三类,即技术元数据、业务元数据和管理元数据。
2、主数据管理
主数据(master data)指组织内部各信息系统之间共享的核心业务数据,例如客户数据、订单数据、产品数据等。
主数据在整个组织范围内要保持一致、完整和可控。
3、数据质量管理
1、数据质量评估框架
-
DQAF
DQAF(Data Quality Assessment Framework)是由国际货币基金组织(IMF)于2001年提出的通用的数据质量评估框架。该框架包括一套共48种通用测量类型,这些类型基于数据质量的五个方面,即完备性、及时性、有效性、一致性和完整性。
-
AIMQ
AIMQ是多位美国学者于2001年提出的质量评估框架,它由 PSP/IQ 模型、IQA 工具、质量差距分析技术 3个部分组成。
PSP/IQ 模型包含两个方面:一是产品质量,产品应提供有效的、有用的信息,应没有错误、简明表达、保持完整、一致表达;二是服务质量,应提供可靠的、有用的信息,应注意及时性和安全性。
IQA 工具 是一套测量数据质量的调查问卷方法。
质量差距分析技术 结合PSP/IQ模型,根据问卷调查数据,对组织数据质量管理状况予以评估,并聚焦可改进的部分
2、数据质量评估标准
ISO 8000系列标准和ISO 19100
四、数据清洗与集成
数据准备是使用数据的基础,包括数据清洗和数据集成。
目前主流的数据集成工具是ETL(extract,transform,load),如 Kettle、Datatage 、Talend 等 ETL 工具/软件,其目标是从不同的数据源中抽取数据并转换成规定的格式。
五、数据互操作
互操作本质上就是多个主体(例如,软件、软件的构件)间对他方资源(例如,数据、功能)的互相使用,而互操作性就是进行上述互操作行为的能力。
数据互操作是以数据为中心的互操作,其将数据作为系统内的基本资源,通过数据标识、数据发现、数据传输、数据处理等技术手段实现系统间的相互协作。
数据访问是数据互操作的基础,即数据所有者能够提取其希望互操作的数据,并通过特定的数据访问API以特定的格式提供给外界。
1、主流互操作技术框架
1、内联网下的互操作技术框架
在内联网(Intranet)环境下,互操作的范围往往局限在企业内部,互操作技术也以传统的中间件技术为主。主流的中间件技术:CORBA、RMI以及DCOM。
1、CORBA
CORBA曾是分布式中间件的主流。CORBA是典型的代理总线(Broker)模式。
2、RMI
RMI(remote method invocation,远程方法调用)是Java在JDK 1.2中实现的互操作技术框架。
3、COM/DCOM
微软分布式组件对象模型DCOM是对组件对象模型COM的扩展,使其能够支持在局域网、广域网甚至互联网中不同计算机的对象之间的通信。DCOM面向Windows平台,提供一系列微软的概念和程序接口,利用这个接口,客户端程序对象能够请求来自网络中另一台计算机上的服务器程序对象。
2、互联网下的互操作技术框架
面向互联网环境的互操作技术框架主要包括以SOAP、REST为代表的Web Services以及数字对象体系结构DOA。
1、SOAP
以SOAP为代表的Web Services是典型的SOA架构,基于服务提供者、服务注册表、服务请求者三种角色之间的交互(包括发布、查找、绑定三种操作)。
典型的应用流程为:一个服务提供者拥有一个可通过网络访问的软件模块(Web Services的实现体),服务提供者制定该服务的描述并将其发布给服务请求者或服务注册器。服务请求者通过本地或远程的服务注册器查找到所需服务的描述,根据其中包含的信息绑定服务提供者后,就可与Web Services的实现交互。服务提供者与请求者是一种逻辑关系,换言之,任何一方都可作为服务提供者或请求者。
SOAP是一种基于XML的轻载协议,用于在松散的分布环境中对等地交换结构化和类型化的信息。
2、RESTful
表现层状态转换REST是Roy T. Fielding在其博士论文中提出的一种面向Web的体系结构风格,是Fielding对其HTTP 1.1协议研究工作的理论性总结。
3、主流互操作框架
4、数据互操作代表性技术
用于解决“数据孤岛”问题的数据互操作开放技术,包括抽取–转换–加载(ETL)技术、基于企业服务总线(ESB)的交换技术、机器人流程自动化(RPA)技术以及基于内存数据的反射技术。
1、抽取-转换-加载(ETL)技术
ETL(extract,transform,load),是指数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
ETL的概念是随着数据仓库的产生而产生的,在整个数据仓库设计工作中,ETL占到了60%~70%的工作量,是整个数据仓库体系的关键一环。
ETL技术的优势主要包括:
①简化了用户操作。ETL通常采用图形化的配置方式,简单、灵活,使得用户无须过分关心数据库的各种内部细节,专注于功能。
②支持各种数据源,特别是平面数据源。ETL除了支持所有常见的数据源,如Oracle、Sqlserver、DB2、Mysql、Access、Vf等,还提供了对各种平面数据源的支持,如txt、excel、csv、xml等。
③支持各种硬件和软件平台。支持软件平台,如Windows、Linux以及国产操作系统;同时支持各种硬件平台,如x86、龙芯等。
④功能更为强大,数据处理组件非常丰富,通用性更强,组件很容易复用。
⑤提供灵活的定制规则,能更好地控制数据质量。
⑥提供强大的管理功能,如权限管理、日志管理。
ETL技术也存在一定的局限性:ETL一般被设计为“批量进行工作”,即采集数据、上传数据、采集更多数据、再上传之。这种批量加载数据在某些情况下的确适用,但是面对越来越多的数据流和其他类型的数据源时,尤其是在需要尽快提供最新数据的需求下,这些批处理的工具集就不适合了。当然,目前产业界、学术界都对流式ETL技术进行了研究与应用,已经能够在一定程度上解决上述问题。
2、企业服务总线(ESB)
ESB全称为Enterprise Service Bus,即企业服务总线,是构建面向服务架(SOA)解决方案时常用的一种基础架构,包括一系列中间件技术实现并支持SOA的基础架构功能。ESB支持异构环境中的服务、消息,以及基于事件的交互,并且具有适当的服务级别和可管理性。
ESB的技术框架通常由ESB服务器和管理中心两个核心部分组成。
ESB的主要优点之一就是处理消息。
ESB的另一个优点是性能。ESB在设计上能够处理大量的消息。
3、机器人流程自动化(RPA)技术
机器人流程自动化(robotic process automation,RPA),又可以称为数字化劳动力(digital labor),是一种在系统交互及过程自动化中以“机器人”充当人类的软件代理的软件解决方案,通过模拟并增强人类与计算机的交互,实现工作流程中的自动化。在RPA中,“机器人”对应软件程序,而不是硬件机器人。
RPA的目的是用软件(“机器人”)代替业务流程中的人工任务,并且该软件与前端系统的交互方式类似于人工用户。在使用RPA方案的业务流程中,称为“机器人”的软件代理会模仿人类通过一系列计算机应用程序所采取的手动路径。软件机器人执行的任务通常是基于规则、结构合理且重复的,例如自动电子邮件查询处理以及来自不同来源的薪资数据整理等。此外,也可以对软件机器人进行数据培训,从而可以适应更多复杂、灵活的情况。
通常,RPA产品包括三个主要组成部分:图形建模工具、管理机器人执行的协调器以及机器人本身,涵盖开发、测试、过渡和生产生命周期阶段。其他组成部分可能包括调度程序、协作工具、审计跟踪和绩效分析工具。
通常,RPA产品包括三个主要组成部分:图形建模工具、管理机器人执行的协调器以及机器人本身,涵盖开发、测试、过渡和生产生命周期阶段。其他组成部分可能包括调度程序、协作工具、审计跟踪和绩效分析工具。
RPA采用的技术有:机器学习、自然语言处理、自然语言生成和计算机视觉等。RPA允许机器人以与人类相同的方式和任何应用程序交互。RPA与传统自动化的区别是,它使用的是说明性步骤,剥离代码层,因此,具有少量编程经验的人员也能将复杂的过程自动化。RPA部署可以带来的收益主要包括提高运营效率、提高服务质量、降低成本以及改进风险管理和合规性。
RPA 也有依赖型强(RPA在运行时大多需要连接外部显示器,以操作鼠标、键盘来点击或敲击图形显示环境中的屏幕指定位置或者应用控件)、并发性弱(由于RPA的基础原理是模拟鼠标键盘点击和敲击,导致即使在CPU多核的某个操作系统环境中,也无法在同一时刻点击屏幕的不同位置或不同应用的控件)、鲁棒性差(RPA提供的集成不如本质上嵌入核心系统的集成健壮。)、失败率高(RPA难以处理细微的业务流程,并需要依赖复杂的数据和应用程序集成方案。)等缺点。
4、数据反射(DR)技术
概括来说,数据反射(data reflection,DR)技术就是基于内存数据重建软件体系结构,进而构建反射系统,以计算反射的方式实现数据互操作的一系列技术。该技术可以生成API来访问系统内部可用的特定数据,而无须访问系统的源代码或干扰系统的正常运行。与现有的数据访问方法相比,使用数据反射技术进行数据互操作的用户只需考虑现有系统的输入和输出,而无须了解其内部工作原理,即可以以黑盒的方式实现数据互操作。
-
1、运行时软件体系结构
运行时软件体系结构(runtime software architecture,RSA)是数据反射技术的核心,它可以提供理解软件系统的结构知识,并支持运行时系统的演化。
软件体系结构(SA)通过描述包含构件、连接器和约束的软件系统的总体结构,在软件开发中扮演重要角色。通常,SA可以充当软件需求和实现之间的桥梁,为系统构建和组成提供蓝图。SA有助于全面了解大型系统。
在数据反射技术中,为了应对不断增长的复杂性和高成本的发展,进一步将SA的概念扩展到整个生命周期,尤其是在运行时,即运行时软件体系结构,简称RSA。RSA对软件系统的运行时结构和行为进行建模,以帮助系统维护人员了解和推理运行时系统。从概念上讲,RSA可以帮助派生出设计阶段SA中描述的完整信息,例如类图、设计结构、构件和连接器。
-
计算反射
计算反射可用于在运行时观察和修改程序执行。在系统级别,计算反射可以提供其自身的准确表示(称为自我表示),要求系统的状态和行为始终与该表示相符(称为因果关联),对表示所做的任何更改都可以立即反映在系统实际状态和行为的更改中。
Maes对相关概念进行了总结归纳,并对计算系统、因果联系给出了如下定义:
计算系统:对某个领域进行推理的一个系统,并且基于此可以执行一些动作。
因果关联:计算系统与领域任意一方的改变将影响另一方。
由此,引出了元系统(meta system)和反射式系统(reflective system)的定义:
元系统:以另一个计算系统作为领域的计算系统。
反射式系统:一个与本身具有因果关联的元系统。
Maes根据上述定义,给出了将计算系统变成反射系统的三个步骤,如下图所示:
①建立一个自描述的系统,即元层实体的描述,并将基层实体具化(reify)为元层实体;
②提供一种可以操纵(manipulate)这种自描述系统的方式;
③确保这种操作能够真正立即反映(reflect)至基层,并对基层系统产生影响。其中,第三点加强了这种所谓的因果关联需求。
计算反射的三个步骤 一个反射系统的特征在于具有操作和推理本身的能力。特别地,所谓操作和推理,既可以是操作和推理实现系统的静态程序,也可以是系统的动态行为。而当对一个计算系统定义反射时,需要回答三个基本问题:①计算系统中的哪些实体需要被映射为可以被操作的元层实体;②元层实体支持的操作有哪些;③元层实体与基层实体的因果关联如何实现。
数据反射技术是一种针对黑盒应用实现数据互操作的技术,其遵循上述反射理论,通过扩展其运行时环境,将该运行时环境实现为一个反射系统,从而对黑盒系统的运行时状态进行操作和推理。
为了实现数据反射技术,一个具有挑战性的目标是全面涵盖运行时系统的状态和行为。但是,从数据访问的角度来看,反射过程只需要关注用户感兴趣的数据,而不是了解整个系统的信息。例如,当用户想要比较两个购物网站之间同一商品的价格时,他需要的是每个购物网站中该商品价格的数据,而不是这些网站上列出的所有信息。因此,数据反射只需要恢复能够反映感兴趣数据的处理逻辑的RSA片段即可。
构造RSA需要反射软件系统的运行时状态。为此,数据反射技术利用计算反射设计双向转换引擎,以指定运行系统及其RSA之间基于状态的关系。为了维持RSA与运行系统之间的因果关系,数据反射技术中还设计了RSA高层表示与运行时机制的映射,从而使得底层运行系统的更改可以反映在RSA上,反之亦然。
在数据反射技术中,RSA充当运行系统和具有数据互操作性要求的系统开发人员之间的控制平面。基于恢复的RSA,原始开发人员、系统管理员和其他外部开发人员等利益相关者可以定义API来访问感兴趣的数据,而无须知道源代码。通过检索或更改RSA上感兴趣的数据的值可以实现“读取”或“写入”数据访问。在生成数据访问API之后,开发人员可以选择使用API(通常在中间件上)来为创新的新应用程序实现数据互操作性。此外,RSA还可以帮助降低维护和改进API实施的成本。
数据反射技术从应用程序的内存状态入手,其效果类似于RPA技术,具有RPA技术的大部分优势。同时,数据反射技术避免了对人机交互界面的依赖,因此能够更好地支撑具有高并发需求的数据化操作场景。
数据反射技术的局限性主要在于其需要复杂且完善的开发工具的支撑,对于不同的操作系统与编程语言通常需要不同的定制化开发平台,并且对于开发人员也有较高的技术要求。
六、数据安全与隐私保护技术
1、数据安全技术
1、密码学
基于密码算法的数据保护通过加密算法将明文数据变换成密文数据,实现数据存储、传输等过程的安全机密。在访问数据的时候又可以通过解密算法将密文数据恢复成明文数据,实现数据的计算分析。现代密码体制包括明文(plaintext)、密文(ciphertext)、加密算法(encryption)、解密算法(decryption)和密钥(key)五个要素,简称(P,C,K,E,D)五元组。加密算法和解密算法又可简称加密和解密,这两个过程分别涉及加密密钥和解密密钥。
密码算法主要分为两大类:一类是对称密码算法;另一类是非对称密码算法,又称公钥密码算法。对称密码算法的特点是:加密密钥和解密密钥完全相同,数据收发双方需要事先交换受保护的加解密密钥才能实现数据的有效传输。非对称密码算法的特点是:加密密钥和解密密钥互不相同,任意数据发送方只需使用公开的加密密钥进行加密,数据加密接收方即可基于私有的解密密钥实现数据解密接收。
对称密码有两种主要形式:一种是将明文按照字符逐位加密,称为序列密码(也称“流密码”,stream cipher);另一种是将明文分组,逐组进行加密,称为分组密码(也称“块密码”,block cipher)。
2、身份认证
基于用户名和口令的认证、基于生物特征的认证、基于数字证书的认证、多因子认证(结合两种或两种以上的认证技术)
3、访问控制
基于角色的访问控制等
4、密文检索
大数据场景下数据多集中存储在数据中心的服务器上,为保证云数据的安全性,一种通用的方法是用户首先使用安全的加密机制(如DES、AES、RSA等)对数据进行加密,然后将密文数据上传至云服务器。由于只有用户知道解密密钥,而云存储服务提供商得到的信息是完全随机化的,所以此时数据的安全性掌握在用户手中。数据加密导致的直接后果就是云服务器无法支持一些常见的功能,例如,当用户需要对数据进行检索时,只能把全部密文下载到本地,将其解密后再执行查询操作。因此,如何保证在数据安全存储(如密文存储)的情况下进行高效、安全的数据检索,是当今的研究热点之一。
密文检索的目的是使服务器无法获得用户的敏感数据和查询信息,以保护数据和查询信息的机密性。它支持在密文存储的场景下对用户数据进行检索,然后将满足检索条件的密文数据返回给用户。用户可在本地将检索结果解密,从而获得数据的明文。根据应用场景和实现技术的不同,密文检索主要分为对称可搜索加密(symmetric searchable encryption,SSE)和非对称可搜索加密(asymmetric searchable encryption,ASE)两大类。
5、数据传输
如 IPSec和 SSL 两种安全传输协议。
6、隐私保护技术
数据共享阶段的K–匿名技术及其变种,集中式差分隐私技术;数据利用阶段的同态加密技术,安全多方计算技术;数据获取阶段的匿名通信技术,本地差分隐私技术等。
1、K-匿名及变种
K–匿名模型的核心思想是通过将每条个人记录信息隐藏在一组具有相似属性值的人群记录中来达到隐藏当前个人隐私的目的,避免当前记录所对应的个人被攻击者唯一识别出来。
K–匿名模型首先将用户属性划分为三大类:
1)唯一标识属性:表示能够唯一识别出个人身份的属性信息,包括身份证号、社保号、校园一卡通号等。
2)准标识属性:单独使用该信息不足以唯一确定个人身份,但是可以通过关联其他准标识信息实现个人身份范围的快速缩小与最终锁定。例如邮政编码、行政区、出生日期、年龄、性别等。
3)敏感属性:也称为隐私信息,是指不希望被别人所知的信息,包括个人健康状况信息、个人工资信息、个人信仰、政治党派、家庭成员状况信息等。
2、集中式差分隐私技术、本地差分隐私技术
差分隐私技术根据应用场景的不同分为集中式差分隐私以及本地差分隐私两大类。
通过使用随机算法向用户查询结果中添加随机噪声的方式,集中式差分隐私技术能够保证任意个人的数据信息不被泄露。更形式化地说,假设我们将已有的数据库集合记为D,将与D集合仅相差一条数据记录的数据集记为D’(这里的单条数据记录差异可以由D集合中针对任一数据记录的增删改操作产生,称D’为D的邻近数据集合)。如果随机算法针对D和D’所产生的带噪输出结果拥有相近的概率分布,那么攻击者就难以判断当前获得的查询结果来自哪个具体的数据集合。
集中式差分隐私技术主要关注在拥有可信数据管理第三方的场景下如何针对汇聚数据添加相应的噪声扰动,再进行共享与发布,以防止个人信息泄露。本地差分隐私的应用场景则拥有更加苛刻的条件,该场景假定拥有隐私信息的用户在没有可信数据管理第三方或者不相信除自身以外任何第三方的前提条件下仍然能够在自身数据被收集时确保个人隐私信息安全。
3、同态加密技术
同态加密技术与传统加密技术的最大区别在于,同态加密技术允许直接在加密结果上直接进行相关计算,密文计算结果与直接针对明文数据进行计算之后再进行加密的结果完全相同。这就意味着用户能够放心地将自己拥有的隐私数据加密后再提交给云端服务商,服务商在不知晓用户隐私数据的前提下直接对密文数据进行计算、分析,并将密文计算结果以及提供的相应服务返回给终端用户,用户在终端解密数据后即可获得正确的数据计算结果,而在整个数据流动过程中,用户的个人隐私信息却完全没有泄露给第三方服务提供商。
4、安全多方计算
安全多方计算概念的提出最早可以追溯到姚期智院士(首位华人图灵奖获得者)在1982年提出的百万富翁问题。姚式百万富翁问题描述了两位在街头偶然相遇的富翁希望能够在互相不泄露自身财产隐私的前提下获知究竟谁的财产更多。
由此衍生开来,安全多方计算问题可以概述为:相互之间不信任的一组计算参与方各自持有自身私密数据,在缺少绝对可信第三方机构的前提下,如何协商出一个既定函数,使得任一计算参与方只能获得对应于自身的既定函数计算结果输出,而无法获知其他计算参与方的计算结果或输入私密信息。该既定函数实际上模拟了一个理想化的完全保持中立的可信第三方的作用,使得各计算参与方能够在不透露自身私密信息的前提条件下,获得各自希望得到的计算分析结论。
7、安全与隐私保护工具
如 安全与隐私保护操作系统、安全与隐私保护通信工具、安全与隐私保护邮件工具、安全与隐私保护浏览器工具等。
如 腾讯云数盾方案、阿里云安全解决方案、区块链技术等
典型的区块链系统可以从整体上划分为网络层、共识层、数据层、合约层、应用层共五个层次。