持续更新。。。。。。。。。。。。。。。
【第三版】第六章 数据工程
- 6.1数据采集和预处理
- 6.1.1 数据采集 P234
- 6.1.2 数据预处理
- 6.1.3 数据预处理方法
- 1.缺失数据的预处理-P235
- 2.异常数据的预处理-P236
- 3.不一致数据的预处理-P236
- 4.重复数据的预处理-P236
- 5.格式不符数据的预处理-P236
- 练习
- 6.2数据存储及管理
- 6.2.1 数据存储 P236
- 1.数据存储介质-P237
- 2.存储形式-P237
- 3.存储管理-P238
- 6.2.2 数据归档
- 6.2.3 数据备份
- 6.2.4 数据容灾
- 练习
- 6.3数据治理和建模
- 6.3.1 元数据 P241
- 1.信息对象-P241
- 2.元数据体系-P241
- 6.3.2 数据标准化 P242
- 6.3.3 数据质量
- 6.3.4 数据模型 P244
- 1.概念模型-P244
- 1.概念模型-P244
- 2.逻辑模型-P244
- 3.物理模型-P245
- 6.3.5 数建建模 P245
- 练习
- 6.4数据仓库和数据资产
- 6.4.1 数据仓库
- 6.4.2 主题库 P247
- 6.4.3 数据资产管理
- 6.4.4 数据资源编目 P248
- 练习
- 6.5数据分析及应用
- 6.5.1 数据集成 -P249
- 6.5.2 数据挖掘 P251
- 6.5.3 数据服务 P253
- 6.5.4 数据可祝化
- 练习
- 6.6数据脱敏和分类分级
- 6.6.1 数据脱敏 -P255
- 1.敏感数据-P255
- 2.数据脱敏-P255
- 3.数据脱敏方式-P255
- 6.6.2 数据分类
- 6.6.3 数据分级 P257
- 本章练习
引言:希望这篇文章能够成为参加软考考生的灯塔
根据考纲要求,本章选择题、案例分析题都有可能会涉及。
6.1数据采集和预处理
6.1.1 数据采集 P234
数据采集又称数据收集,是指根据用户需要收集相关数据的过程。采集的数据类型包括结构化数据、半结构化数据、非结构化数据。
- 结构化数据是以关系型数据库表管理的数据;
- 半结构化数据是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、E-mail等;
- 非结构化数据是指没有固定模式的数据,如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息
等
数据采集的方法可分为传感器采集、系统日志采集、网络采集 和 其他数据采集等。
6.1.2 数据预处理
6.1.3 数据预处理方法
一般而言,需要进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况 ,针对不同问题需要采用不同的数据处理方法。
1.缺失数据的预处理-P235
数据缺失产生的原因主要分为环境原因和人为原因,需要针对不同的原因采取不同的数据预处理方法,常见的方法有删除缺失值、均值填补法、热卡填补法等。
2.异常数据的预处理-P236
3.不一致数据的预处理-P236
不一致数据是指具有逻辑错误或者数据类型不一致的数据,如年龄与生日数据不符。这一类数据的清洗可以使用人工修改,也可以借助工具来找到违反限制的数据,如知道数据的函数依赖关系,可以通过函数关系修改属性值。但是大部分的不一致情况都需要进行数据变换,即定义一系列的变换纠正数据,有一些商业工具可以提供数据变换的功能,例如数据迁移工具和ETL工具等。
4.重复数据的预处理-P236
数据本身存在的或数据清洗后可能会产生的重复值。重复值的存在会影响后续模型训练的质量,造成计算及存储浪费。去除重复值的操作一般最后进行,可以使用Excel、VBA(Visual Basic宏语言)、Python等工具处理。
5.格式不符数据的预处理-P236
般人工收集或者应用系统用户填写的数据,容易存在格式问题。一般需要将不同类型的数据内容清洗成统一类型的文件和统一格式,如将TXT、CSV、ExceL、HTML以及PDF清洗成统一的Excel文件,将显示不一致的时间、日期、数值或者内容中有空格单引号、双引号等情况进行格式的统一调整。
练习
6.2数据存储及管理
6.2.1 数据存储 P236
数据存储就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问。其中包含两个方面:一是数据临时或长期驻留的物理媒介;二是保证数据完整、安全存放和访问而采取的方式或行为。数据存储就是把这两个方面结合起来,提供完整的解决方案。
1.数据存储介质-P237
数据存储首先要解决的是存储介质的问题。存储介质是数据存储的载体,是数据存储的基础。存储介质并不是越贵越好、越先进越好,要根据不同的应用环境,合理选择存储介质。存储介质的类型主要有磁带、光盘、磁盘、内存、闪存、云存储等,其描述如表6-1所示。
2.存储形式-P237
一般而言,主要有3种形式来记录和存储数据,分别是文件存储、块存储和对象存储,如表6-2所示。
3.存储管理-P238
存储管理在存储系统中的地位越来越重要,例如,如何提高存储系统的访问性能,如何满足数据量不断增长的需要,如何有效地保护数据、提高数据的可用性,如何满足存储空间的共享等。存储管理的具体内容如表6-3所示。
6.2.2 数据归档
因数据量海量增长和存储空间容量有限的矛盾,需要制定合理的数据归档方案,并及时清除过时的、不必要的数据,从而保证数据库性能的稳定。
数据归档是将不活跃的“冷”数据从可立即访问的存储介质迁移到査询性能较低、低成本、大容量的存储介质中,这一过程是可逆的,即归档的数据可以恢复到原存储介质中。数据归档策略需要与业务策略、分区策略保持一致,以确保最需要数据的可用性和系统的高性能。在开展数据归档活动时,有以下3点值得注意:
(1) 数据归档一般只在业务低峰期执行。因为数据归档过程需要不断地读写生产数据库,这个过程将会大量使用网络,会对线上业务造成压力。
(2) 数据归档之后,将会删除生产数据库的数据,将会造成数据空洞,即表空间并未及时释放,若长时间没有新的数据填充,会造成空间浪费的情况。
(3) 如果数据归档影响了线上业务,一定要及时止损,结束数据归档,进行问题复盘,及时找到问题和解决方案。
6.2.3 数据备份
6.2.4 数据容灾
数据备份是数据容灾的基础。传统的数据备份主要采用磁带进行冷备份,备份磁带一般存放在机房中进行统一管理,一旦整个机房出现灾难,如火灾、盗窃和地震等时,这些备份磁带也随之毁灭,起不到任何容灾作用。
因此,真正的数据容灾就是要避免传统冷备份的先天不足,它在灾难发生时能全面、及时地恢复整个系统。容灾按其灾难恢复能力的高低可分为多个等级,例如,国际标准SHARE78定义的容灾系统有7个等级,从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统。恢复时间也可以从几天到小时级到分钟级、秒级或零数据丢失等。从技术上看,衡量容灾系统有两个主要指标,即RPO(RecoveryPoint Object,恢复点目标)和RTO(RecoveryTime Object,恢复时间目标),其中RPO代表了当灾难发生时允许丢失的数据量,而RTO则代表了系统恢复的时间。
数据容灾的关键技术主要包括远程镜像技术和快照技术。
(1)远程镜像技术。远程镜像技术是在主数据中心和备份中心之间进行数据备份时用到的远程复制技术。镜像是在两个或多个磁盘子系统上产生同一个数据镜像视图的数据存储过程,一个称为主镜像;另一个称为从镜像。按主从镜像所处的位置分为本地镜像和远程镜像。本地镜像的主从镜像处于同一个RAID中,而远程镜像的主从镜像通常分布在城域网或广域网中。由于远程镜像在远程维护数据的镜像,因此在灾难发生时,存储在异地的数据不会受到影响。
(2)快照技术。所谓快照,就是关于指定数据集合的一个完全可用的复制,该复制是相应数据在某个时间点(复制开始的时间点的映像。快照的作用有两个:①能够进行在线数据恢复,可以将数据恢复成快照产生时间点时的状态;②为用户提供另外一个数据访问通道,比如在原数据在线运行时,利用快照数据进行其他系统的测试、应用开发验证、数据分析、数据模型训练等。
练习
6.3数据治理和建模
数据治理是开展数据价值化活动的基础,关注对数字要素的管控能力,覆盖组织对数据相关活动的统筹、评估、指导和监督等工作,需要重点关注元数据、数据标准化、数据质量、数据模型和数据建模等方面的内容。
6.3.1 元数据 P241
简单来说,元数据是关于数据的数据(DataAbout Data)。在信息技术及其服务行业,元数据往往被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。其实质是用于描述信息资源或数据的内容、覆盖范围、质量、管理方式数据的所有者、数据的提供方式等有关的信息。
1.信息对象-P241
元数据描述的对象可以是单一的全文、目录、图像、数值型数据以及多媒体(声音、动态图像)等,也可以是多个单一数据资源组成的资源集合,或是这些资源的生产、加工、使用、管理、技术处理、保存等过程及其过程中产生的参数的描述等。
2.元数据体系-P241
根据信息对象从产生到服务的生命周期中,元数据描述和管理内容的不同以及元数据作用的不同,可以将元数据分为多种类型,从最基本的资源内容描述元数据开始,到指导描述元数据的元元数据,形成了一个层次分明、结构开放的元数据体系,如图6.3所示
元数据为数据的管理、发现和获取提供了一种实际而简便的方法。通过元数据,数据的使用者能够对数据进行详细、深入的了解,包括数据的格式、质量、处理方法和获取方法等各方面细节,可以利用元数据进行数据维护、历史资料维护等,具体作用包括描述、资源发现、组织管理数据资源、互操作性、归档和保存数据资源等,如表6-5所示。
6.3.2 数据标准化 P242
6.3.3 数据质量
6.3.4 数据模型 P244
数据模型是指现实世界数据特征的抽象,用于描述一组数据的概念和定义,是用来将数据需求从业务传递到需求分析,以及从分析师、建模师和架构师传递到数据库设计人员和开发人员的主要媒介。根据模型应用的目的不同,可以将数据模型划分为3类:
概念模型、逻辑模型和物理模型。
1.概念模型-P244
概念模型也称为信息模型,它是按用户的观点来对数据和信息建模,也就是说,
把现实世界中的客观对象抽象为某一种信息结构,这种信息结构不依赖于具体的计算机系统,也不对应某个具体的数据库管理系统(Database Management Svstem,DBMS),它是概念级别的模型。
1.概念模型-P244
概念模型的基本元素如表6-6所示。
2.逻辑模型-P244
逻辑模型是在概念模型的基础上确定模型的数据结构,目前主要的逻辑模型有层次模型、网状模型、关系模型、面向对象模型和对象关系模型。其中,关系模型是目前最重要的一种逻辑数据型。
关系模型的基本元素包括关系、关系的属性、视图等。关系模型是在概念模型的基础上构建的,因此关系模型的基本元素与概念模型中的基本元素存在一定的对应关系,具体如表6-7所示。
3.物理模型-P245
物理模型是在逻辑模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放。物理模型的内容包括确定所有的表和列,定义外键用于确定表之间的关系,基于性能的需求可能进行反规范化处理等。在物理实现上的考虑,可能会导致物理模型和逻辑模型有较大的不同。物理模型的目标是用数据库模式来实现逻辑模型,以及真正地保存数据。物理模型的基本元素包括表、字段、视图、索引、存储过程、触发器等,其中表、字段和视图等元素与逻辑模型中的基本元素有一定的对应关系。
6.3.5 数建建模 P245
练习
6.4数据仓库和数据资产
随着“数字中国”等国家战略持续深化,以及各类组织数字化转型的全面实施和持续推进,数据资产逐步成为各类组织的重要资产类型,也是组织高质量发展和可持续竞争优势建设的关键。
6.4.1 数据仓库
6.4.2 主题库 P247
6.4.3 数据资产管理
6.4.4 数据资源编目 P248
练习
6.5数据分析及应用
数据的分析及应用是数据要素价值实现环节的重要活动,是组织实施数据驱动发展的基础,通常涉及数据集成、数据挖掘、数据服务和数据可视化等。
6.5.1 数据集成 -P249
数据集成就是将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图,使得用户能以透明的方式访问数据。其“数据源”主要是指不同类别的DBMS,以及各类XML文档、HTML文档、电子邮件、普通文件等结构化、半结构化和非结构中化数据。这些数据源具有存储位置分散、数据类型异构、数据库产品多样等特点。
数据集成的目标就是充分利用己有数据,在尽量保持其自治性的前提下,维护数据源整体上的一致性,提高数据共享利用效率。实现数据集成的系统称为数据集成系统,它为用户提供了统一的数据源访问接口,用于执行用户对数据源的访问请求。典型的数据集成系统模型如图6-5所示。
6.5.2 数据挖掘 P251
数据挖掘流程一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用5个阶段,如图6-7所示,这些阶段在具体实施中可能需要重复多次。为完成这些阶段的任务,需要不同专业人员参与其中,专业人员主要包括业务分析人员、数据挖掘人员和数据管理人员。
6.5.3 数据服务 P253
数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务。
(1)数据目录服务。数据目录服务是用来快捷地发现和定位所需数据资源的一种检索服务,是实现数据共享的重要基础功能服务之一。由于专业、领域、主管部门、分布地域和采用技术的不同,数据资源呈现的是海量、多源、异构和分布的特点。对于需要共享数据的用户来说,往往存在不知道有哪些数据、不知道想要的数据在哪里、不知道如何获取数据等困难。
(2)数据查询与浏览及下载服务。数据查询、浏览和下载是网上数据共享服务的重要方式,用户使用数据的方式有查询数据和下载数据两种。数据查询与浏览服务一般通过关键字检索来进行。用户通过输入关键字或选择相应的领域及学科,对数据进行快速定位,得到相应的数据集列表。数据下载服务是指用户提出数据下载要求,在获得准许的情况下,直接通过网络获得数据的过程。对于需要数据下载的用户来说,首先需要査询数据目录,获得目标数据集的信息,然后到指定的网络位置进行下载操作。
(3)数据分发服务。数据分发是指数据的生产者通过各种方式将数据传送到用户的过程。通过分发,能够形成数据从采集、存储、加工、传播向使用流动,实现数据的价值。数据分发服务的核心内容包括数据发布、数据发现、数据评价等。数据发布是指数据生产者可以将已生产和标准化的数据传送到一个数据分发体系中,为用户发现、评价做好基础的准备工作。数据发布的内容包括元数据、数据本身、用于数据评价的信息及其他相关信息。数据发现是指用户通过分发服务系统搜索到所需数据相关信息的过程。可通过数据目录服务来实现。数据评价指用户对数据的内容进行判断和评定,以此判断数据是否符合自己的要求。
6.5.4 数据可祝化
数据可视化(Data Visualization)的概念来自科学计算可视化。数据可视化主要运用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并能进行交互处理,它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域,是一门综合性的学科,具体如图6-8所示。
由于所要展现数据的内容和角度不同,可视化的表现方式也多种多样,主要可分为7类:一维数据可视化、二维数据可视化、三维数据可视化、多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化。具体如表6-8所示。
练习
6.6数据脱敏和分类分级
数据的广泛应用(尤其是跨组织应用)需要确保数据隐私得到保护,这不仅仅涉及个人隐私数据,也包括组织隐私数据,这就需要各类组织对其管理、存储和使用的各类数据进行数据脱敏,并依托适当的分类分级,使数据相关活动能够在确保数据安全和隐私保护的前提下进行。
6.6.1 数据脱敏 -P255
数据使用常常需要经过脱敏化处理,即对数据进行去隐私化处理,实现对敏感信息的保护,这样既能够有效利用数据,又能保证数据使用的安全性。数据脱敏就是一项重要的数据安全防护手段,它可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,进而降低敏感数据泄露的风险,确保数据合规。
1.敏感数据-P255
敏感数据可以分为个人敏感数据、商业敏感数据、国家秘密数据等。为了更加有效地管理敏感数据,通常会对敏感数据的敏感程度进行划分,例如,可以把数据密级划分为5个等级,分别是L1(公开)、L2(保密)、L3(机密)、L4(绝密)和L5(私密)。
2.数据脱敏-P255
数据脱敏是对各类数据所包含的自然人身份标识、用户基本资料等敏感信息进行模糊化、加扰、加密或转换后形成无法识别、无法推算演绎、无法关联分析原始用户身份标识等的新数据,这样就可以在非生产环境(开发、测试、外包、数据分析等)、非可控环境(跨组织或团队数据应用)、生产环境、数据共享、数据发布等环境中安全地使用脱敏后的真实数据集。
3.数据脱敏方式-P255
数据脱敏方式包括可恢复与不可恢复两类。可恢复类指脱敏后的数据可通过一定的方式,恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。不可恢复类指脱敏后的数据被脱敏的部分使用任何方式都不能恢复,一般可分为替换算法和生成算法两类。
6.6.2 数据分类
数据分类是根据内容的属性或特征,将数据按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序。
数据分类有分类对象和分类依据两个要素。分类对象由若干个被分类的实体组成,分类依据取决于分类对象的属性或特征壬何一种信息都有多种多样的属性特征,这些属性特征有本质和非本质属性特征之别。
6.6.3 数据分级 P257
数据分级是指按照数据遭到破坏(包括攻击、泄露、篡改、非法使用等)后对国家安全、社会秩序、公共利益以及公民、法人和其他组织的合法权益(受侵害客体)的危害程度,对数据进行定级,主要是为数据全生命周期管理进行的安全策略制定。数据分级常用的分级维度有按特性分级、基于价值(公开、内部、重要核心等)、基于敏感程度(公开、秘密、机密、绝密等)基于司法影响范围(境内、跨区、跨境等)等。
从国家数据安全角度出发,数据分级基本框架分为一般数据、重要数据、核心数据3个级别,如表6-9所示。数据处理者可在基本框架定级的基础上,结合行业数据分类分级规则或组织生产经营需求,考虑影响对象、影响程度两个要素进行分级。
本章练习
内容 | 地址 链接 |
---|---|
总览 | 【第三版】系统集成项目管理工程 |
十五至尊图 | 第三版 |
第一章 | 信息化发展 |
第二章 | 信息技术发展 |
第三章 | 信息技术服务 |
第四章 | 信息系统架构 |
第五章 | 软件工程 |
版本记录:
- 2024年7月3第一版