CDGA数据治理工程师-学习笔记

目录

第一章 数据管理

组织管理数据的目标:

数据管理的原则:

数据生命周期:

数据管理战略的组成应包括:

第二章 数据伦理

目标

数据伦理活动

数据处理伦理问题

贝尔蒙特 数据伦理准则

违背伦理进行数据处理的风险

建立数据伦理文化的步骤(过程)

数据处理伦理的度量指标

第三章 数据治理

数据治理目标

数据治理的原则

数据治理运营模型****

数据治理活动(重要)*****

数据治理的度量指标****

第四章 数据架构(重点)

企业架构类型***

数据架构的职责***

数据架构师的职责****

总体数据架构实施内容***

企业模型包括

建立企业数据架构的工作

企业数据架构项目相关活动内容

数据架构应用项目中的方法

数据架构的管理工具

图标的使用规范

架构类项目最明显的风险

组织接受并实施数据架构的能力依赖于以下几个方面

数据架构治理的活动***

数据架构的度量指标****

第五章 数据建模与设计(重点)

数据建模常见的模式***

建模的数据类型****

高质量的数据定义:清晰、准确、完整。

常见的6种建模方法***

非关系型的建模****

数据建模的工作计划(内容)**

数据建模工作交付成果***

数据库设计中的最佳实践-PRISM 设计原则

第六章 数据存储与操作

目标

活动

ACID处理事务的特点:原子性、一致性、隔离性、持久性。

BASE处理事务的特点:基本可用、软状态、最终一致性。

数据库组织模型:层次型、关系型和非关系型,这种归类并非是完全互斥的。

数据存储和操作治理的度量指标***

第七章 数据安全(重点)

数据库安全业务驱动因素

数据安全的目标和原则

风险的分类

数据安全过程****

加密方法

脱敏的方法***

数据安全类型

数据安全架构涉及**

数据安全度量指标**

第八章 数据集成和互操作

数据集成和互操作的目标和原则

工具

活动

数据集成和互操作的度量指标

第九章 文件和内容管理

业务驱动因素

目标和原则

精心管理的档案具有的特点

第十章 参考数据和主数据

业务驱动因素

目标和原则

主数据和参考数据的相同点和不同点

主数据管理的关键步骤

主数据中心环境的三种基本方法

实施指南

度量指标***

第十一章 数据仓库和商务智能

业务驱动因素

目标和原则

数据仓库和业务系统的区别

数据仓库和数据集市的数据与应用程序中的数据不同****

批量变更数据捕获的方式

准实时和实时数据加载方式

数据仓库/商务智能建设项目的构建轨迹**

三种经典的OLAP实现方法

数据仓库应该能实现以下几点

数据仓库/商务智能治理的重要成功因素

数据仓库/商务智能度量指标****

第十二章 元数据管理(重点)

元数据的业务驱动因素(了解)

目标和原则(重要)

业务元数据的示例

技术元数据示例

操作元数据示例

非机构化数据的元数据包括

元数据综合解决方案的功能需求点组成

元数据质量控制活动

管理元数据质量的方法

缺失高质量元数据带来的影响

元数据管理度量指标

第十三章 数据质量(重点)

业务驱动因素

目标和原则

目标

原则

评估关键数据

启动一个新的周期来持续改进

数据质量问题的常见原因

定义数据质量战略的框架方法

数据质量管理工具

数据质量管理方法

预防措施

定义数据质量分析人员考虑特征

数据质量度量指标

第十四章 大数据和数据科学

业务驱动因素

原则

开发数据科学的解决方案

数据湖

基于服务的架构

机器学习

选择数据源

度量指标

第十五章 数据管理成熟度评估

业务驱动因素

目标和原则

评价等级及特点

评估标准

现有DAMA框架

活动

交付成果

工具

方法

度量指标****

第十六章 数据管理组织与角色期望

数据管理组织的结构


第一章 数据管理

数据和信息都需要被管理,本书中:数据和信息可以互换使用。

管理数据得到责任必须有业务人员信息技术人员两类角色共同承担,需要相互协作,确保组织拥有满足战略需求的高质量数据。

数据既是对其所代表对象的解释,也是必须解释的对象。

数据管理的主要驱动力也是使组织能够从其数据资产中获取价值。

组织管理数据的目标:

1)理解并支撑企业及其利益相关方的信息需求得到满足;

2)获取、存储、保护数据和确保数据资产的完整性;

3)确保数据和信息的质量;

4)确保利益相关方的数据隐私和保密性;

5)防止数据和信息未经授权或被不正当访问、操作及使用;

6)确保数据能有效地服务于企业增值的目标。

数据管理的原则:

数据价值

1)数据是有独特属性的资产;

2)数据的价值可以用经济术语来表示

数据管理需求是业务的需求

3)管理数据意味着对数据的质量管理;

4)需要元数据来管理数据;

5)数据管理需要规划;

6)数据管理须驱动信息技术决策;

数据管理依赖于不同的技能

7)数据管理是跨职能的工作;

8)数据管理需要企业级视角;

9)数据管理需要多方面要求负责;

数据管理是生命周期管理

10)数据管理需要全生命周期的管理,不同类型数据有不同的生命周期特征;

11)数据管理需要纳入与数据相关的风险。

12)有效的数据管理需要领导层承担责任。

数据的生命周期基于产品的生命周期,不应该与系统开发生命周期混淆。

每个组织的数据都是唯一的,因此评估数据价值需要首先计算组织内部持续付出的一般性成本和各类收益。(成本法、收益法、市场法)

1)获取和存储数据的成本;2)如果数据丢失,更换数据需要的成本;3)数据丢失对组织的影响;4)风险缓解成本和与数据相关的潜在风险成本;5)改进数据的成本;6)高质量数据的优势;7)竞争对手为数据付出的费用;8)数据潜在的销售价格;9)创新性应用数据的预期收入。

数据生命周期:

1)创建和使用是数据生命周期中的关键点;

2)数据质量管理必须贯穿整个数据生命周期;

3)元数据管理必须贯穿整个数据生命周期;

4)数据管理还包括确保数据安全,并降低与数据相关的风险;

5)数据管理工作应聚焦于关键数据。

数据管理战略由CDO拥有和维护,并由数据治理委员会支持的数据管理团队实施。通常,CDO会在数据治理委员会成立之前起草一份初步的数据战略和数据管理战略,以获得高级管理层对建立数据管理和治理的支持。

数据管理战略的组成应包括:

1)令人信服的数据管理愿景。

2)数据管理的商业案例总结。

3)指导原则、价值观和管理观点。

4)数据管理的实名和长期目标。

5)数据管理成功的建议措施。

6)符合SMART原则(具体、可衡量、可操作、现实、有时间限制)的短期(12-24个月)数据管理计划的目标。

7)对数据管理角色和组织的描述,以及对其职责和决策权的总结。

8)数据管理程序组件的初始化任务。

9)具体明确范围的有限工作计划。

10)一份包含项目和行动任务的实施路线图草案。

数据管理战略规划的可交付成果包括:

1)数据管理章程。包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。

2)数据管理范围声明。包括规划目的和目标(通常为3年),以及负责实现这些目标的角色、组织和领导。

3)数据管理实施路线图。确定特定计划、项目、任务分配和交付里程碑。

战略一致性模型(SAM)和阿姆斯特丹信息模型,暂时了组织管理数据的高阶关系。

SAM(战略一致性模型)和AIM(阿姆斯特丹信息模型)框架从横轴(业务/IT战略)和纵轴(业务战略/业务运营)两个维度详细描述组件之间的关系。

DAMA-DMBOK框架(DAMA车轮图、六边形图和语境关系图)描述了由DAMA定义的数据管理知识领域,并解释了它们在DMBOK中的视觉表现。

语境关系图的组成(12个):

定义、目标、活动(计划活动P、控制活动C、开发活动D、运营活动O)、输入、交付成果、角色和职责、供给者、消费者、参与者、工具、方法、度量指标。

DAMA车轮图呈现的是一组知识领域的概要,六边形展示了知识领域结构的组成部分,语境关系图展示了每个知识领域中的细节。

第二章 数据伦理

伦理是建立在是非观念上的行为准则。

伦理准则通常侧重于公平、尊重、责任、诚信、质量、可靠性、透明度和信任等方面。

定义:数据处理伦理是指如何以符合伦理道德准则及社会责任的方式获取、存储、管理、解释、分析、应用和销毁数据。

目标
  • 定义组织中数据处理的伦理规范
  • 教导员工不正当处理数据会产生的企业风险
  • 改变或渗透数据处理行为文化
  • 监管、度量、监控和调整组织伦理准则行为
数据伦理活动
  • 回顾数据处理实践
  • 识别准则、方法和风险因素
  • 建立数据处理伦理策略
  • 找到实践差距
  • 沟通和培训员工
  • 监控和校正
数据处理伦理问题

1)对人的影响。由于数据代表个人的特征,可被用于各类决策,从而影响人们的生活,因此必需保证其质量和可靠性。

2)滥用的可能。滥用数据会对人合组织造成负面影响,所以需要有伦理准则来防止数据被滥用。

3)数据的经济价值。数据存在经济价值。需要规定数据所有权,即谁可以去使用数据及如何使用数据。

爱德华.戴明“在没有人注意的情况下正确做事”。

贝尔蒙特 数据伦理准则

(1)尊重他人(2)行善原则(3)公正(4)尊重法律和公众利益

1980年经合组织制定公平信息处理指引和准则,8项核心原则:数据采集的限制、对数据高质量的期望、为特定目的进行采集数据、对数据使用的限制、安全保障、对开放性和透明度的期望、个人挑战与自己有关数据的准确性以及组织遵守准则的责任。

欧盟 GDPR 准则(2016):(1)公平/合法/透明;(2)目的限制;(3)数据最小化;(4)准确性(准确/最新,能 删除或更正);(5)存储限制(可识别主体的形式存,时间不超过应需);(6)诚信和保密(安全处理,防止非法使用或丢失);(7)问责制度(操作人应负责并证明符合上述原则)。

加拿大隐私法基于PIPEDA(个人信息保护及电子文件法)的法定义务

问责制度、目的明确、授权、(收集、使用、披露和留存限制)、准确性、保障措施、透明度、个人访问、合规挑战

2012.3 美国联邦贸易委员会(FTC)--美国隐私方案标准

发布/告知、选择/许可、访问/参与、诚信/安全、执行/纠正

在线数据的伦理环境:数据所有权、被遗忘的全系、身份、在线言论自由

违背伦理进行数据处理的风险

利用数据歪曲事实是有可能的。方法包括主观的数据选择、范围的操控、部分数据点的遗漏。

1、时机选择 2、可视化误导 3、定义不清晰或无效的比较 4、偏见 (预设结论的数据采集、预感和搜索、片面抽样方法、背景和文化)

建立数据伦理文化的步骤(过程)

1、评审现有数据处理方法

2、识别原则、实践和风险因素

3、制定合乎伦理的数据处理策略和路线图

4、采用对社会负责的风险伦理模型

数据处理伦理的度量指标

培训员工人数、合规\不合规事件、企业高管参与

第三章 数据治理

数据治理职能是指导其他数据管理领域的活动。数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据。而数据管理的整体驱动力是确保组织可以从其数据中获得价值,数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式。

数据管理大于数据治理,数据治理是数据管理的1/11,数据治理“人、组织、规章制度”,并不直接管理数据。

数据治理项目需要包含:战略、制度、标准和质量、监督、合规、问题管理

交付成果:

数据治理策略、数据策略、业务/数据治理行动路线图、过程、操作框架、路线图和实现战略、操作计划、业务术语、数据治理计分卡、数据治理网站、沟通计划、识别数据价值、实践结果成熟度评估

数据治理目标

(1) 提升管理数据资产的能力;

(2) 定义、批准、沟通和实施数据管理的原则、政策、 程序、指标、工具和责任;

(3) 监控和指导政策合规性、数据使用和管理活动。

数据治理最常见的驱动因素是法规遵从性,特别是重点监控行业。例如金融服务和医疗健康,需要引入法律所要求的治理程序。高级分析师、数据科学家的迅猛发展也成为新增的驱动力。

数据治理的驱动因素大多聚焦于减少风险或者改进流程

数据治理不是一次性的行为,是一个持续性的项目集。

数据治理要与IT治理区分开。IT治理制定关于IT投资、IT应用组合个IT项目组合的决策,从另外一个角度还包括硬件、软件和总体技术框架。

IT治理的作用是确保IT战略、投资与企业目标、战略的一致性。

数据治理仅聚焦于管理数据资产和作为资产的数据。

数据治理确保数据被恰当管理而不是直接管理数据,相当于将监督和执行的职责分离。

数据治理的原则
  1. 领导力和战略
  2. 业务驱动
  3. 共担责任
  4. 多层面
  5. 基于框架
  6. 原则导向

数据治理运营模型****

集中式管理模式、分布式管理模式、联邦式管理模式。

数据管理职责/活动:创建和管理核心元数据、记录规则和标准、管理数据质量问题、执行数据治理运营活动。

数据治理活动(重要)*****

1.规划组织的数据治理。(A 执行就绪评估。B 探索与业务保持一致。C 制定组织触点。)(触点:突破口、价值点、抓手、切入点)P53-55

2 制定组织数据治理战略。(A 定义数据治理运营框架。B 制定目标、原则和制度。C 推动数据管理项目。D 参与变更管理。E 参与问题管理。F 评估法规遵从性要求。)

3 实施数据治理。(A 发起数据标准和规程。B 制定业务术语表。C 协调架构团队协作。D 发起数据资产估值。)

4 嵌入数据治理。最为详细的数据架构设计文件是正式的企业数据模型。

活动:

一、规划组织的数据治理

执行就绪评估(数据管理成熟度、变革能力、协作准备、与业务保持一致

探索与业务保持一致

制定组织触点(采购和合同、预算和资金、法规遵从性、SDLC/开发框架)

二、制定数据治理战略

交付物:章程、运营框架和职责、实施路线图、为成功运营制定计划

1、定义数据治理框架

构建组织的运营框架需考虑:数据对组织的价值、业务模式、文化因素、监管影响。

2、制定目标原则和制度:

起草--数据管理专业人员、业务策略人员

审查完善--数据管理专员和管理人员

终审、修订发布--数据管理委员会

3、推动数据管理项目

4、参与变革管理

5、参与问题管理

6、评估法规遵从性要求

三、实施数据治理

高优先级的前期工作:

(1)定义可满足高优先级目标的数据治理流程。

(2)建立业务术语表,记录术语和标准。

(3)协调企业架构师和数据架构师,帮助他们更好地理解数据和系统。

(4)为数据资产分配财务价值,以实现更好的决策,并提高对数据在组织成功中所起作用的理解。

1、发起数据标准和规程

2、制定业务术语表

业务术语表的目标:

1)对核心业务概念和术语有共同的理解。

2)降低由于对业务概念理解不一致而导致数据误使用的风险。

3)改进资产(包括技术命名规范)与业务组织之间的一致性。

4)最大限度地提高搜索能力,并能够获得记录在案的组织知识。

3、协调架构团队协作

4、发起数据资产估值

四、嵌入数据治理--数据治理组织的一个目标是将治理活动嵌入到数据作为资产管理相关的一系列流程中

工具和方法:线上应用/网站、业务术语表、工作交流工具、文档管理工具、数据治理记分卡

数据治理的度量指标****

(1)价值

1)对业务目标的贡献

2)风险的降低

3)运营效率的提高

(2)有效性

1)目标的实现

2)扩展数据管理专员正在使用的相关工具

3)沟通的有效性

4)培训的有效性

5)采纳变革的速度

(3)可持续性

1)制度和流程的执行情况(即它们是否正常工作)

2)标准和规程的遵守情况(即员工是否在必要时遵守指导和改变行为)

第四章 数据架构(重点)

企业架构类型***

业务架构、数据架构、应用架构和技术架构

数据架构是数据管理的基础。

数据架构的构件包括当前状态的描述、数据需求的定义、数据整合的指引、数据管控策略中要求的数据资产管理规范。组织的数据架构是指不同抽象层级主要设计文档的集合,其中主要包括数据的收集、存储、规划、使用和删除等标准。

最为详细的数据架构设计文件是正式的企业数据模型,包含数据名称、数据属性和元数据定义、概念和逻辑实体、关系以及业务规则。物理数据模型也属于数据架构文件,但物理数据模型是数据建模和设计的产物,而不是数据架构的产物。

业务驱动因素

数据架构的职责***

数据架构的目标是在业务战略和技术实现之间建立起一座通畅的桥梁,数据架构是企业架构中的一部分,其主要职责为:

1)利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据。

2)将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据。

3)管理复杂数据和信息,并传递至整个企业。

4)确保业务和IT技术保持一致

5)为企业改革、转型和提高适应性提供支撑。

数据架构师的职责****

1)定义组织中数据的当前状态。

2)提供数据和组件的标准业务词汇。

3)确保数据架构和企业战略及业务架构保持一致。

4)描述组织数据战略需求。

5)高阶数据整合概要设计。

6)整合企业数据架构蓝图。

总体数据架构实施内容***

1)使用数据架构构件(主蓝图)来定义数据需求、指导数据整合、管控数据资产,确保数据项目投入与企业战略保持一致。

2)与参与改进业务或IT系统开发的利益相关方合作,学习并影响他们。

3)通过数据架构及通用的数据词汇,搭建企业数据语言。

基本概念

企业模型包括

概念模型主题域模型逻辑模型物理模型

企业数据架构

企业数据架构必须包括企业数据模型(如数据结构和数据规范)和数据流设计

1)企业数据模型。企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。通常用于表示高层级简化的数据模型,也表示了不同抽象层级。企业数据模型包括数据实体(如业务概念)、数据实体间关系、关键业务规则和一些关键属性,它为所有数据和数据相关的项目定了基础。任何项目级的数据模型必须基于企业数据模型设计。企业数据模型应该由利益相关方审核,以便它能一致有效地代表企业。

2)数据流设计。定义数据库、应用、平台和网络(组件)之间的需求和主蓝图。这些数据流展示了数据在业务流程、不同存储位置、业务角色和技术组件间的流动。

因此,企业概念数据模型是由主题域模型相结合构建的。每个企业数据模型既可以采用自上而下,也可以采用自下而上的方法进行构建。自上而下是从主题域开始,先设计主题,再逐步设计下层模型。而采用自下而上的方法时,主题域结构则是基于现有逻辑数据模型向上提炼抽象而成。通常推荐两种方法相结合,即自下而上地从分析现有模型开始,自上而下地设计主题模型,通过两种方法的结合来共同完成企业数据模型的设计工作。

简化数据和企业架构所面临的难题,解决办法:面向质量面向创新

建立企业数据架构的工作

战略、沟通与文化、组织、工作方法、结果。

企业数据架构项目相关活动内容

定义范围、理解业务需求、设计、实施。

数据架构应用项目中的方法

瀑布方式、迭代方式、敏捷方式。

数据架构的管理工具

数据建模工具、资产管理工具、图形设计应用

图标的使用规范

1)清晰一致的说明;

2)所有图表对象与说明匹配;

3)清晰一致的线条方向;

4)一致的交叉线显示方法;

5)一致的对象属性:对任何大小、颜色、线条粗细等不同的图标要求表示不同的内容;

6)线性对称。

架构类项目最明显的风险

1)缺少管理层的支持;2)成功与否缺乏证据;3)缺乏管理者的信任;4)管理层不正确的决策;5)文化冲击;6)缺乏有经验的项目经理;7)单一维度视角。

组织接受并实施数据架构的能力依赖于以下几个方面

1)对架构仿法的接受度(开发架构的友好性);

2)确认数据属于组织的业务资产,而不仅仅是IT的任务;

3)放弃局部数据视角,接受企业级数据视角的能力;

4)将架构交付成果整合到项目实施中的能力;

5)规范数据治理的接受程度;

6)立足企业全局,而不是仅仅局限于项目交付成果和IT解决问题的能力(Edvinsson,2013)。

数据架构治理的活动***

1)项目监督;2)管理架构设计、生命周期和工具;3)定义标准;4)创建数据相关构建。

数据架构的度量指标****

1)架构标准接受率 2)实施趋势 3)业务价值度量指标(业务敏捷性改进、业务质量、业务操作质量、业务环境改进)

第五章 数据建模与设计(重点)

数据建模常见的模式***

关系模式、多维模式、面向对象模式、事实模式、实践序列模式和NoSQL模式。

详细程度不同:概念模型、逻辑模型和物理模型。

概念和逻辑层面与技术无关,但是物理模型依赖于技术实现。

数据建模目标和原则

数据建模的目标是确认和记录不同视角对数据需求的理解,从而使应用程序与当前和未来的业务需求更加紧密地结合在一起,并为成功地完成广泛的数据应用和管理活动莫定基础,如主数据管理和数据治理计划。良好的数据建模会降低支持成本,增加未来需求重复利用的可能性,从而降低构建新应用的成本。数据模型是元数据的一种重要形式。

建模的数据类型****

1)类别信息 2)资源信息 3)业务事件信息 4)详细交易信息

都属于“静态数据”,部分“动态数据”也可以建模。例如系统的方案

数据模型的组件。

1)实体:是有别于其他事物的事物。

注:实体别名会根据模型类型而变化。在关系模型中经常用到“实体”这个术语,在维度模型中使用“维度”和“事实表”等术语,在面向对象模型中经常使用“类”或“对象”等术语,在基于事件模型中经常使用“中心”“卫星”“链接”等术语,在非关系型数据库模型中经常使用“文件”或“节点”得到那个术语。

高质量的数据定义:清晰、准确、完整。

2)关系是实体之间的关联。

通用术语“关系”也可以用其他名称来表示。关系的别名(Relationship Aliases)根据模型不同而变化。在关系模型中经常使用术语“关系”,在维度模型中经常使用术语“导航路径”,在NoSQL非关系型数据库模型中经常使用诸如“边界”或“链接”等术语。在概念和逻辑级别上的关系就被称为“关系”,但是在物理级别上的关系可能会采用其他名称表示,如“约束”或“引用”等,这主要取决于具体的数据库技术。

关系的基数:表明一个实体与其他实体参与建立关系的数量。有“0、1、多”。

关系的元数:关系中涉及实体的数目。有一元关系、二元关系、三元关系。

一元关系:递归关系、 自我引用关系。一对多:层级关系。多对多:网络关系或图表。二元关系:涉及两个实体的关系。三元关系:涉及三个实体的关系。

域可以用不同的方式定义数据类型、数据格式、列表、范围、基于规则

常见的6种建模方法***

关系建模、维度建模、面向对象建模(UML)、基于事实建模、基于时间建模和非关系型建模。

在关系建模方法中,三层模型仅适用于关系型数据库,而概念模型和逻辑型模型可适用于其他数据库。基于事实的建模方法与此类似。对于维度建模方法,三层模型仅适用于关系型数据库和多维数据库。面向对象的建模方法仅适用于关系型数据库和对象数据库。

在关系建模中有几类不同的表示法可以用来表达实体间的关系,包括信息工程法、信息建模的集成定义IDEF1X、巴克表示法(Barker)和陈氏表示法(Chen)。最常见的是信息工程法,该方法采用三叉线(俗称“鸭掌模型”)来表示基数。

基于时间的建模

数据拱顶:是一组支持一个或多个业务功能领域,面向细节、基于时间且唯一链接的规范化表。

数据拱顶模型是一种混合方式,综合了第三范式(3NF)和星型模式的优点。数据拱顶模型专门 为满足企业数据仓库的需求而设计的。

有 3 种类型的实体:中心表、链接表、卫星表。设计的重点是业务的功能领域,中心表代表业务主键,链接表定义了中心表之间的事务集成,卫星表定义 了中心表主键的语境信息。

锚模型(Anchor Model)适合信息的结构和内容都随时间发生变化的情况。它提供用于概念建模的图形语言,能够扩展处理临时数据。锚建模(Anchor Modeling)有4个基本的建模概念:锚、属性、连接 、节点

非关系型的建模****

4类NoSQL数据库:文档数据库、键值数据库、列数据库和图数据库。

活动

1)规划数据建模

数据建模的工作计划(内容)**

评估组织需求、确定建模标准、明确数据模型存储管理等任务。

数据建模工作交付成果***

图表、定义、争议和悬而未决的问题、血缘关系

2)建立数据模型

正向工程是指从需求开始构建新应用程序的过程。首先需要通过建立概念模型来理解需求的范围和核心的术语;然后建立逻辑模型来详细描述业务过程;最后是通过具体的建表语句来实现物理模型。

逆向工程是记录现有数据库的过程。物理数据建模通常是第一步以了解现有系统的技术设计;逻辑数据建模是第二步,以记录现有系统满足业务的解决方案;概念数据建模是第三步,用于记录现有系统中的范围和关键术语。大多数数据建模工具支持各种数据库的逆向工程。但是,将模型元素进行可读性的布局展示仍需要建模人员来完成。可以选择几种常见的布局(如正交、维度和层次结构)来启动流程,但语境的组织(即按主题区域或功能对实体分组)在很大程度上仍是一个手动流程。

3)审核数据模型

4)维护数据模型

方法

ISO11179元数据注册是一种表示组织中元数据的国际标准。

命令约定的最佳实践:对每种类型建模对象和数据库对象发布数据模型和数据库命名标准。命名标准对于实体、表、属性、键、视图和索引尤为重要。名称应该是唯一的并且尽可能具有描述性。逻辑名称对业务用户应具有意义,应尽可能使用完整的单词,避免使用不熟悉的缩写。物理名称符合 DBMS 允许的长度,必要时使用缩写。逻辑名称通常不允许使用任何的分隔符。物理名称可使用下划线作为单词分隔符。命名标准应该尽量减少跨环境的名称变化。名称不应受其特定环境影响,如测试、QA 或生产环境。分类词(Class Word),即数量、名称和代码等属性名称中的最后一个术语,可用于从表名中区分实体和列名的属性。

数据库设计中的最佳实践-PRISM 设计原则

1) 性能和易用性。

2 )可重用性。多应用重复使用,并可用于多目的。

3 )完整性。数据应始终具有有效的业务含义和价值,始终反映业务的有效状态。

4 )安全性。始终向授予用户提供真实准确的数据,且仅限授权用户使用。

5 )可维护性。维护成本不超过其对组织的价值;尽可能快速响应业务流程和新业务需要变化。

第六章 数据存储与操作

定义:管理数据存储的设计、实现和支持活动,以实现其最大化价值。

目标

1)贯穿整个数据生命周期,管理数据的可用性。

2)确保数据资产的完整性

3)管理数据交易的性能。

活动

1)管理数据库技术

2)管理数据库操作

数据库管理员(DBA)是数据专业中最常见、也是最广泛被接纳的角色。DBA在数据存储与操作活动中承担着主导角色,在数据安全活动及物理模型建模、数据库设计活动中也是关键的角色。DBA为开发环境、测试环境、QA环境及其他特殊数据库环境提供支持。

DBA不是独立完成数据存储和操作所有相关活动的唯一角色。

从专业分工来划分,DBA被分为生产DBA、应用程序DBA、过程和开发DBA。一些企业也会将数据存储系统从数据存储应用架构独立出来,设有专门的网络存储管理员(NSA)负责。

数据处理类型:ACID和BASE。

ACID处理事务的特点:原子性、一致性、隔离性、持久性。

在关系型数据库存储中,ACID相关技术是最主要的工具,通常采用SQL作为借口。

BASE处理事务的特点:基本可用、软状态、最终一致性。

通常在大数据环境中会使用BASE类型的系统。

CAP定理(布鲁尔定理)是集中式系统在朝着分布式的系统方向发展过程中提出的理论。CAP定理指的是分布式系统不可能同时满足ACID的所有要求。系统规模越大,满足的要求点越少。分布式系统必须在各种属性(要求)间进行权衡。

1)一致性(Consistency)。系统必须总是按照设计和预期的方式运行。

2)可用性(Availability)。请求发生时系统时刻都保持可用状态,并对请求作出响应。

3)分区容错(Partition Tolerance)。偶尔发生数据丢失或者部分系统故障发生时,系统依然能够继续运行提供服务。

CAP定理指出,在任何共享数据的系统里,这3项要求最多只可能同时满足其中两项。通常用“三选二”来说明。

数据库组织模型:层次型、关系型和非关系型,这种归类并非是完全互斥的。

关系型数据库管理系统(RDBMS),当需要存储的数据不断变化时,关系型数据库是主要选择。关系型数据库的变体包括多维数据库时态数据库

使用ACID类型的有SOL、ODBC、JDBC、XOJ、ADO.NET、XML、X Query、Xpath和Web服务等。适用于BASE类型的有C、C+ +、REST、XML和Java。

生产数据中生成。根据需要,可以对生产数据进行筛选或聚合创建多个示例数据集。如果生产数据包含受保护或受限制的数据,那么样本数据必须与外界隔离。

数据存储和操作治理的度量指标***

数据存储的度量指标、性能度量评估指标、操作度量指标、服务度量指标。

第七章 数据安全(重点)

数据库安全业务驱动因素

降低风险促进业务增长是数据安全活动的主要驱动因素。

元数据是管理敏感数据的方法之一。可以在数据元素和集合级别标记信息分类和合规敏感度。

数据安全的目标和原则

目标

1)支持适当访问并防止对企业数据资产的不当访问。

2)支持对隐私、保护和保密制度、法规的遵从。

3)确保满足利益相关方对隐私和保密的要求。

原则

1)协同合作 2)企业统筹 3)主动管理

4)明确责任 5)元数据驱动 6)减少接触以降低风险

风险的分类

1)关键风险数据 CRD。个人信息。滥用关键风险数据不仅会伤害个人,还会导致公司遭受重大的处罚,增加挽留客户、员工的成本以及损害公司品牌与声誉,从而对公司造成财务 损害。

2)高风险数据 HRD。高风险数据为公司提供竞争优势,具有潜在的直接财务价值,往往 被主动寻求未经授权使用。如果高风险数据被滥用,那么可能会因此使公司遭受财务损失。高风 险数据的损害可能会导致因不信任而使业务遭受损失,并可能导致法律风险、监管处罚以及品牌 和声誉受损。

3)中等风险数据 MRD。对几乎没有实际价值的公司非公开信息,未经授权使用可 能会对公司产生负面影响。

数据安全过程****

4A+E:访问(Access)、审计(Audit)、验证(Authentication)、授权(Authorization)、权限(Entitlement)

数据安全的加密

加密方法

1)哈希(Hash)将任意长度数据转换为固定长度数据表示。MD5、SHA

2)对称加密使用一个密钥来加解密数据。加密标准DES、三重DES(3DES)、高级加密标准(AES)和国际数据加密算法(IDEA)、Cyphers Twofish、Serpent

3)非对称加密发送方和接收方使用不同的密钥。RSA、Diffile-Hellman、PGP

数据混淆和脱敏是解决数据使用过程中的一种安全手段。分为静态脱敏动态脱敏

静态脱敏按执行方式又可以分为不落地脱敏落地脱敏

静态数据脱敏(Persistent Data Masking)永久且不可逆转地更改数据。这种类型的脱敏通常不会在生产环境中使用,而是在生产环境和开发(或测试)环境之间运用。静态脱敏虽然会更改数据,但数据仍可用于测试、应用程序、报表等。

1)不落地脱敏(In-flight Persistent Masking)。当在数据源(通常是生产环境)和目标(通常是非生产)环境之间移动需要脱敏或混淆处理时,会采用不落地脱敏。由于不会留下中间文件或带有未脱敏数据的数据库,不落地脱敏方式非常安全。

2)落地脱敏(In-place Persistent Masking)。当数据源和目标相同时,可使用落地脱敏。从数据源中读取未脱敏数据,进行脱敏操作后直/接覆盖原始数据。假定当前位置不应该保留敏感数据,需要降低风险或者在安全位置中另有数据副本,在移动至不安全位置之前就应当进行脱敏处理。这个过程存在一定的风险,如果在脱敏过程中进程失败,那么很难将数据还原为可用格式。不落地脱敏能更安全地满足项目需求。

脱敏的方法***

1)替换 2)混排 3)时空变异 4)数值变异 5)取消或删除

6)随机选择 7)加密技术 8)表达式脱敏 9)键值脱敏

数据安全类型

(1)设施安全。设施安全是抵御恶意行为人员的第一道防线。

(2)设备安全。 设备安全(Device Security)的标准包括:1)使用移动设备连接的访问策略。2)在便携式设备 (如笔记本计算机、DVD、CD 或 USB 驱动器)上存储数据。3)符合记录管理策略的设备数据 擦除和处置。4)反恶意软件和加密软件安装。5)安全漏洞的意识。

(3)凭据安全。 1)身份 管理系统。单点登陆。2)电子邮件系统的用户 ID 标准。电子邮件域,用户 ID 应当是唯一的。 3)密码标准。密码是保护数据访问的第一道防线。建议用户每 45-180 天更改一次密码。4)多因素识别。所有具有高度敏感信息权限的用户都应使用双重因素识别技术登录网络。

(4)电子通信安全。不安全的通信方式可被外部读取或拦截。用户必须接受安全培训。发送电子邮件后, 用户将失去对其中信息的控制。它可以在发件人不知情或没有同意的情况下被转发给其他人。

数据安全制约因素包括数据的保密等级和监管要求。

(1)机密数据

1)对普通受众公开(For General Audiences)。可向任何人(包括公众)提供的信息。

2)仅内部使用(Internal Use Only)。仅限员工或成员使用的信息,但信息分享的风险很小。这种信息仅供内部使用、可在组织外部显示或讨论,但不得复制。

3)机密(Confidential)。若无恰当的保密协议或类似内容,不得在组织以外共享。不得与其他客户共享客户机密信息。

4)受限机密(Restricted Confidential)。受限机密要求个人通过许可才能获得资格,仅限于特定“需要知道”的个人。

5)绝密(Registered Confidential)。信息机密程度非常高,任何信息访问者都必须签署一份法律协议才能访问数据,并承担保密责任。

实施指南

组织提高合规性:培训、制度的一致性、衡量安全性的收益、为供应商设置安全要求、增强紧迫感、持续沟通。

任何事情都可外包,担责任除外。

外包组织从CRUD(创建、读取、更新和删除)矩阵的创建中受益匪浅。该矩阵映射跨业务流程、应用程序、角色和组织的数据职责,以跟踪数据转换、血缘关系和监管链。此外,执行业务决策或应用程序功能(如批准审查、批准订单)的能力必须包含在矩阵中。负责、批注、咨询、通知(RACI)矩阵也有助于明确不同角色的角色、职责分离和职责,包括他们的数据安全义务,

RACI矩阵可成为合同协议和数据安全制度的一部分。

数据安全架构涉及**

1)用于管理数据安全的工具。

2)数据加密标准和机制。

3)外部供应商和承包商的数据访问指南。

4)通过互联网的数据传送协议。

5)文档要求。

6)远程访问标准。

7)安全漏洞事件报告规程

数据安全度量指标**

1)安全实施指标

2)安全意识指标

3)数据保护指标

4)安全事件指标

5)机密数据扩散

数据组织最常用的运营模式为联邦制

影响系统可用性的4个相关因素:可管理性、可恢复性、可靠性、可维护性

元数据的类型:业务元数据、技术元数据和操作元数据。

元数据的目标

1)记录和管理与数据相关的业务术语的知识体系,以确保理解和使用数据内容的一致性。

2)收集和整合来自不同来源的元数据,以确保了解来自不同部门的数据的相似与差异。

3)确保 元数据的质量、一致性、及时性和安全。

4)提供标准途径,使元数据使用者可以访问元数据。

5)推广或强制使用技术元数据标准,以实现数据交换。

第八章 数据集成和互操作

驱动因素:

数据集成和互操作主要目的是为了对数据移动进行有效管理

数据集成和互操作的目标和原则

目标

1)及时以数据消费者(人和系统)所需的格式提供数据。

2)将数据物理地或虚拟地合并到数据中心。

3)通过开发共享模型和接口来降低管理解决方案的成本和复杂度。

4)识别有意义的事件(机会和威胁),自动触发警报并采取相应行动。

5)支持商务智能、数据分析、主数据管理以及运营效率的提升。

原则

1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现。

2)平衡本地数据需求与企业数据需求,包括支撑与维护。

3)确保数据集成和互操作设计和活动的可靠性,业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。

数据集成和互操作的核心抽取、转换和加载(ETL)。

抽取:包括选择所需的数据并从其源数据中提取。

转换:让选定的数据与目标数据库的结构相兼容。格式变化、结构变成、语义转换、消除重复、重新排序。

加载:在目标系统中物理存储或呈现转换结果。

如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为 ELT——抽取、 加载、转换

映射:是从源结构到目标结构建立查找矩阵的过程,也是该过程的结果。

时延是指从源系统生成数据到目标系统可用该数据的时差。

复制。考虑为世界各地的用户提供更好的相应时间,一些应用程序在多个物理位置上有维护数据集的精确副本,复制技术将分析和查询对主事务操作环境性能的影响降至最低。

交互模型:点对点、中信辐射型、发布与订阅。

工具

数据转换引擎/ETL工具、数据虚拟化服务器、企业服务器总线、业务规则引擎、数据和流程建模工具、数据剖析工具、元数据存储库

活动

数据集成基本目标是保持应用程序松散耦合,限制开发和管理接口的数量,使用中心辐射型方法并创建标准规范的接口。

数据集成和互操作的度量指标

1)数据可用性 2)数据量和速度 3)解决方案成本和复杂度

第九章 文件和内容管理

定义:是针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。

业务驱动因素

法规遵从性、诉讼响应能力和电子取证请求能力以及业务连续性要求。

目标和原则

目标

1)确保能够告诉有效地采集和使用非结构化的数据和信息。

2)确保结构化和非结构化数据之间的整合能力。

3)遵守法律义务并达到客户预期。

原则

1)组织中每个人都应该在保护组织的未来方面发挥作用。

2)档案和内容处理方面的专家应充分参与制度和规划的制定。

文件(Document)是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等的电子或纸质对象。文件可用于交流并分享信息和知识。程序、协议、方法和说明书都属于文件。

只有部分文件才能称为档案(Record)。档案可用于证明所做的决策和所采取的行动是符合程序的;可作为组织业务活动和法规遵从的证据。档案通常是由人来创建的,但仪器和监控设备也可以提供数据来自动生成档案。

数据管理专业人员是文件分类和保管决策中的利益相关方,他们必须支持基础结构化数据与特定非结构化数据之间的一致性。

档案管理(Records Management)是文件管理的一部分,管理档案有一些特殊的要求。档案管理包括整个档案的生命周期:从档案的创建或接收到处理、分发、组织和检索,再到处置。

精心管理的档案具有的特点

1)内容。内容必须准确、完整和真实。

2)背景。关于档案的创建者、创建日期或与其他档案关系的描述性信息(元数据)应该在创建档案时收集、组织并维护。

3)及时性。档案应该在事件、行为或决定发生后立即创建。

4)永久性。一旦成为档案,则在档案的法定保存期内不能改变其内容。

5)结构。档案内容的外观和排版需要清晰,它们应被记录在正确5的表格或模板上。

非结构化数据有多种电子格式:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML文件、事务性消息、报告、图形、数字图像、缩微胶片、视频和音频。纸质文件中也存在大量非结构化数据。

数据管理的基本原则既适用于结构化数据也适用于非结构化数据。

活动

无附加值的信息应该从组织的资产中移除并处理掉,以避免浪费实体和电子空间以及与其维护相关的成本。超过法定时限保留档案也是存在风险的,在诉讼时仍能发现这些信息。

许多组织并没有优先删除无附加值的信息

1)制度不适用。

2)对某一个人来说是无附加值信息,但对另一个人来说却是有价值的信息。

3)无法预见当前的无附加值实体和/或电子档案未来可能的需求。

4)对档案的不认可。

5)无法决定删除哪些档案。

6)做决定与移除实体和电子档案的感知成本。

7)电子空间很便宜,购买更多的空间比归档和移除过程更容易。

可扩展标记语言(XML)提供了一种表示结构化和非结构化数据和信息的语言。XML使用元数据来描述任何文件或数据库的内容、结构和业务规则。XML需要将数据结构转换为用于数据交换的文件结构。

JSON(Java Script Object Notation )是一种开放的、轻量级的数据交换标准格式。它的文本格式独立于语言,易于解析,但仍是使用C语言。

资源描述框架(RDF)是用于描述各种网络资源信息的通用框架是用于在Web上进行数据交换的标准模型。

网络本体语言(W3C Web Ontology Language,OWL)是RDF的词汇表扩展。它是一种语义标记语言,用于在网络上发布和共享OWL文件(本体),适用于那些需要由应用程序而不是由人类来处理文件中的信息情形。RDF和OWL都是语义网标准,为在Web上共享和重用数据以及实现数据集成和互操作性提供了框架。

文件和内容管理的度量指标

档案管理

电子取证

企业内容管理

第十章 参考数据和主数据

业务驱动因素

主数据

1)满足组织数据需求。

2)管理数据质量。

3)管理数据集成的成本。

4)降低风险。

参考数据

1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。

2)提高参考数据的质量。

目标和原则

目标****

1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。

2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。

3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。

指导原则

1)共享数据 2)所有权 3)质量 4)管理职责 5)控制变更 6)权限

主数据和参考数据的相同点和不同点

相同

1)相似用途:两者都为交易数据的创建和使用提供重要的上下文信息。

2)两者都是应该在企业层面上被管理的共享资源。

不同

1)参考数据不易变化,它的数据集通常会比交易数据集或主数据集小、复杂程度低,拥有的行和列也更少。

2)参考数据管理不包括实体解析的挑战。

3)管理重点不同。

参考数据管理需要对定义的域值及其定义进行控制。参考数据管理的目标是确保组织能够访问每个概念的一整套准确且最新的值。

主数据管理需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。

参考数据管理面临一个挑战是由谁主导或负责参考数据的定义和维护。

参考数据是指可用于描述或分类其他数据。

主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息。实体是客观世界的对象(人、组织、地方或事物等)。主数据应该代表与关键业务实体有关的权威的、最准确的数据。在管理良好的情况下,主数据值是可信的,可以放心使用。

主数据管理的关键步骤

数据模型管理、数据采集、数据验证、标准化和数据丰富、实体解析、管理和共享

主数据中心环境的三种基本方法

1)注册表(指向多种记录系统中主数据记录的索引)

2)交易中心

3)混合模式(注册表和交易中心的混合体,记录系统管理应用程序本地的主数据)

主数据管理活动

识别驱动因素和需求

评估和评价数据源

定义架构方法

建模主数据

定义管理职责和维护过程

建立治理制度,推动主数据使用

工具和方法

主数据管理可以通过数据整合工具、数据修复工具、操作型数据储存(ODS)、数据共享中心(DSH)或专门的主数据管理应用来实现。

实施指南

遵循主数据架构、监测数据流动、管理参考数据变更、数据共享协议、组织和文化变革

度量指标***

1)数据质量和遵从性

2)数据变更活动

3)数据获取和消费

4)服务水平协议(SLA)

5)数据管理专员覆盖率

6)拥有总成本

7)数据共享量和使用情况

第十一章 数据仓库和商务智能

数据仓库(DataWarehouse,DW)的概念始于20世纪80年代。该技术赋能组织将不同来源的数据整合到公共的数据模型中去,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。同样重要的是,数据仓库还是减少企业建设大量决策支持系统(Decision Support System,DSS)的一种手段,大部分DSS系统使用的都是企业中同样的核心数据。企业数据仓库提供了一种减少数据几余提高信息一致性,让企业能够利用数据做出更优决策的方法。

业务驱动因素

数据仓库建设的主要驱动力是运营支持、合规需求和商务智能活动

目标和原则

目标

1)支持商务智能活动

2)赋能商业分析和高效决策

3)基于数据洞察寻找创新方法

指导原则

1)聚焦业务目标

2)以终为始

3)全局性的思考和设计,局部性的行动和建设

4)总结并持续优化,而不是一开始就这样做

5)提升透明度和自助服务

6)与数据仓库一起建立元数据

7)协同

8)不要千篇一律

基本概念

3.数据仓库建设

数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点,是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。数据仓库建设还包括与元数据资料库交互的流程。

传统意义上的数据仓库建设,主要关注结构化数据:定义字段中的元素,无论是在文件中还是在表中,都要与数据模型中记录的一致。随着技术的不断发展,商务智能和数据仓库空间现在也包含半结构化数据和非结构化数据。半结构化数据,定义为作为语义实体组织的电子元素,不需要属性关联,比XML出现得早,晚于HTML。EDI传送数据就是半结构化数据的一个例子。非结构化数据指的是无法通过数据模型预

4.数据仓库建设的*****

都受到两位有影响力的思想领袖Bill Inmon和Ralph Kimball的影响,他们各有不同的数据仓库建模和实施方法。Inmon把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据。而Kimball则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型

虽然Inmon和Kimball提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:

1)数据仓库存储的数据来自其他系统。

2)存储行为包括以提升数据价值的方式整合数据。

3)数据仓库便于数据被访问和分析使用。

4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。

5)数据仓库数据建设有很多目的,涵盖工作流支持运营管理预测分析

数据仓库和业务系统的区别

1)面向主题的 2)整合的 3)随时间变化的 4)稳定的

5)聚合数据和明细数据 6)历史的

数据仓库和数据集市的数据与应用程序中的数据不同****

1)数据的组织形式是按主题域而不是按功能需要。

2)数据是整合的数据,而不是“孤立”的烟囱数据。

3)数据是随时间变化的系列数据,而非仅当前时间的值。

4)数据在数据仓库中的延迟比在应用程序中高。

5)数据仓库中提供的历史数据比应用程序中提供的历史数据多。

多维数据仓库(Kimball)

多维模型通常称为星型模型由事实表(包含有业务流程的定量数据)和维度表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题)组成

数据仓库架构组件:源系统、数据集成、数据存储区域。

8.加载处理的方式

数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载。(持续不断的数据更新需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。

批量变更数据捕获的方式

准实时和实时数据加载方式

1)涓流式加载(源端累积) 2)消息传送(总线累积) 3)流式传送(目标端累积)

数据仓库/商务智能建设项目的构建轨迹**

1)数据 2)技术 3)商务智能工具

在线分析处理(OLAP)是一种为多维分析查询提供快速性能的方法。

在线交易处理(OLTP)查询的典型输出采用矩阵格式,维度构成矩阵的行和列,因子或度量是矩阵内的值。

常见操作有切片、切块、向下/向上钻取、向上卷积、透视。

三种经典的OLAP实现方法

1)关系型联机分析处理(ROLAP)。ROLAP通过在关系数据库(RDBMS)的二维表中使用多维技术来支持OLAP。星型架构是ROLAP环境中常用的数据库设计技术。

2)多维矩阵型联机分析处理(MOLAP)。MOLAP通过使用专门的多维数据库技术支持OLAP。

3)混合型联机分析处理(HOLAP)。它是ROLAP和MOLAP的结合。HOLAP实现允许部分数据以MOLAP形式存储,而另一部分数据存储在ROLAP中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

自助服务是商务智能产品的基本交付方式。它通常会将用户活动放在受管门户中,根据用户的权限提供各种功能,包括消息传递、警报、查看预定的生产报表、与分析报表交互、开发即席查询报表、仪表盘和计分卡功能。

数据仓库应该能实现以下几点

1)明确数据敏感性和安全性约束。

2)选择工具。

3)保障资源安全。

4)创建抽取过程以评估和接收源数据。

版本路线图用来表示最终实现状态。

数据仓库/商务智能治理的重要成功因素

1)业务接受度 2)客户/用户的满意度 3)服务水平协议

4)报表策略

数据仓库/商务智能度量指标****

1)使用指标

2)主题覆盖率

3)响应时间和性能指标

第十二章 元数据管理(重点)

元数据最常见的定义是“关于数据的数据”。

元数据对于数据管理和数据使用来说都是必不可少的,所有大型组织都会产生和使用大量的数据,整个组织中,不同的人拥有不用层面的数据知识,但没有人知道关于数据的一切。元数据管理提供了获取和管理组织数据的主要方法。如果没有元数据,组织可能无法管理其数据。

ISO/IEC 11179元数据注册标准号。

元数据的业务驱动因素(了解)

元数据良好的管理

1)通过提供上下文语境和执行数据质量检查提高数据的可信度。

2)通过扩展用途增加战略信息(如主数据)的价值。

3)通过识别冗余数据和流程提高运营效率。

4)防止使用过时或不正确的数据。

5)减少数据的研究时间。

6)改善数据使用者和T专业人员之间的沟通。

7)创建准确的影响分析,从而降低项目失败的风险。

8)通过缩短系统开发生命周期时间缩短产品上市时间。

9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响

10)满足监管合规。

元数据管理不善容易导致以下问题

1)冗余的数据和数据管理流程。

2)重复和冗余的字典、存储库和其他元数据存储。

3)不一致的数据元素定义和与数据滥用的相关风险,

4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。

5)怀疑元数据和数据的可靠性。

良好的元数据管理工作,可以确保对数据资源的一致理解和更加高效的跨组织开发使用。

目标和原则(重要)

目标

1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性。

2)收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异。

3)确保元数据的质量、一致性、及时性和安全。

4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据。

5)推广或强制使用技术元数据标准,以实现数据交换。

原则

1)组织承诺 2)战略 3)企业视角 4)潜移默化 5)访问 6)质量 (元数据通常是通过现有的流程生成的,流程所有者应对元数据的质量负责) 7)审计(制定、实施和审核元数据标准,以简化元数据的集成和使用) 8)改进(创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队)

基本概念

元数据也是一种数据,应该用数据管理方式进行管理。

元数据三种类型:业务元数据、技术元数据和操作元数据

业务元数据的示例

业务元数据主要关注数据的内容和条件,另包括与数据治理相关的详细信息。

1)数据集、表和字段的定义和描述。

2)业务规则、转换规则、计算公式和推导公式。

3)数据模型。

4)数据质量规则和检核结果。

5)数据的更新计划。

6)数据溯源和数据血缘。

7)数据标准。

8)特定的数据元素记录系统。

9)有效值约束。

10)利益相关方联系信息(如数据所有者、数据管理专员)

11)数据的安全/隐私级别。

12)已知的数据问题。

13)数据使用说明。

技术元数据示例

技术元数据提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。

1)物理数据表名和字段名。

2)字段属性。

3)数据库对象的属性。

4)访问权限。

5)数据CRUD(增、删、改、查)规则。

6)物理数据模型,包括数据表名、键和索引。

7)记录数据模型与实物资产之间的关系。

8)ETL作业详细信息。

9)文件格式模式定义。

10)源到目标映射文档

11)数据血缘文档,包括上游和下游变更影响的信息。

12)程序和应用的名称和描述。

13)周期作业(内容更新)的调度计划和依赖。

14)恢复和备份规则。

15)数据访问的权限、组、角色。

操作元数据示例

操作元数据描述了处理和访问数据的细节。

1)批处理程序的作业执行日志。

2)抽取历史和结果。

3)调度异常处理。

4)审计、平衡、控制度量的结果,

5)错误日志。

6)报表和查询的访问模式、频率和执行时间。

7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。

8)备份、保留、创建日期、灾备恢复预案。

9)服务水平协议(SLA)要求和规定。

10)容量和使用模式。

11)数据归档、保留规则和相关归档文件。

12)清洗标准。

13)数据共享规则和协议。

14)技术人员的角色、职责和联系信息。

非机构化数据的元数据包括

非结构化数据的元数据:从本质上看,所有数据都是有一定结构的,但并非都以行、列形式呈现。元数据对非结构化数据的管理可能更重要。

描述元数据,如目录信息和统一关键字

结构元数据,如标签、字段结构、特定格式

管理元数据,如来源、更新计划、访问权限和导航信息

书目元数据,如图书馆目录条目

记录元数据,如保留策略

保存元数据,如存储、归档条件和保存规则

元数据业务术语表满足三个核心用户功能的需求:业务用户、数据管理专员、技术用户。

数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。

在数据模型的开发过程中,会解释许多关键业务流程、关系和术语。数据字典可以帮助组织确保此信息不会完全丢失,以及在生产部署之后逻辑模型与物理模型保持一致。

元数据的架构类型:

(1)集中式元数据架构

优点:高可用性,独立于源系统;快速元数据检索;解决数据库结构问题,使其不受第三方或商业系统特有属性的影响;抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。

缺点:必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中;维护集中式存储库的成本可能很高;元数据的抽取可能需要自定义模块或中间件;验证和维护自定义代码会增加对内部IT人员和软件供应商的要求。

(2)分布式元数据架构

优点:元数据总是尽可能保持最新且有效的;查询数分布的,提高响应和处理的效率;来自专有系统的元数据请求仅限于查询处理,不需要详细了解专有数据结构;自动化元数据查询处理的开发可能更简单,只需要很少的人工干预;减少了批处理,没有元数据复制或同步的过程。

缺点:无法支持用户定义或手动插入的元数据;需要通过统一的、标准化的展示方式来呈现来自不同系统的元数据;查询功能受源系统可用性的影响;元数据的质量完全取决于源系统。

(3)混合式元数据架构(许多组织采用

(4)双向式元数据架构

元数据综合解决方案的功能需求点组成

更新频次、同步情况、历史信息、访问权限、存储结构

集成要求、运维要求、管理要求、质量要求、安全要求

创建一个元数据存储库的数据模型,也叫元模型。

元数据质量控制活动

1)质量保证,质量控制 2)数据更新频率-与时间表匹配

3)缺失元数据报告 4)未更新的元数据报告

管理元数据质量的方法

责任、标准、改进

管理元数据的主要工具是元数据存储库。

元数据管理工具和存储库本身也是一种元数据的数据源。

基于程序编码的当前版本的血缘称为“实现血缘”。映射规范文档中描述的血缘称为“设计态血缘”

数据血缘创建的局限性在于元数据管理系统的覆盖范围,超出管理范围时将无法提供相关信息。

元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”文件中获取实施细节加以补充。将数据血缘的各个部分连接起来的过程称为“拼接”,“拼接”结果是一个表示数据从原始位置(数据源或记录系统)转移到最终位置的全景视图。

要想成功发现数据血缘的关系,需要兼顾业务焦点和技术焦点。

业务焦点根据业务优先级寻找数据元的血缘关系。

技术焦点。从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。

缺失高质量元数据带来的影响

1)因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断。

2)暴露敏感数据,使客户或员工面临风险,影响商信誉和导致法律纠纷。

3)如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。

元数据管理度量指标

1)元数据存储库完整性

2)元数据管理成熟度

3)专职人员配备

4)元数据使用情况

5)业务术语活动

6)主数据服务数据遵从性

7)元数据文档质量

8)元数据存储库可用性

第十三章 数据质量(重点)

与数据治理和整体数据管理一样,数据质量管理不是一个项目,是一个持续性工作。数据质量改进取得长期成功取决于组织文化的改变及质量观念的建立。

《领导者宣言》:持续性的根本变革需要组织内各级人员的坚定领导和参与。

数据质量管理中的最佳实践是就地解决问题

业务驱动因素

建立正式数据质量管理的业务驱动因素包括:

1)提高组织数据价值和数据利用的机会。

2)降低低质量数据导致的风险和成本。

3)提高组织效率和生产力。

4)保护和提高组织的声誉。

目标和原则
目标

1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。

2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。

3)定义和实施测量、监控和报告数据质量水平的过程。

原则

1)重要性。数据质量管理应关注对企业及其客户最重要的数据。

2)全生命周期。

3)预防。数据质量方案的重点应放在预防数据错误和降低可用性等情况上,不应放在简单的纠正记录上。

4)根因修正。不只是纠正错误,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。

5)治理 6)标准驱动 7)客观测量和透明度 8)嵌入业务流程 9)系统强制执行 10)与服务水平关联

数据质量如达到数据消费者的期望和需求或如果数据满足消费者应用需求的目的,就是高质量,反之就是低质量。因此数据质量取决于使用数据的场景和数据消费者的需求。

数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上。

评估关键数据

1)监管报告 2)财务报告 3)商业政策 4)持续经营 5)商业战略

数据质量维度是数据的某个可测量的特性。

Strong-Wang(1996)侧重于数据消费者对数据的看法,描述了数据质量的4个大类及15个指标。

Thoman Redman《信息时代的数据质量》制定一套基于数据结构的数据质量维度。(数据模型、数据值、数据表达)

Larry English《改善数据仓库和业务信息质量》提出一套综合指标,分为固有特征和实用特征。

数据质量的改进方法戴明环PDCA。

启动一个新的周期来持续改进

1)现有测量值低于阈值

2)新数据集正在调查中

3)对现有数据集提出新的数据质量要求

4)业务规则、标准或期望变更

数据质量问题的常见原因

1)缺乏领导力导致的问题(首要原因)

2)数据输入过程引起的问题

3)数据处理功能引起的问题

4)系统设计功能引起的问题

5)解决问题引起的问题

定义数据质量战略的框架方法

1)了解并优先考虑业务需求

2)确定满足业务需求的关键数据

3)根据业务需求定义业务规则和数据质量标准

4)根据预期评估数据

5)分享调查结果,并从利益相关方那里获取反馈

6)优先处理和管理问题

7)确定并优先考虑改进机会

8)测量、监控和报告数据质量

9)管理通过数据质量流程生成元数据

10)将数据质量控制集成到业务和技术流程中

数据质量管理工具

数据剖析工具、数据查询工具、建模和ETL工具、数据质量规划模板、元数据存储库

数据质量管理方法
预防措施

1)建立数据输入控制

2)培训数据生产者

3)定义和执行规则

4)要求数据供应商提高质量数据

5)实施数据治理和管理制度

6)制定正式的变更控制

定义数据质量分析人员考虑特征

1)可度量性。数据质量指标必须是可度量的-它必须是可被量化的东西。

2)业务相关性。

3)可接受性。

4)问责/管理制度。

5)可控制性。

6)趋势分析。

常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等(McGilvaray,2008)。

数据质量度量指标

1)投资回报

2)质量水平

3)数据质量趋势

4)数据质量管理指标

5)服务水平的一致性

6)数据质量计划示意图。现状和扩展路线图。

第十四章 大数据和数据科学

那些从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果进行部署供相关方分析的人,被称为数据科学家

传统的商务智能(BI)提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势。

要想利用大数据,就必须改变数据的管理方式。大多数数据仓库都基于关系模型,而大数据一般不采用关系模型组织数据。大多数数据仓库依赖ETL(提取、转换和加载)的概念,大数据解决方案如数据湖,则依赖于ELT的概念--先加载后转换。

业务驱动因素

期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。

原则

组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。

开发数据科学的解决方案

1)丰富的数据源

2)信息组织和分析

3)信息交付

4)展示发现和数据洞察。

大数据早期3V特征:数据量大(Volume)(100TB)、数据更新快(Velocity)、数据类型多样/可变(Variety)。 扩展:数据黏度大(Viscosity)、数据波动性大(Volatility)、数据准确性低(Veracity)。

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。

1)数据科学家可以挖掘和分析数据的环境。

2)原始数据的集中存储区域,只需很少量的转换。

3)数据仓库明细历史数据的备用存储区域。

4)信息记录的在线归档。

5)可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快变成数据沼泽-杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

基于服务的架构

基于服务的体系结构(Services-Based Architecutre,SBA)包括三个组件批处理层、加速层和服务层。

1)批处理层。数据湖作为批处理层提供服务,包括近期的和历史的数据。

2)加速层。只包括实时数据。

3)服务层。提供连接批处理和加速层数据的接口。

机器学习

机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合。无监督学习称为数据挖掘,监督学习是基于复杂的数字理论。第三分支正处于形成过程,没有经过教师的认可就 可实现了目标优化,称为强化学习。通过编程使机器可以快速从查询中学习并适应不断变化的数 据集,是机器学习。这些算法一般分为三种类型:

1) 监督学习:基于通用规则(例如,将垃圾邮件和非垃圾邮件分开),用于分类、 图

像处理 。

2) 无监督学习:基于识别隐藏模式(即数据挖掘),用于聚类、异常检测 。

3) 强化学习:基于目标的实现(例如在下棋时击败对手),用于机器人自动控制,游戏

中的人工智能。

预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。

规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。

数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示见解或分析结果。

选择数据源

1)数据源头 2)数据格式 3)数据元素代表什么 4)如何连接其他数据 5)数据的更新频率

MPP无共享技术和架构

大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。

R语言是用于统计计算和图形的开源脚本语言和环境。

度量指标

技术使用指标、加载和扫描指标、学习和故事场景

第十五章 数据管理成熟度评估

1) 能力成熟度评估(CMA)是一种基于能力成熟度模型(CMM)框架的能力提升方案,

它描述了数据管理能力从初始状态发展到最终优化状态的过程。

2) 成熟度模型通过描述各阶段能力特点来定义成熟度的级别。当一个组织满足某阶段

能力特征时,就可以评估其成熟度等级,并制定一个提高能力的计划。

业务驱动因素

(1)监管 (2)数据治理 (3)过程改进的组织就绪 (4)组织变更 (5)新技术

(6)数据管理的问题

目标和原则

目标

数据管理能力评估的主要目标是评估关键数据管理活动的当前状态,以便计划改进

评价等级及特点

1)CMM 通常定义五个或六个成熟度级别,每个级别都有其自身的特征,范围从无能力

级别或临时级别到优化级或最高别。

级别 0:无能力级。

级别 1:初级或临时。成功取决于个人的能力。 使用有限的工具集进行通用数据管理,很少或更根本没有治理活动。数据处理高度依赖少数专家,角色和职责在各部门中分开定义。数据质量问题普遍存在,但无法得到解决,基础设施支持处于业务单元级别。

级别 2:可重复级。已制定了最低限度的流程规范。 有一致的工具和角色定义来支持流程执行。组织开始使用集中化工具,并为数据管理提供更多的监控手段。角色的定义和流程并不完全依赖于特定专家。组织对数据质量问题和概念有认识。

级别 3:已定义级。已设置并使用标准。 新兴数据管理能力。引入可扩展的数据管理流程将其制度化,并将数据管理视为一种组织促成因素。其特点包括在组织中数据复制受到控制,总体数据质量普遍提高,有协调一致的政策定义和管理。

级别 4:已管理级。能力可以得到量化可控制。 能够在即将开展新项目和任务时预测结果,并开始管理与数据相关的风险,数据管理包括一些绩效指标。4级的特点包括从桌面到基础设施的数据管理工具标准化,以及结构良好的集中规划和治理功能。此级别的机构在数据质量和全组织数据管理能力等方面有显著性提高。

级别 5:已优化级:能力提升的目标是可量化的。高度可预测的,更关注于持续改进。工具支持跨流程查看数据。控制数据的扩散防止不必要的复制,使用容易理解的指标来管理和度量数据质量和过程。

评估标准

1)CMM的每个能力级别将具有与被评估过程相关的评估标准。

2)在任何级别上,评估标准都将按照一个尺度进行评估 。

3)当使用可以映射到DAMA-DMBOK数据管理知识领域的模型进行评估时,可以根据语境关系图中的类别制定标准。

现有DAMA框架

CMMI数据管理成熟度模型(DMM)

EDM委员会DCAM

IBM数据治理委员会成熟度模型

1)结果 2)使能因素 3)核心内容 4)支持内容

斯坦福数据治理成熟度模型

Gartner的企业信息管理成熟度模型

中国的数据管理能力成熟度评价模型 DCMM

活动

规划评估活动、执行成熟度评估、解释结果及建议、制定有针对性的改进计划、重新评估成熟度

交付成果

等级和排名、成熟度基线、准备评估、风险评估、人员配置能力、投资和成果选择、建议、路线图、执行简报

工具

数据管理成熟度框架、 沟通计划、协作工具、知识管理和元数据存储库

方法

1) 易用性 2) 全面性 3) 可扩展且灵活 4) 内置的未来进度路径

5) 与行业无关的与特定于行业的 6) 抽象或详细程度 7) 非规范性的

8) 按主题组织 9) 可重复性 10) 由中立的独立组织支持

11) 技术中立 12) 培训支持

DAMA过程监督

对DMMA过程的监督工作属于数据治理团队。如果正式的数据治理不到位,那么监督工作将默认为属于DMMA的指导委员会或管理层。流程应该有一个执行发起人(最好是首席数据官,CDO),以确保数据管理活动的改进直接映射到业务目标中。

度量指标****

DAMA评级、资源利用率、风险敞口、支出管理、DAMA的输入、变革速度

第十六章 数据管理组织与角色期望

在定义任何新组织或尝试改进有组织之前。了解当前组织的企业文化、运营模式和人员都非常重要。

数据管理组织的结构

分散运营模式:数据管理职能分布在不同的业务部门和IT部门。

优点:组织结构扁平,数据管理组织与业务线或IT部门具有一致性。

缺点:让过多的人员参与治理和制定决策,实施协作决策通常比集中发布号令更加困难。分散模式一般不太正式,可能难以长期维持。

网络运营模式:通过RACI(谁负责,Responsible;谁批准,Accountable;咨询谁,Consultef;谁通知,Informed)责任矩阵,利用一系列的文件记录联系和责任制度,使分散的非正规性组织变得更加正式,称为网络模式。

集中运营模式:最正式且成熟的数据管理运营模式。所有工作都由数据管理组织掌控。

优点:为数据管理或数据治理建立了正式的管理职位,且用用一个最终决策的人。因为职责是明确的,所以决策更容易。

缺点:实施集中模式通常需要重大的组织变革。将数据管理的角色从核心业务流程正式分离,存在业务知识逐渐丢失的风险。

混合运营模式:混合运营模式包含分散模式和集中模式的优点。在混合模式中,一个集中的数据管理卓越中心与分散的业务部门团队合作。

优点:可以从组织的顶层制定适当的指导方向,并且

基于文件的解决方案中使用的模型称为 MapReduce

该模型有三个主要步骤:

1)映射(Map)。识别和获取需要分析的数据。

2)洗牌(Shuffle)。依据所需的分析模式组合数据。

3)归并(Reduce)。 删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。

内容分发方法:

1)推式,如 RSS。

2)拉式,如访问淘宝。

3)交互式,如企业应用程序集成 EAI、更改数据采集、数据集成和 EII。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/66007.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AWS K8s 部署架构

Amazon Web Services(AWS)提供了一种简化的Kubernetes(K8s)部署架构,使得在云环境中管理和扩展容器化应用变得更加容易。这个架构的核心是AWS EKS(Elastic Kubernetes Service),它是…

计算机网络 (16)数字链路层的几个共同问题

一、封装成帧 封装成帧是数据链路层的一个基本问题。数据链路层把网络层交下来的数据构成帧发送到链路上,以及把接收到的帧中的数据取出并上交给网络层。封装成帧就是在一段数据的前后分别添加首部和尾部,构成了一个帧。接收端在收到物理层上交的比特流后…

网页单机版五子棋小游戏项目练习-初学前端可用于练习~

今天给大家分享一个 前端练习的项目,技术使用的是 html css 和javascrpit 。希望能对于 刚刚学习前端的小伙伴一些帮助。 先看一下 实现的效果图 1. HTML(HyperText Markup Language) HTML 是构建网页的基础语言,它的主要作用是定…

同三维T80004ES H.265高清SDI编码器

1路SDI 1路3.5音频输入,1路SDI环出 产品简介: 同三维T80004ES高标清SDI音视频编码器支持1路高清或1路标清SDI音视频,1路3.5MM独立音频接口采集功能。编码输出双码流H.265/H.264格式,音频 MP3/AAC格式。编码码率可调,画面质量可控制…

教程:从pycharm基于anaconda构建机器学习环境并运行第一个 Python 文件

1. 安装 PyCharm 访问 PyCharm 官方网站:https://www.jetbrains.com/pycharm/。下载社区版(免费)或专业版(收费,提供更多功能)。按照操作系统的安装指导安装 PyCharm。安装后打开 PyCharm,并根…

音频进阶学习九——离散时间傅里叶变换DTFT

文章目录 前言一、DTFT的解释1.DTFT公式2.DTFT右边释义1) 复指数 e − j ω n e^{-j\omega n} e−jωn2)序列与复指数相乘 x [ n ] ∗ e − j ω n x[n]*e^{-j\omega n} x[n]∗e−jωn复指数序列复数的共轭正交正交集 3)复指数序列求和 3.DTF…

#渗透测试#红蓝攻防#红队打点web服务突破口总结01

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

25年1月更新。Windows 上搭建 Python 开发环境:PyCharm 安装全攻略(文中有安装包不用官网下载)

python环境没有安装的可以点击这里先安装好python环境,python环境安装教程 安装 PyCharm IDE 获取 PyCharm PyCharm 提供两种主要版本——社区版(免费)和专业版(付费)。对于初学者和个人开发者而言,社区…

JavaScript中Map与Object的区别

在JavaScript中,Map和Object是用于存储键值对数据的两种不同的数据结构(Map是ES6新增的数据结构),它们在构造方式、键的类型以及原型继承等方面存在区别。 一、主要区别 1.构造方式 Map:Map只能通过构造函数new Map…

双目视觉:reprojectImageTo3D函数

前言 reprojectImageTo3D 是 OpenCV 中用于从视差图生成三维点云的函数。它的原理是利用视差图和相机的校准参数,通过三角测量法,计算每个像素对应的三维坐标。以下内容根据源码分析所写,觉得可以的话,点赞收藏哈!&am…

Spring Boot(快速上手)

Spring Boot 零、环境配置 1. 创建项目 2. 热部署 添加依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</artifactId><optional>true</optional> </dependency&…

TTL 传输中过期问题定位

问题&#xff1a; 工作环境中有一个acap的环境&#xff0c;ac的wan口ip是192.168.186.195/24&#xff0c;ac上lan上有vlan205&#xff0c;其ip子接口地址192.168.205.1/24&#xff0c;ac采用非nat模式&#xff0c;而是路由模式&#xff0c;在上级路由器上有192.168.205.0/24指向…

MySQL中distinct和group by去重的区别

MySQL中distinct和group by去重的区别 在MySQL中&#xff0c;我们经常需要对查询结果进行去重&#xff0c;而DISTINCT和GROUP BY是实现这一功能的两种常见方法。虽然它们在很多情况下可以互换使用&#xff0c;但它们之间还是存在一些差异的。接下来&#xff0c;我们将通过创建测…

AI 驱动研发模式升级,蓝凌软件探索效率提升之道

深圳市蓝凌软件股份有限公司&#xff08;以下简称蓝凌软件&#xff09;&#xff0c;自2001年成立以来&#xff0c;一直走在数智化办公领域的前沿。作为国家认定的高新技术企业、知识管理国家标准的参编者以及信创供应商10强之一&#xff0c;蓝凌软件始终以“让组织更智慧”为使…

GPU 进阶笔记(四):NVIDIA GH200 芯片、服务器及集群组网

大家读完觉得有意义记得关注和点赞&#xff01;&#xff01;&#xff01; 1 传统原厂 GPU 服务器&#xff1a;Intel/AMD x86 CPU NVIDIA GPU2 新一代原厂 GPU 服务器&#xff1a;NVIDIA CPU NVIDIA GPU 2.1 CPU 芯片&#xff1a;Grace (ARM)2.2 GPU 芯片&#xff1a;Hopper/B…

SpringMVC(二)原理

目录 一、配置Maven&#xff08;为了提升速度&#xff09; 二、流程&&原理 SpringMVC中心控制器 完整流程&#xff1a; 一、配置Maven&#xff08;为了提升速度&#xff09; 在SpringMVC&#xff08;一&#xff09;配置-CSDN博客的配置中&#xff0c;导入Maven会非…

springboot集成qq邮箱服务

springboot集成qq邮箱服务 1.获取QQ邮箱授权码 1.1 登录QQ邮箱 1.2 开启SMTP服务 找到下图中的SMTP服务区域&#xff0c;如果当前账号未开启的话自己手动开启。 1.3 获取授权码 进入上图中的【管理服务】后&#xff1a;在【安全设置中生成授权码】,也可以直接点击【继续生成…

Word2Vec解读

Word2Vec: 一种词向量的训练方法 简单地讲&#xff0c;Word2Vec是建模了一个单词预测的任务&#xff0c;通过这个任务来学习词向量。假设有这样一句话Pineapples are spiked and yellow&#xff0c;现在假设spiked这个单词被删掉了&#xff0c;现在要预测这个位置原本的单词是…

VBA批量插入图片到PPT,一页一图

Sub InsertPicturesIntoSlides()Dim pptApp As ObjectDim pptPres As ObjectDim pptSlide As ObjectDim strFolderPath As StringDim strFileName As StringDim i As Integer 设置图片文件夹路径strFolderPath "C:\您的图片文件夹路径\" 请替换为您的图片文件夹路径…

国内Ubuntu环境Docker部署Stable Diffusion入坑记录

国内Ubuntu环境Docker部署Stable Diffusion入坑记录 本文旨在记录使用dockerpython进行部署 stable-diffusion-webui 项目时遇到的一些问题&#xff0c;以及解决方案&#xff0c;原项目地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui 问题一览&#xff1a; …