引言:
在当今快速发展的数字化世界中,数据已成为组织最宝贵的资产之一。有效的数据管理不仅能够驱动业务决策,还能提升竞争力和市场适应性。DAMA国际一直致力于数据管理和数字化的研究、实践及相关知识体系的建设。秉承公益、志愿、共享、开放和服务的原则,作为一个非营利性、专注数据管理和数字化的专业组织,旨在交流国际、国内在数据领域中的最新进展,共享业界的实践、经验和成果,促进我国数字化水平的不断提高和创新,并为建设我国自有的数据管理和数字化体系而努力。
2024年 6月 23日 考试 重点整理。。。。。。。。。。。。。。。
【DAMA】GDPA 考试总结
- 第1章 数据管理(4分)
- 第2章 数据处理伦理(2分)
- 第3章 数据治理(8分)
- 第4章 数据架构(6分)
- 第5章 数据建模和设计(10分)
- 第6章 数据存储和操作(2分)
- 第7章 数据安全(10分)
- 第8章 数据集成和互操作(2分)
- 第9章 文件和内容管理(2分)
- 第10章 参考数据和主数据(10分)
- 第11章 数据仓库和商务智能(10分)
- 第12章 元数据管理(10分)
- 第13章 数据质量(10分)
- 第14章 大数据和数据科学(6分)
- 第15章 数据管理成熟度评估(4分)
- 第16章 数据管理组织与角色期望(2分)
- 第17章 数据管理与组织变革管理(2分)
章序 | 章节 | 分数 | 题目数量 |
---|---|---|---|
第一章 | 数据管理知识体系概述 | 4 | 4 |
第二章 | 数据伦理 | 2 | 2 |
第三章 | 数据治理 | 8 | 8 |
第四章 | 数据架构 | 6 | 6 |
第五章 | 数据建模与设计 | 10 | 10 |
第六章 | 数据存储与操作 | 2 | 2 |
第七章 | 数据安全 | 10 | 10 |
第八章 | 数据集成和互操作 | 2 | 2 |
第九章 | 文件和内容管理 | 2 | 2 |
第十章 | 主数据与参考数据 | 10 | 10 |
第十一章 | 数据仓库与商业智能 | 10 | 10 |
第十二章 | 元数据管理 | 10 | 10 |
第十三章 | 数据质量 | 10 | 10 |
第十四章 | 大数据和数据科学 | 6 | 6 |
第十五章 | 数据管理成熟度评估 | 4 | 4 |
第十六章 | 数据管理组织与职责 | 2 | 2 |
第十七章 | 数据管理与组织变革 | 2 | 2 |
该表格列出了考试的各个章节、对应的分数以及题目数量,考生可以根据表格中的信息对考试内容进行重点复习。
第1章 数据管理(4分)
【重点1】数据管理定义与目标
- 数据管理 最直接的目标: 数据质量
- 数据管理 最终目标: 数据价值
- 数据管理的核心驱动力是: 使组织能够从其数据资产中 获取价值
【重点2】
这些术语可以互换使用 1.2.2 数据和信息
【重点3】数据管理原则总有12项
- 数据是有独特属性的资产
- 数据的价值可以用经济术语来表示
- 管理数据意味着对数据的质量管理
管理数据需要元数据
- 数据管理需要规划
- 数据管理须驱动信息技术决策
- 数据管理是跨职能的工作
数据管理需要企业级视角
- 数据管理需要多角度思考
- 数据管理需要全生命周期的管理
数据管理需要纳入与数据相关的风险
有效的数据管理需要领导层承担责任
【重点4】数据管理战略规划的可交付成果
数据管理章程
。
包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
数据管理范围声明
。
包括规划目的和目标(通常为3 年)。以及负责实现这些目标的角色、组织和领导。
数据管理实施路线图
。
确定特定计划、项目、任务分配和交付里程碑。
【重点5】战略一致性模型和阿姆斯特丹信息模型,都是强调
业务和IT的一致性
【重点6】语境关系图中的“活动”是指
- A。
计划(P)、控制(C)、开发(D) 和运营(O)
第2章 数据处理伦理(2分)
【重点1】 数据伦理准则
尊重他人
行善原则
公正
尊重法律和公众利益
【重点2】GDPR准则
描述 | 详细说明 | |
---|---|---|
1 | 公平、合法、透明 | 数据主体中的个人数据应以合法、公平、透明的方式进行处理。 |
2 | 目的限制 | 必须按照指定、明确、合法的目标去采集个人数据,不得用于采集目标之外的方面。 |
3 | 数据最小化 | 采集的个人数据必须足够相关,仅限于与处理目的相关的必要信息。 |
4 | 准确性 | 个人数据必须准确,有必要保持最新的数据,及时删除或更正不准确的个人数据。 |
5 | 存储限制 | 数据必须以可以识别的数据主体(个人)的形式保存,保存时间不得超过处理个人数据所需的时间。 |
6 | 诚信和保密 | 必须确保个人数据得到安全妥善的处理,使用适当技术和组织方法防止数据被擅自或非法处理、防止意外丢失、破坏或摧毁等。 |
7 | 问责制度 | 控制数据的人员应负责并能够证明符合上述这些原则。 |
【重点3】 偏见有几种类型
1 . 预设结论的数据采集
分析师迫于压力采集数据并产生结果。来支持一个预先定义的结论。而不是为了得出一个客观的结论。
3 . 预感和搜索
分析师有一种预感。且想要满足这种预感。故只使用能证实这种直觉的数据。并且不想考虑从数据中能得出的其他可能性(如果某些数据不能证实该方法。它可能会被丢弃)。
4 . 片面抽样方法
抽样往往是数据采集的一个常用方法。 但是。选择样本集的方法可受到偏见的影响。 对于人类来说。没有某种偏见。几乎是不可能的。 为了限制偏见。可使用统计工具选择样本并建立适当大小的样本。 意识到用于训练目的样本数据可能存在偏见尤其重要。
5 . 背景和文化
偏见通常是基于文化或背景。因此。要中立地看待事物。就必须走出这种文化或背景。
第3章 数据治理(8分)
【重点1】
数据治理最常见的驱动因素是 法规遵从性
【重点2】数据治理不是一次性的行为。
【重点3】
数据治理要与IT治理区分开
。
【重点4】数据治理程序
可持续发展
(Sustainable)
治理程序必须富有吸引力。它不是以一个项目作为终点,而是一个持续的过程,需要作为整个组织的责任。数据治理必须改变数据的应用和管理方式,但也不代表着组织要做巨大的更新和颠覆。数据治理是超越一次性数据治理组件实施的可持续发展的路径管理变革。可持续的数据治理依靠于业务领导、发起者和所有者的支持。
嵌入化
(Embedded)
数据治理不是一个附加管理流程。数据治理活动需要融合到软件开发方法、数据分析的应用,主数据管理和风险管理中。
可度量
(Measured):
数据治理做得好有积极的财务影响,但要证明这一影响,就需要了解起点并计划可度量的改进方案。
【重点5】定义数据治理运营模型 Define the DG Operating Framework
开发数据治理的基本定义很容易,但是创建一个组织采用的运营模型可能很困难。在构建组织的运营模型时需要考虑如下这些方面:
数据对组织的价值
(Value of data to the organization):
如果一个组织出售数据,显然数据治理具有巨大的业务影响力。将数据作为最有价值事物的组织(如Facebook、亚马逊)将需要一个反映数据角色的运营模式。对于数据是操作润滑剂的组织,数据治理形式就不那么严肃了;
业务模式
(Business model:):
分散式与集中式、本地化与国际化等是影响业务发生方式,以及如何定义数据治理运营模式的因素。与特定IT策略、数据架构和应用程序集成功能的链接,应反映在目标运营框架设计中(如图16所示)。
文化因素
(Cultural factors)
就像个人接受行为准则、适应变化的过程一样,一些组织也会抵制政策和原则的实施。治理战略需要提倡一种与组织文化相适应的运营模式,同时持续地进行变革;
监管影响
(Impact of regulation):
与受监管程度较低的组织相比,受监管程度较高的组织具有不同的数据治理心态和运营模式。可能还与风险管理或法律团队有联系。。
【重点6】数据治理可以有三种模式:
在集中式管理模式中
。
数据治理组织监督所有业务领域中的活动。
在分布式管理模式中
每个业务单元中采用相同的数据治理运营模型和标准。
在联邦式管理模式中。
数据治理组织与多个业务单元协同。以维护一致的定义和标准。
【重点7】数据管理职责 Data Stewardship,不是数据的owner,
数据管理职责 Data Stewardship,不是数据的owner,
【重点8】 数据治理战略的交付物
章程
(Charter):
确定数据管理的业务驱动愿景、使命和原则,包括成熟度评估、内部流程分析及当前问题和成功标准;
运营框架和职责
(Operating framework and accountabilities):
定义数据治理活动的结构和责任;
实施路线图
(Implementation roadmap):
制定时间计划,其涉及到最终发布的政策、指令、业务术语、架构、资产价值评估、标准和程序,以及所期望业务和技术流程发生的改变、支持审计活动和法规遵从的交付成果。
为成功运营制定计划
(Plan for operational success):
为数据治理活动描述一个可持续发展的目标状态
【重点9】数据管理职责(Data Stewardship)
创建和管理核心元数据
(Creating and managing core Metadata):
业务术语、有效数据值及其他关键元数据的定义和管理。通常管理专员负责整理的业务术语表,成为与数据相关的业务术语记录系统。
记录规则和标准
(Documenting rules and standards):
业务规则、数据标准及数据质量规则的定义和记录。通常基于创建和使用数据的业务流程规范,来满足对高质量数据的期望。为确保在组织内部达成共识,由管理专员帮助制定规则并确保其得到连贯的应用。
管理数据质量问题
(Managing data quality issues):
管理专员通常参与识别、解决与数据相关的问题,或者促进解决的过程中。
执行数据治理运营活动
(Executing operational data governance activities):
管理专员有责任确保数据治理政策和计划在日常工作或每一个项目中被遵循执行。对决策发挥影响力,确保以支持组织总体目标的方式管理数据。
【重点9】数据管理目标
-
提升企业管理数据资产能力
-
定义、批准、沟通和 实施数据管理原则 、政策、程序、指标、工具和责任
-
监控和指导政策合规性,数据使用和管理活动
第4章 数据架构(6分)
【重点】 数据架构定义与目标
数据架构的目标是在业务战略和技术实现之间建立起一座通畅的桥梁。
数据架构是企业架构中的一部分
【重点】 数据模型(概念模型、逻辑模型、物理模型)
1. 概念模型 -- 数据架构师,偏向业务2. 逻`辑模型 -- 数据架构师,偏向业务3. 物理模型 --- 是数据建模的输出物,DBA (技术)
【重点】
OLAP是为分析和决策用的
【重点】企业架构包括
业务架构
、数据架构
、应用架构
和技术架构
。
【重点】基于业务架构的基础上(数据架构方式通常以哪几种方式进行):
1) 面向质量
。
2) 面向创新
。
【重点】建立企业数据架构通常包括以下工作。这些工作可以串行或并行执行。
- 战略。
选择框架。制定方法。开发路线图。
2. 沟通与文化。
建立沟通机制。并激励积极参与者。
3. 组织:
通过明确责任和职责来组织数据框架工作。
4. 工作方法。
与企业架构保持一致。在开发项目中定义最佳实践并执行数据架构工作。
5. 结果。
在总体路线图中产出数据架构产品。
【重点】企业数据架构项目相关的活动包括:
定义范围
:
保证范围和接口与企业数据模型一致。理解项目对整体企业数据架构的潜在贡献,项目的建模和设计,哪些现有组件应该或能够被重用。在需要设计的部分,项目应该确定项目范围外的利益相关者的依赖性,如下游流程。项目确定共享或重要的数据构件,应该整合到企业逻辑数据模型和指定的存储库中。
理解业务需求
:
获取数据相关的需求,如实体、资源、可用性、质量和痛点,以及评估满足这些需求的业务价值。
设计
:
形成详细的目标规范,包括数据生命周期内的业务规则,验证结果的有效性,需要提供的时间,提升模型的扩展性,改进标准模型等。企业逻辑数据模型和企业架构知识库,为项目数据架构师提供查询,企业内可重用数据结构共享提供很好的支撑。同时,审核和使用数据技术标准。
实施
【重点】实施企业数据架构主要包含的工作内容为:
1) 建立企业数据架构团队和举办问题讨论会。
2) 生成数据架构构件的初始版本。 例如。企业数据模型、企业范围数据流和路线图。
3) 在开发项目中。形成和建立数据架构工作方式。
4) 提高组织对数据架构工作价值的认识。
【重点】企业架构包括多种不同类型,如包括
业务架构
、数据架构
、应用架构
和技术架构
等。
第5章 数据建模和设计(10分)
【重点】如何识别模型:
概念模型 ---没有属性的逻辑模型 --- 有属性的- 更多的是用业务术语描述: First Name逻辑模型--- 有 Entity (实体),属性
【重点】高质量的数据定义具备以下3 个基本特征:
①清晰(Clarity)
②准确(Accuracy)
③完整(Completeness)
【重点】维度建模,两种类型的表:
1) 事实表。
2) 维度表
。
可以有两种设计:
star schema (星型设计) - 没有延展
snowflake (雪花设计) - 维度表是有层级的
【重点】渐变类的维度根据变化的速率和类型来管理变化。
3 种主要的变化类型有时被称为ORC。具体如下:
①第一类。覆盖(
Overwrite )。 新值覆盖旧值。
②第二类。新行
(New Row)。 新值写在新行中。旧行被标记为非当前值。
③第三类。新列
(New Column)。 一个值的多个实例列在同一行的不同列中。而一个新值意味着将系列中的值向下一点写入。以便在前面为新值留出空间。 最后一个值被丢弃。
【重点】物理数据模型受实现技术约束:
-
概念和逻辑 --- 不需要考虑技术选型和实现的 -- 架构师,更加偏向业务
-
物理 --- 是需要考虑技术选型和实现的 --- DBA,更加偏向技术
【重点】逆规范化 提高性能。如:
①提前组合来自多个其他表的数据。以避免代价高昂的运行时连接。
②创建更小的、预先过滤的数据副本。以减少昂贵的运行时计算和/ 或大型表的扫描。
③预先计算和存储昂贵的数据计算结果。以避免运行时系统资源竞争。
【重点】逆规范化: 不可能在OLTP里;只能在OLAP里
【重点】维度设计: OLAP用的。
【重点】在设计和构建数据库时。DBA 应牢记以下PRISM 设计原则:
1) 性能和易用性(Performance and Ease of Use)
2) 可重用性(Reusability)
3) 完整性(Integrity)
4) 安全性(Security)
5) 可维护性(Maintainability)
【重点】模型记分卡
序号 | 类别 | 总分数 | 模型分数 | % | 注释 |
---|---|---|---|---|---|
1 | 模型多大程度上反映了业务需求 | 5 | 2 | ||
2 | 模型的完整性如何 | 5 | |||
3 | 模型与模式的匹配度是多少 | 4 | |||
4 | 模型的结构如何 | 5 | 5 | ||
5 | 模型的通用性 如何 | 6 | |||
6 | 模型遵循命名标准 的情况如何 | 5 | |||
7 | 模型的可读性 如何 | 5 | |||
8 | 模型的定义如何 | 9 | |||
9 | 模型与企业数据架构的一致性如何 | 5 | 与元数据的匹配程度如何 | ||
总分 | 100 |
【重点】其中最为常见的6 种模式分别是:
关系模式
、
多维模式
、
面向对象模式
、
事实模式
、
时间序列模式
和NoSQL模式
。
【重点】
第6章 数据存储和操作(2分)
【重点】数据库管理员(DBA) 在数据存储和操作上述两个方面中都扮演着重要的角色。 DBA 这个角色是数据专业中最常见。
也是最被广泛接纳的角色
。
【重点】CAP 定理(也称为“布鲁尔定理”) 是集中式系统在朝着分布式的系统方向发展过程中提出的理论。 CAP 定理指的是分布式系统不可能同时满足ACID 的所有要求。 系统规模越大。满足的要求点越少。 分布式系统必须在各种属性(要求) 间进行权衡。
1) 一致性(Consistency)
2) 可用性(Availability)
3) 分区容错(Partition Tolerance)
CAP 定理指出。在任何共享数据的系统里。这3 项要求最多只可能同时满足其中两项。 通常用“三选二” 来说明。
1) 生产环境
2) 非生产环境
开发环境、测试环境、支持环境和特别用途环境
【重点】业务连续性: OLTP
【重点】管理数据库性能: OLAP
【重点】 度量指标:
数据存储
/性能
/操作
/服务
四个度量指标。P127
【重点】 数据库环境:生产环境。非生产环境(开发环境。测试环境。数据沙盒或实验环境。)P137
第7章 数据安全(10分)
【重点】数据安全的业务驱动因素:
1 降低风险
2 业务增长
3 安全性作为资产
【重点】数据安全活动目标
-
支持适当访问并防止对企业数据资产的不当访问
-
支持对隐私、保护和保密政策法规的遵从
-
确保满足利益相关者对隐私和保密的要求
【重点】静态数据脱敏(Persistent Data Masking) 永久且不可逆转地更改数据。 这种类型的脱敏通常不会在生产环境中使用。而是在生产环境和开发(或测试) 环境之间运用。
【重点】动态数据脱敏(Dynamic Data Masking) 是在
不更改基础数据的情况下
。在最终用户或系统中改变数据的外观。
【重点】数据安全要求和过程分为四组,称为4A:
访问(Access)、
审核(Audit)、
身份验证(Authentication)
和授权(Authorization)。
最近,为了有效遵守数据法规,还包含了一个E,即权利(Entitlement)。
敏捷(Agail)
【重点】保密范围要求从高(例如,极少有人能够访问员工薪酬数据)到低(每个人都可以访问产品目录)。以下列出的五个机密分类级别,典型的分类架构可能包括其中两个或更多:
普通受众公开
(For general audiences)
可向任何人(包括公众)提供的信息。
内部使用
(Internal use only):
仅限于员工或成员的信息,但信息分享的风险很小。仅供内部使用,可在组织外部显示或讨论,但不得复制。
机密
(Confidential):
若无恰当签署的保密协议或类似内容,不得在组织以外共享。不得与其他客户共享客户机密信息。
受限机密
(Restricted confidential):
信息仅限于特定"需要知道"角色的个人。受限机密可能要求个人通过许可获得资格。
绝密
(Registered confidential):
信息机密程度非常高,任何信息访问者都必须签署一份法律协议
才能访问数据,并承担保密责任。
【重点】RACI: 职责,负责、批注、咨询、通知(RACI) 矩阵
【重点】
外包世界中的数据安全:任何事情皆可外包。但责任除外。
【重点】度量指标:
1)安全实施
2)安全意识
3)数据保护
4)安全事件
5)机密数据扩散
【重点】数据的加密方法
哈希、对称加密、非对称加密
第8章 数据集成和互操作(2分)
【重点】
映射(Mapping) 是转换的同义词。它既是从源结构到目标结构建立查找矩阵的过程。也是该过程的结果
。
【重点】
时延(Latency) 是指从源系统生成数据到目标系统可用该数据的时间差
【重点】要衡量实现数据集成解决方案的规模和收益。包括可用性、数量、速度、成本和使用方面的指标。
1)数据可用性。
请求数据的可获得性。
2)数据量和速度。
它包括: 传送和转换的数据量。分析数据量。传送速度。数据更新与可用性之间的时延。事件与触发动作之间的时延。新数据源的可用时间。
3)解决方案成本和复杂度。
它包括: 解决方案开发和管理成本。获取新数据的便利性。解决方案和运营的复杂度。使用数据集成解决方案的系统数量。
第9章 文件和内容管理(2分)
【重点】文件和内容管理的主要业务驱动因素
- 法规遵从性要求、
2)诉讼响应能力和电子取证请求能力以及
3) 业务连续性要求。
【重点】实施文件和内容管理最佳实践的目标,包括:
1) 确保能够高速有效地采集和使用非结构化的数据和信息。
2) 确保结构化和非结构化数据之间的整合能力。
3) 遵守法律义务并达到客户预期。
【重点】非结构化数据有多种电子格式: 文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML 文件、事务性消息、报告、图形、数字图像、缩微胶片、视频和音频。 纸质文件中也存在大量非结构化数据。
【重点】文件管理 的描述
-
一般来说,文件管理关注的是文件本身,几乎不关注文件内容。
-
一个文件中的信息内容可能对如何管理该文件有指导性作用,但是在文件管理中,文件被视为一个单独的实体
。 -
市场和监管压力都将重点放在档案保管期限表、地点、传送和销毁上。例如,一些关于个人的数据不能跨越国际边界
第10章 参考数据和主数据(10分)
【重点】启动主数据管理最常见的驱动因素包括:
1) 满足组织数据需求。
2) 管理数据质量。
3) 管理数据集成的成本。
4) 降低风险。
【重点】参考数据和主数据管理规划的目标包括:
1) 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据
。===》黄金数据
2) 促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
3) 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
【重点】主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等) 的数据,
【重点】业务规则通常规定了主数据格式和允许的取值范围。 一般组织的主数据包括下列事物的数据:
1) 参与方。
个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理
商、商业伙伴、竞争者、雇员或学生等。
2) 产品和服务,包括内部和外部的产品及服务。
3) 财务体系。 如合同、总账、成本中心、利润中心。
4) 位置信息。 如地址和GPS 坐标。
【重点】在一个域内规划主数据管理包括以下几个基本步骤:
1) 识别能提供主数据实体全面视图的候选数据源。
2) 为精确匹配和合并实体、实例制定规则。
3) 建立识别和恢复未恰当匹配或合并的数据的方法。
4) 建立将可信数据分发到整个企业的系统中的方法。
【重点】解决方法:最大公约数
【重点】主数据管理的关键处理步骤
1)数据模型管理
2)数据采集
3)数据验证、标准化和数据丰富
4)实体解析和标识符管理
【重点】主数据管理工具
数据整合工具
、数据修复工具
、操作型数据存储
(ODS)、数据共享中心
(DSH)- 或
专门的主数据管理应用来实现
。
第11章 数据仓库和商务智能(10分)
【重点】数据仓库建设的主要驱动力是运营支持职能、合规需求和商务智能活动
【重点】数据仓库建设应遵循如下指导原则:
1) 聚焦业务目标。
2) 以终为始。
3) 全局性的思考和设计,局部性的行动和建设。
4) 总结并持续优化,而不是一开始就这样做。
【重点】数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。
【重点】Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,
【重点】虽然Inmon 和Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1) 数据仓库存储的数据来自其他系统
。
2) 存储行为包括以提升数据价值的方式整合数据
。
3) 数据仓库便于数据被访问和分析使用
。
4) 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
。
5) 数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析
。
【重点】数据仓库有两个重要组成部分: 一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。
【重点】
多维模型通常称为星型模型,由事实表和维度表组成
。
【重点】数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据
。
支持业务分析所必需的数据。这条轨迹涉及识别数据的最佳来源,设计如何修正、转换、集成、存储以及提供给应用程序使用数据的规则。此步骤还包括决定如何处理不符合预期的数据。
2)技术
。
支持数据存储和迁移的后端系统及流程。与现有企业系统的集成是必需的,因为数据仓库本身并不是一个孤岛。企业架构,特别是技术架构和应用架构,通常管理着这条轨迹。
3)商务智能工具
。
数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件。
【重点】确定数据加载方法时,要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性。
【重点】维护数据产品
- 发布管理
- 管理数据产品开发生命周期
- 监 控和调优加载过程
- 监 控和调优商务智能活动和性能
【重点】透明度和可见性是推动数据仓库/商务智能监控的关键原则。
【重点】记录的数据血缘关系有很多用途:
1)调查数据问题的根本原因
。
2)对系统变更或数据问题进行影响分析
。
3)根据数据来源确定数据的可靠性
【重点】常见的OLAP操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
【重点】数据仓库应该能够实现以下几点:
1)明确数据敏感性和安全性约束。
2)选择工具。
3)保障资源安全。
4)创建抽取过程以评估和接收源数据
第12章 元数据管理(10分)
【重点】元数据对于数据管理和数据使用来说都是必不可少的。元数据管理提供了获取和管理组织数据的主要方法。
【重点】如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据
【重点】数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
1)通过提供上下文语境和执行数据质量检查提高数据的可信度。
2)通过扩展用途增加战略信息(如主数据)的价值。
3)通过识别冗余数据和流程提高运营效率。
4)防止使用过时或不正确的数据。
5)减少数据的研究时间。
6)改善数据使用者和IT专业人员之间的沟通。
7)创建准确的影响分析,从而降低项目失败的风险。
8)通过缩短系统开发生命周期时间缩短产品上市时间。
9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
10)满足监管合规
【重点】元数据管理不善容易导致以下问题:
1)冗余的数据和数据管理流程。
2)重复和冗余的字典、存储库和其他元数据存储。
3)不一致的数据元素定义和与数据滥用的相关风险。
4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。
5)怀疑元数据和数据的可靠性
【重点】元数据通常分为三种类型: 业务元数据、技术元数据和操作(运营)元数据。12.1.3
【重点】在信息技术之外的领域,如在图书馆或信息科学中,元数据被描述为不同的类别:
1)描述元数据(Descriptive Metadata)
2)结构元数据(Structural Metadata)
3)管理元数据(Administrative Metadata)
【重点】ISO/IEC 11179元数据注册标准
【重点】元数据综合解决方案由以下功能需求点组成: 12.2.2
更新频次
。元数据属性和属性集更新的频率。
2)同步情况
。数据源头变化后的更新时间。
3)历史信息
。是否需要保留元数据的历史版本。
4)访问权限
。通过特定的用户界面功能,谁可以访问元数据,如何访问。
5)存储结构。元数据如何通过建模来存储。
6)集成要求。元数据从不同数据源的整合程度,整合的规则。7)运维要求。更新元数据的处理过程和规则(记录日志和提交申请)
8)管理要求。管理元数据的角色和职责。
9)质量要求。元数据质量需求。
10)安全要求。一些元数据不应公开,因为会泄露某些高度保密数据的信息。
【重点】元数据治理 度量指标:
1) 元数据存储库完整性。
将企业元数据(范围内的所有产品和实例) 的理想覆盖率与实际覆盖率进行比较。 参照元数据管理范围定义的策略。
2) 元数据管理成熟度。
根据能力成熟度模型的 (CMM-DMM)成熟度评估方法
3) 专职人员配备。
通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
4) 元数据使用情况。
第13章 数据质量(10分)
【重点】与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。
【重点】建立正式数据质量管理的业务驱动因素包括:
1) 提高组织数据价值和数据利用的机会。
2) 降低低质量数据导致的风险和成本。
3) 提高组织效率和生产力。
4) 保护和提高组织的声誉。
【重点】数据质量管理应遵循以下原则:
1) 重要性。
数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据
的重要性以及数据不正确时的风险水平来判定。
2) 全生命周期管理。
3) 预防。
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简
单的纠正记录上。
4) 根因修正。
【重点】数据质量如达到数据消费者的期望和需求,也就是说,如果数据满足数据消费者应用需求的目
的,就是高质量的。
【重点】关键数据
1) 监管报告。
2) 财务报告。
3) 商业政策。
4) 持续经营。
5) 商业战略,
【重点】描述了数据质量的6 个核心维度:
1) 完备性。 存储数据量与潜在数据量的百分比。
2) 唯一性。 在满足对象识别的基础上不应多次记录实体实例(事物)。
3) 及时性。 数据从要求的时间点起代表现实的程度。
4) 有效性。 如数据符合其定义的语法(格式、类型、范围),则数据有效。
5) 准确性。 数据正确描述所描述的“真实世界” 对象或事件的程度。
6) 一致性。
【重点】戴明环是一个被称为“P计划 - D执行 - C检查 -A 处理” 的问题解决模型。
【重点】新周期开始于:
①现有测量值低于阈值。
②新数据集正在调查中。
③对现有数据集提出新的数据质量要求。
④业务规则、标准或期望变更。
【重点】数据质量问题的常见原因:
(1) 缺乏领导力导致的问题
数据输入、数据处理、系统设计,以及自动化流程中的手动干预
【重点】数据剖析可以告诉我们,例如:
1) 空值数。 标识空值存在,并检查是否允许空值。
2) 最大/ 最小值。 识别异常值,如负值。
3) 最大/ 最小长度。 确定具有特定长度要求的字段的异常值或无效值。
4) 单个列值的频率分布。 能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值
的检查,以及用默认值填充的记录百分比)。
5) 数据类型和格式。
【重点】一个框架应包括以下方法:
1) 了解并优先考虑业务需求。
2) 确定满足业务需求的关键数据。
3) 根据业务需求定义业务规则和数据质量标准。
4) 根据预期评估数据。
【重点】有效的数据质量指标:
1) 可度量性。
2) 业务相关性。
3) 可接受性。
4) 问责/ 管理制度。
【重点】数据质量的高阶指标包括:
1) 投资回报
。
关于改进工作的成本与改进数据质量的好处的声明。
2) 质量水平
。
测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率。
3) 数据质量趋势
。
随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量事件。
4) 数据问题管理指标
。
第14章 大数据和数据科学(6分)
【重点】数据科学依赖于:
1) 丰富的数据源。
具有能够展示隐藏在组织或客户行为中不可见模式的潜力。
2) 信息组织和分析。
用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术。
3) 信息交付。
针对数据运行模型和数学算法,进行可视化展示及其他方式输出,以此加强对
行为的深入洞察。
4) 展示发现和数据洞察。
【重点】数据湖可以提供:
1) 数据科学家可以挖掘和分析数据的环境。
2) 原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
3) 数据仓库明细历史数据的备用存储区域。
4) 信息记录的在线归档。
5) 可以通过自动化的模型识别提取流数据的环境。
【重点】数据湖的风险在于,它可能很快会变成数据沼泽
【重点】机器学习探索了学习算法的构建和研究。 这些算法一般分为三种类型:
1) 监督学习
基于通用规则(如将SPAM 邮件与非SPAM 邮件分开)。
2) 无监督学习
基于找到的那些隐藏的规律(数据挖掘)。
3) 强化学习
基于目标的实现(如在国际象棋中击败对手)。
【重点】规范分析(PrescriptiveAnalytics) 比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。
【重点】
第15章 数据管理成熟度评估(4分)
【重点】成熟度级别通常包括:
- 0级:
无能力
- 1级:
初始或临时级
:成功取决于个人的能力 - 2级:
可重复级
:制定了最初级的流程规则 - 3级:
已定义
:已建立标准并使用 - 4级:
已管理
:能力可以被量化和控制 - 5级:
优化级
:能力提升的目标是可量化的
【重点】各组织进行能力成熟度评估有以下几个原因:
1) 监管。
监管对数据管理提出了最低成熟度水平要求。
2) 数据治理。
出于规划与合规性目的,数据治理需要进行成熟度评估。
3) 过程改进的组织就绪。
组织认识到要改进其实践过程应从评估其当前状态开始。 例如,它承诺管理主数据,并需要评估其部署主数据管理流程和工具的准备情况。
4) 组织变更。
组织变更(如合并) 会带来数据管理挑战。 DMMA 为应对这些挑战制订了
规划。
5) 新技术。
技术的进步提供了管理和使用数据的新方法。 组织希望了解成功采用的可能性。
6) 数据管理问题。
【重点】
CMM 通常定义5 ~ 6 个成熟度级别
,
【重点】在评估开始之前,应告知利益相关方对评估的期望。 沟通应描述:
1) 数据管理成熟度评估的目的。
2) 评估应如何进行。
3) 他们参与的是什么部分。
4) 评估活动的时间表。
第16章 数据管理组织与角色期望(2分)
【重点】CDO的常见任务。其中包括:
- 建立组织数据战略
- 使以数据为中心的需求与可用的IT和业务资源保持一致
- 建立数据治理标准、政策和程序
- 为依赖于数据支持的业务提供建议(也许还有服务),例如业务分析、大数据、数据质量和数据技术
- 向内部和外部业务利益相关者宣传良好的信息管理原则的重要性
- 监督数据在业务分析和商务智能中的使用情况
【重点】在信息管理方面,促使紧迫感产生的因素有如下几种:
1) 监管变化。
2) 信息安全的潜在威胁。
3) 业务连续性风险。
4) 商业策略的改变。
5) 兼并与收购。
6) 监管审计或诉讼风险。
7) 技术变革。
8) 市场竞争对手的能力变化。
9) 媒体对组织或者行业信息管理问题的评论。
【重点】有效愿景的几项关键特征如下:
1) 充满想象。 描绘了一幅未来的图景。
2) 吸引力。 有利于增加员工、客户、股东和其他利益相关方的长期利益。
3) 可行性。 目标现实、可实现。
4) 重点突出。 为决策提供明确指导。
5) 灵活性。 它足够普适,允许个人采取主动,并在条件或约束发生变化时做出替代计划和响应。
6) 可交流性。 容易在5 分钟或者更短时间内分享和清晰交流。检
【重点】科特确定了有效传播愿景的七大关键要素:
1) 保持简单。 去掉行话、内部词汇和复杂句子。
2) 使用比喻、类比和例子。 例如,一张简单的图(甚至是一些图片) 可以胜过千言万语。
3) 适用不同场合。 从电梯演讲到广播备忘录,从小型会议到全员简报,信息需要在各种不同的场合之间传递。
4) 重复,重复,再重复。 思想在被内化和理解之前必须被多次听到。
5) 以身作则。 重要人物行为需要与愿景保持一致。 不一致行为会废掉所有其他形式的沟通。
6) 解释表面上的不一致。 虎头蛇尾和未解决的协调问题会破坏所有沟通的可信度。
7) 给予和索取。 双向沟通总是比单向沟通更有效。
【重点】总体沟通计划和每个单独的沟通计划都应该:
1) 有明确的目标和期望的结果。
2) 由支持所需结果的关键消息构成。
3) 为受众/ 利益相关方量身定制。
4) 通过适合受众/ 利益相关方的媒介传达。
第17章 数据管理与组织变革管理(2分)
【重点】■科特的变革管理八大误区 P455-459
- 误区一:
过于自满
: - 误区二:
未能建立足够强大的指导联盟
。 - 误区三:
低估愿景的力量
。 - 误区四:
10 倍、100 倍或 1000 倍地放大愿景
。 - 误区五:
允许阳挡愿景的障碍存在
。 - 误区六:
未能创造短期收益
。 - 误区八:
忽视将变革融入企业文化
。
【重点】
【重点】
内容 | 地址 链接 |
---|---|
【软考-中级】 | 系统集成项目管理工程师(第二版) |
【产品经理】 | 商业模式 |
版本记录:
- 2024年6月19第一版