目录
一、分值分布
二、重点知识梳理
1、引言
1.1 业务驱动因素
1.2 原则
1.3 基本理念
2、活动
2.1 定义大数据战略和业务需求
2.2 选择数据源
2.3 获得和接收数据源
2.4 制定数据假设和方法
2.5 集成和调整数据进行分析
2.6 使用模型探索数据
2.7 部署和监控
3、工具
3.1 大规模并行处理(MPP)
3.2 基于分布式文件的数据库
4、方法
4.1 解析建模
4.2 大数据建模
5、实施指南
5.1 战略一致性
5.2 就绪评估/风险评估
6、大数据和数据科学治理
一、分值分布
CDGA:4分(4单选)
CDGP:10分(2单选 4多选)
考点:
业务驱动和原则;
基本概念;
活动;
工具和技术;
二、重点知识梳理
1、引言
语境关系图:
1.1 业务驱动因素
业务驱动因素:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。
1.2 原则
原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。
1.3 基本理念
数据科学:
- 组成部分:
- 1)数据挖掘
- 2)统计分析
- 3)机器学习
- 依赖:
- 1)丰富的数据源。
- 2)信息组织和分析。
- 3)信息交付。
- 4)展示发现和数据洞察。
- 数据科学的过程:
- 1)定义大数据战略和业务需求。
- 2)选择数据源。
- 3)采集和提取数据资料。
- 4)设定数据假设和方法。
- 5)集成和调整数据进行分析。
- 6)使用模型探索数据。
- 7)部署和监控。
大数据:
- 定义(3V):
- 1)数据量大(Volume)。大数据的量非常大(通常大于100TB,在1PB~1EB范围内)。
- 2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
- 3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
- 4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。
- 5)数据波动性大(Volatility)。指数据更改的频率,以及由此导致的数据有效时间短。
- 6)数据准确性低(Veracity)。指数据的可靠程度不高。
- 大数据架构:
数据湖:数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。
- 数据湖可提供的场景:
- 1)数据科学家可以挖掘和分析数据的环境。
- 2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
- 3)数据仓库明细历史数据的备用存储区域。
- 4)信息记录的在线归档。
- 5)可以通过自动化的模型识别提取流数据的环境
数据湖可以作为Hadoop或其他数据存储系统、集群服务、数据转换和数据集成等数据处理工具的一种复合配置来实施。这些处理程序使跨基础架构的分析简化软件变得更加便利,从而使配置结合在起。
数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。为了理解数据湖中的数据是如何关联和连接的,数据架构师或者数据工程师通常使用单一键值或其他技术(语义模型、数据模型等),科学家和其他可视化开发人员通过这些技术数据即可知道如何使用数据湖中存储的信息
基于服务的架构(Services-Based Architecture,SBA):为一种立即提供(如果不是完全准确或完整)数据的方法,并使用相同的数据源来更新完整、准确的历史数据集。
- SBA组件:
- 1)批处理层(Batch Layer)。数据湖作为批处理层提供服务,包括近期的和历史的数据。
- 2)加速层(Speed Layer)。只包括实时数据。
- 3)服务层(Serving Layer)。提供连接批处理和加速层数据的接口
机器学习:机器学习(Machine Learning)探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合
- 无监督学习:通常被称为数据挖掘
- 算法类型:基于找到的那些隐藏的规律(数据挖掘)
- 监督学习:是基于复杂的数学理论,特别是统计学、组合学和运筹学。
- 算法类型:基于通用规则(如将SPAM邮件与非SPAM邮件分开)。
- 强化学习:即没有通过教师的认可就实现了目标优化,如驾驶车辆
- 算法类型:基于目标的实现(如在国际象棋中击败对手)。
语义分析:媒体监控和文本分析是从大量非结构化或半结构化数据(如事务数据、社交媒体、博客和Web新闻网站)中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。使用自然语言处理(NLP)分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景
数据和文本挖掘:数据挖掘(Data mining)是一种特殊的分析方法,它使用各种算法揭示数据中的规律。它最初是机器学习的一个分支,属于人工智能的一个子领域。
- ◼ 数据挖掘(Data mining)技术:
- 1)剖析(Profiling)。
- 2)数据缩减(Data reduction)。
- 3)关联(Association)。
- 4)聚类(Clustering)。
- 5)自组织映射(Self-organizing maps)。
预测分析:预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。预测分析深深植根于数学,特别是统计学,与无监督学习拥有许多相同的组成部分,对预期预测结果进行测量时差异是可控的。
基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。
预测模型的最简单形式是预估(Forecast)。
规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。
运营分析(Operational Analytics):运营BI或流式分析,是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。
数据可视化:可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。数据可视化压缩并封装特征数据,使其更易于查看。通过这种方式,有助于发现商机,识别风险或凸显信息。
数据混搭(Data Mashups):将数据和服务结合在一起,以可视化的方式展示见解或分析结果。
2、活动
2.1 定义大数据战略和业务需求
- 大数据战略的评估标准:
- 1)组织试图解决什么问题,需要分析什么。
- 2)要使用或获取的数据源是什么。
- 3)提供数据的及时性和范围。
- 4)对其他数据结构的影响以及与其他数据结构的相关性。
- 5)对现有建模数据的影响。
2.2 选择数据源
- 需要了解以下内容:
- 1)数据源头。
- 2)数据格式。
- 3)数据元素代表什么。
- 4)如何连接其他数据。
- 5)数据的更新频率。
- 要审查数据源和创建这些源的流程:
- 1)基础数据。
- 2)粒度。
- 3)一致性。
- 4)可靠性。
- 5)检查/分析新数据源。
2.3 获得和接收数据源
获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。
2.4 制定数据假设和方法
制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。
2.5 集成和调整数据进行分析
准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。
2.6 使用模型探索数据
- 1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。
- 2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。
- 3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。
- 4.创建数据可视化。必须满足与模型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。
2.7 部署和监控
满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。
- 步骤
- 1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。
- 2.使用附加数据源迭代。数据科学是一个迭代的过程
3、工具
改变了我们查看数据和信息方式的技术:
- 1)数据库内的高级分析。
- 2)非结构化数据分析(Hadoop,MapReduce)。
- 3)分析结果与操作系统的集成。
- 4)跨多媒体和设备的数据可视化。
- 5)链接结构化和非结构化信息的语义。
- 6)使用物联网的新数据源。
- 7)高级可视化能力。
- 8)数据扩展能力。
- 9)技术和工具集的协作。
3.1 大规模并行处理(MPP)
大规模并行处理(MPP)的出现是大数据和数据科学的首批推动者之一,因为它提供了在相对较短的时间内分析巨量信息的手段
大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。基于分布式文件的数据库。数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。
3.2 基于分布式文件的数据库
基于文件的解决方案中使用的模型称为MapReduce。该模型有三个主要步骤:
- 1)映射(Map)。识别和获取需要分析的数据。
- 2)洗牌(Shuffle)。依据所需的分析模式组合数据。
- 3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。
4、方法
4.1 解析建模
- 解析模型与不同的分析深度相关联:
- 1)描述性建模以紧凑的方式汇总或表示数据结。
- 2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。
4.2 大数据建模
对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。
5、实施指南
管理数据仓库数据的许多一般规则适用于管理大数据:
- 确保数据源可靠
- 具有足够的元数据以支持数据使用
- 管理数据质量
- 确定如何整合来自不同源的数据
- 以及确保数据安全且受到保护
实施大数据环境的差异与一组未知问题有关:
- 如何使用数据
- 哪些数据有价值
- 需要保留多长时间
5.1 战略一致性
战略交付成果应考虑管理以下要素:
- 1)信息生命周期。
- 2)元数据。
- 3)数据质量。
- 4)数据采集。
- 5)数据访问和安全性。
- 6)数据治理。
- 7)数据隐私。
- 8)学习和采用。
- 9)运营。
5.2 就绪评估/风险评估
评估与关键成功因素相关的组织准备情况,具体包括:
- 1)业务相关性。
- 2)业务准备情况。
- 3)经济可行性。
- 4)原型。
- 5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。
- 6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。
- 7)市场上有多种工具和技术,满足一般需求将是一个挑战。
- 8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。
- 9)培养内部人才的时间可能会超过交付窗口的时间。
6、大数据和数据科学治理
解决的问题:
- 1)寻源。来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源。
- 2)共享。组织内部和外部要签订的数据共享协议和合同、条款和条件。
- 3)元数据。数据在源端意味着什么,如何解释输出端的结果。
- 4)丰富。是否丰富数据,如何丰富数据,以及丰富数据的好处。
- 5)访问。发布什么,向谁发布,如何以及何时发布。企业数据视图应该推动数据处理决策。
数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查工件,这对于面向客户和监管的内容尤为重要。
- 标准可能包括:
- 1)分析范例、用户团体、主题域的工具标准。
- 2)新数据的请求。
- 3)数据集流程标准。
- 4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:
- ①数据包含和排除。
- ②模型中的假设。
- ③结果统计有效性。
- ④结果解释的有效性。
- ⑤采用适当的方法。
元数据:元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。
数据质量:大多数成熟的大数据组织,使用数据质量工具集扫描数据输入源,以了解其中包含的信息。大多数高级数据质量工具集都提供了一些功能,使组织能够测试假设,并构建有关其数据的知识。例如:
- 1)发现。信息驻留在数据集中的位置。
- 2)分类。基于标准化模式存在哪些类型的信息。
- 3)分析。如何填充和构建数据。
- 4)映射。可以将哪些其他数据集与这些值匹配。
度量指标:
- 1.技术使用指标。
- 2.加载和扫描指标。
- 3.学习和故事场景。
- 常用的测量方法包括:
- 1)已开发模型的数量和准确性。
- 2)已识别的机会中实现的收入。
- 3)避免已识别的威胁所降低的成本。
- 常用的测量方法包括: