【数据仓库-后端,商务智能-前端】
基本算法:关联关系(牵手-谈恋爱),集群关系(杭州人爱吃酸甜口),决策树,线性回归,贝叶斯,神经网络,时间序列
用法:精准营销,客户价值分析,旅客生命周期价值分析,风险,聚类和集群,实施需求和匹配,社会地位参数,
忠诚度和客户粘度,时间序列。
11.1 引言
数据仓库(Data Warehouse,DW),商务智能(Business Inteligence,BI)
11.1.2 目标和原则【非常重要】
一个组织建设数据仓库的目标通常有:
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。
数据仓库建设应遵循如下指导原则:
1)聚焦业务目标。
确保数据仓库用于组织最优先级的业务并解决业务问题。
2)以终为始。
让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
3)全局性的思考和设计,局部性的行动和建设。
让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交
付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。
以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不
替换细节数据。
5)提升透明度和自助服务。
上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向
利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。
数据仓库成功的关键是能够准确解释数据。能回答一些基本问题,如“这个数字为
什么是 X”“这个怎么计算出来的”“这个数据哪里来的”。元数据的获取应该作为软件开发周期的一部分,元数据的管
理也应该作为数据仓库持续运营的一部分。
7)协同。
与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。
为每种数据消费者提供正确的工具和产品。
11.1.3 基本概念
1.商务智能商务智能两层含义。
第一层含义,商务智能指的是一种理解组织诉求和寻找机会的 数据分析活动 。数据分析的结果用来提高组织决策的成功率。当人们说数据是竞争优势的关键要素时,他们其实是在说商务智能的内在逻辑:如果一个组织向自己的数据“正确提问”,他就能获得关于产品、服务及客户方面的洞见,为实现自己的战略目标做出更好的决策。
第二层含义,商务智能指的是支持这类数据分析活动的 技术集合。决策支持工具、商务智能工具的不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用,它们被用于从预算到高级分析的方方面面。
2.数据仓库
数据仓库有两个重要组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。
4.数据仓库建设的方法【一定会考】
大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖 Bill Inmon 和 Ralph Kimball 的影响,他们各有不同的数据仓库建模和实施方法。Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据。而 Kimball 则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型(参见第 5 章)。虽然 Inmon 和 Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1)数据仓库存储的数据来自其他系统。
2)存储行为包括以提升数据价值的方式整合数据。
3)数据仓库便于数据被访问和分析使用。
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。
【OLTP 尽量少用索引】
【数仓侧重点是 BI,但也可以做 AI,数据湖侧重 AI】
【数仓是ETL,数据湖是ELT】
【数仓是结构化数据,数据湖即可结构化也可非结构化数据】
【进入数仓数据是知道业务场景的,进入数据湖的数据业务场景不明确】
【数仓对已经发生的事情的一个总结和展现,数据湖对未来的一个预测和数据的挖掘】
Q:数仓目标是 BI
A:错,数仓侧重点是 BI。
多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数
据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。
Q:数据集市是必须要的产品嘛?
A:错,数据集市是数仓的一小部分,
Q:主数据是必须要的嘛?
A:错,数据源、ETL、核心数据仓库是必须要的。
7.数据仓库架构组件
(1)源系统
(2)数据集成
(3)中央数据仓库
数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系。
②创建索引和外键以支持维度表。
③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。
8.加载处理的方式
数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载。“持续不断的数据更新”需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。
Q:有几种方法识别增量?
A:4 种:时间戳增量加载、日志表增量加载、数据库交易日志、消息增量。
Q:处理数据量最大的方法
A:全量加载。
11.2活动
11.2.3 开发数据仓库和数据集市
通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据
2)技术
3)商务智能工具
11.3 工具
11.3.3 商务智能工具的类型
常见的 OLAP 操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
1)切片(Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。
2)切块(Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。
3)向下/向上钻取(Drill down/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细(向下)。
4)向上卷积(Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。
5)透视(Pivot)。透视图会更改报表或页面的展示维度。
三种经典的 OLAP 实现方法如下:
1)关系型联机分析处理(ROLAP)。ROLAP 通过在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。
星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。MOLAP 通过使用专门的多维数据库技术支持 OLAP。
3)混合型联机分析处理(HOLAP)。它是 ROLAP 和 MOLAP 的结合。HOLAP 实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在 ROLAP 中。控件的实现方式各不相同,设计师对分区的组合也各有不同。
11.4 方法
驱动需求的原型,自助式商务智能,可查询的审计数据。
11.6 数据仓库/商务智能治理
11.6.5 度量指标(3 个)
3 个度量指标:使用指标、主题域覆盖率、响应时间和性能指标。
1.使用指标
数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。这些度量指标表示组织内有多少人正在使用数据仓库。为每个工具授权多少个用户账户是一个很好的开始,特别是对于审计员而言。但是,实际有多少用户连接到该工具是一个更好的度量指标,并且每个时间段由用户社区申请的查询(或与查询相当)数量对于容量规划是更好的技术指标。允许多个分析指标,如审核用户、已生成的用户查询量和使用用户。
2.主题域覆盖率
主题域覆盖百分比衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。
将操作源映射到目标是另一种自然的扩展,它强制和验证已经收集的血缘关系和元数据,并可以提供渗透分析,确定哪些部门在使用哪些源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。
3.响应时间和性能指标
大多数查询工具会测量响应时间。通过工具检索响应或性能指标。此数据指标代表用户的数量和类型。