第十一章数据仓库和商务智能10分

【数据仓库-后端,商务智能-前端】
基本算法:关联关系(牵手-谈恋爱),集群关系(杭州人爱吃酸甜口),决策树,线性回归,贝叶斯,神经网络,时间序列
用法:精准营销,客户价值分析,旅客生命周期价值分析,风险,聚类和集群,实施需求和匹配,社会地位参数,
忠诚度和客户粘度,时间序列。

11.1 引言

数据仓库(Data Warehouse,DW),商务智能(Business Inteligence,BI)

11.1.2 目标和原则【非常重要】

一个组织建设数据仓库的目标通常有:
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。

数据仓库建设应遵循如下指导原则:
1)聚焦业务目标
确保数据仓库用于组织最优先级的业务并解决业务问题。
2)以终为始。
让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
3)全局性的思考和设计,局部性的行动和建设。
让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交
付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。
以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不
替换细节数据。
5)提升透明度和自助服务。
上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向
利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。
数据仓库成功的关键是能够准确解释数据。能回答一些基本问题,如“这个数字为
什么是 X”“这个怎么计算出来的”“这个数据哪里来的”。元数据的获取应该作为软件开发周期的一部分,元数据的管
理也应该作为数据仓库持续运营的一部分。
7)协同。
与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。
为每种数据消费者提供正确的工具和产品。

11.1.3 基本概念

1.商务智能商务智能两层含义。

第一层含义,商务智能指的是一种理解组织诉求和寻找机会的 数据分析活动 。数据分析的结果用来提高组织决策的成功率。当人们说数据是竞争优势的关键要素时,他们其实是在说商务智能的内在逻辑:如果一个组织向自己的数据“正确提问”,他就能获得关于产品、服务及客户方面的洞见,为实现自己的战略目标做出更好的决策。
第二层含义,商务智能指的是支持这类数据分析活动的 技术集合。决策支持工具、商务智能工具的不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用,它们被用于从预算到高级分析的方方面面。

2.数据仓库

数据仓库有两个重要组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。

4.数据仓库建设的方法【一定会考】

大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖 Bill Inmon 和 Ralph Kimball 的影响,他们各有不同的数据仓库建模和实施方法。Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据。而 Kimball 则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型(参见第 5 章)。虽然 Inmon 和 Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1)数据仓库存储的数据来自其他系统。
2)存储行为包括以提升数据价值的方式整合数据。
3)数据仓库便于数据被访问和分析使用。
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。

【OLTP 尽量少用索引】

【数仓侧重点是 BI,但也可以做 AI,数据湖侧重 AI】
【数仓是ETL,数据湖是ELT】
【数仓是结构化数据,数据湖即可结构化也可非结构化数据】
【进入数仓数据是知道业务场景的,进入数据湖的数据业务场景不明确】
【数仓对已经发生的事情的一个总结和展现,数据湖对未来的一个预测和数据的挖掘】

Q:数仓目标是 BI
A:错,数仓侧重点是 BI。
多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数
据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。
Q:数据集市是必须要的产品嘛?
A:错,数据集市是数仓的一小部分,
Q:主数据是必须要的嘛?
A:错,数据源、ETL、核心数据仓库是必须要的。

7.数据仓库架构组件

(1)源系统
(2)数据集成
(3)中央数据仓库

数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系。
②创建索引和外键以支持维度表。
③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。

8.加载处理的方式

数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载。“持续不断的数据更新”需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。
在这里插入图片描述

Q:有几种方法识别增量?
A4 种:时间戳增量加载、日志表增量加载、数据库交易日志、消息增量。
Q:处理数据量最大的方法
A:全量加载。

11.2活动

11.2.3 开发数据仓库和数据集市

通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据
2)技术
3)商务智能工具

11.3 工具

11.3.3 商务智能工具的类型

常见的 OLAP 操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
1)切片(Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。
2)切块(Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。
3)向下/向上钻取(Drill down/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细(向下)。
4)向上卷积(Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。
5)透视(Pivot)。透视图会更改报表或页面的展示维度。

三种经典的 OLAP 实现方法如下:
1)关系型联机分析处理(ROLAP)。ROLAP 通过在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。
星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。MOLAP 通过使用专门的多维数据库技术支持 OLAP。
3)混合型联机分析处理(HOLAP)。它是 ROLAP 和 MOLAP 的结合。HOLAP 实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在 ROLAP 中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

11.4 方法

驱动需求的原型,自助式商务智能,可查询的审计数据。

11.6 数据仓库/商务智能治理

11.6.5 度量指标(3 个)

3 个度量指标:使用指标、主题域覆盖率、响应时间和性能指标。

1.使用指标

数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。这些度量指标表示组织内有多少人正在使用数据仓库。为每个工具授权多少个用户账户是一个很好的开始,特别是对于审计员而言。但是,实际有多少用户连接到该工具是一个更好的度量指标,并且每个时间段由用户社区申请的查询(或与查询相当)数量对于容量规划是更好的技术指标。允许多个分析指标,如审核用户、已生成的用户查询量和使用用户。

2.主题域覆盖率

主题域覆盖百分比衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。
将操作源映射到目标是另一种自然的扩展,它强制和验证已经收集的血缘关系和元数据,并可以提供渗透分析,确定哪些部门在使用哪些源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。

3.响应时间和性能指标

大多数查询工具会测量响应时间。通过工具检索响应或性能指标。此数据指标代表用户的数量和类型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/821486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么说日本茶道源于中国茶文化

茶,始于药,而后为饮茶,始于药,而后为饮。在8世纪的中国,茶就作为一桩雅事而进入一个诗意王国。而日本则在15世纪将其尊崇为一种美的宗教——茶道。 茶道,是在日常染污之间,因由对美的倾慕而建立…

redis五种类型介绍

Redis是一种内存数据存储系统,它支持五种不同的数据类型: 1. String String是Redis中最基本的数据类型,它可以存储任何形式的字符串数据,例如普通的文本字符串,二进制数据或JSON格式的数据。除此之外,还可以…

快手本地生活服务商入驻方法来了!超简单

本地生活市场正如一座蕴藏丰富的金矿,亟待我们去挖掘其潜在的价值。在2023年这个消费市场全面回暖的年份,服务零售行业的增速犹如一匹黑马,远远超过了商品零售。据权威数据显示,服务零售额的增长幅度高达20%,比商品消费…

前端开发框架BootStrap

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl BootStrap概述 Bootstrap是一个开源的前端框架,它由Twitter的设计师和开发者创建并维护。Bootstrap提供了许多现成的Web组件,可帮助开发者快速设计和…

Spring (四) 之配置及配置文件的操作

文章目录 1、Spring 基于注解的配置基于注解的配置引入依赖包配置实体类数据访问层业务层业务层实现测试 2、Bean和Component和Configuration的区别1 Bean:2 Component:3 Configuration:总结: 区别Component和Configuration区别 3、Spring读取properties配置文件准备…

第一届AI Agent智能体现场开发大赛报名开启!8月上旬火热开赛~

由联想拯救者、AIGC开放社区、英特尔携手主办的“AI生成未来第二届拯救者杯OPENAIGC开发者大赛”已经正式启动,“2024 AI Agent极限挑战赛”作为特设专项赛道,也将同步于8月上旬开赛,参赛者将在更加紧张刺激的现场比赛中展现其技术与创造力。…

抖音小店新店铺起飞式玩法,这几步一定要做好,前期很重要

大家好,我是电商笨笨熊 进入抖音小店后不知道该怎么操作,不清楚如何让新店快速起店; 今天我们就来聊聊新店铺快速起店的几个关键步骤,新手玩家一定要按照流程去做。 第一步:店铺搭建 小店开通之后不要着急选品上架&…

MGRE环境下的ospf实验

MGRE环境下的ospf实验 一.拓扑图 二.实验步骤 1.分配各路由网段IP [R1]int g 0/0/0 [R1-GigabitEthernet0/0/0]ip address 16.0.0.1 24 [R1-GigabitEthernet0/0/0]int g 0/0/1 [R1-GigabitEthernet0/0/1]ip address 116.0.0.1 24[R2]int g 0/0/0 [R2-GigabitEthernet0/0/0]…

Docker+Uwsgi部署Django项目

在之前的文章中,已经给大家分享了在docker中使用django自带的命令部署项目,这篇文章主要讲解如何使用uwsgi部署。 1. 在Django项目的根目录下新建Dockerfile文件 #Dockerfile文件 # 使用 Python 3.9 作为基础镜像 FROM python:3.9# 设置工作目录 WORKDI…

随机游走的艺术-图嵌入表示学习

图嵌入引入 机器学习算法: 厨师 样本集: 食材 只有好的食材才能做出好的饭菜 我们需要把数据变成计算机能够读懂的形式(将数据映射成为向量) 图嵌入概述 传统图机器学习 图表示学习 自动学习特征,将…

初学python记录:力扣924. 尽量减少恶意软件的传播

题目: 给出了一个由 n 个节点组成的网络,用 n n 个邻接矩阵图 graph 表示。在节点网络中,当 graph[i][j] 1 时,表示节点 i 能够直接连接到另一个节点 j。 一些节点 initial 最初被恶意软件感染。只要两个节点直接连接&#x…

提升测试效率都有哪些具体手段?

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

uncloud的查询数据库的条件要和shema中写的一致,不然会报错

为什么uni-app中的database中的有些文件在hbuilder中可以看到,在vscode中看不到? uni-starter微信登录后查数据库db.collection后会提示没有权限 貌似非管理员都不能访问 uni-starter微信登录后查数据库db.collection(opendb-poi).aggregate()后会提示…

计算机网络(六)应用层

应用层 基本概念 服务器端(Server): 服务器是网络中提供服务的计算机或软件程序。服务器通常具有更高的性能、更大的存储空间和更高的带宽,用于提供各种服务,如文件存储、数据库管理、Web托管、电子邮件传递等。服务…

共享桌面,3分钟自己实现一个吧,还能听见麦克风声音哦

前言 关于【SSD系列】: 前端一些有意思的内容,旨在3-10分钟里, 500-1000字,有所获,又不为所累。 共享桌面程序,哇,高大尚耶!其实不然,让我带你3分钟实现桌面共享程序&am…

LD3320语音模块开发以及未来拿到其他模块的开发方式

当我们拿到一块模块进行开发的时候,一定要拿到配套的使用手册,不然在短时间内根本下不了手 一、使用source Insight来阅读源码 1.建立文件夹 2. 在source Insight放入该文件 3.添加源码 4.解决Source Insight乱码的问题 5.让各个代码模块之间有关联 二、…

uni-app中页面生命周期与vue生命周期的执行顺序对比

应用生命周期 uni-app 支持如下应用生命周期函数: 函数名说明平台兼容onLaunch当uni-app 初始化完成时触发(全局只触发一次),参数为应用启动参数,同 uni.getLaunchOptionsSync 的返回值onShow当 uni-app 启动&#x…

Python零基础从小白打怪升级中~~~~~~~Python面向对象(二)

第九节:Python面向对象——继承和多继承 一、继承 Python面向对象的继承指的是多个类之间的所属关系,即子类默认继承父类的所有属性和函数。 在Python中,所有类默认继承object类,object类是顶级类或基类; 1、单继承…

Linux - 线程

目录 一.Linux线程的概念 1.1什么是线程 1.2 线程的优点 1.3 线程的缺点 1.4 线程异常 1.5 线程用途 二. Linux进程VS线程 2.1 进程和线程 三. Linux线程控制 3.1 POSIX线程库 3.2 创建线程 3.3 进程ID和线程ID 3.4 线程ID及进程地址空间布局 3.5 线程终止 3.6 线…

实战小项目 | ESP32-S3和ESP32-C3通过ESP-Mesh-Lite组网 温湿度传感器案例

传统Wi-Fi网络所有终端设备都需要直接与路由器相连,这使得Wi-Fi的覆盖区域受到路由器位置的限制,可接入终端设备的数量也受到路由器容量的限制。而乐鑫ESP-Mesh-Lite Wi-Fi组网方案,所有终端设备都可以与相邻设备连接,摆脱了对路由…