《数据仓库与数据挖掘》 总复习

试卷组成  

第一章图

第二章图

第三章图

第四章图 

第五章图

第六章图

第九章图

第一章 DW与DM概述 (特点、特性)

DB到DW

主要特征

(1)数据太多,信息贫乏(Data Rich, Information Poor)。

(2)异构环境数据的转换和共享。(不同数据库数据结构不一样,如何整合?)

(3)利用数据进行事务处理转变为利用数据支持决策。

总结:D多,异构,事决

好多D,DB和DW发生争执给他们异构体,事情解决

演变4点

(1)DB用于事务处理,DW用于决策分析。

(2)DB保持事务处理的当前状态。 DW既保存过去的数据又保存当前的DB中的数据。

随业务的变化一直更新,保存当前数据。

不随时间变化而变化,保留历史数据和当前数据。

(3)DW的数据是大量DB的集成。

(4)对DB的操作比较明确,操作数据量少。 对DW操作不明确(通过某种算法),操作数据量大。

总结:事决,状态,集成,操作

想要事情解决,D保持良好状态,集成精力施以操作

OLTP到 OLAP

联机事务处理 (On Line Transaction Processing,OLTP)

概念:用户的数据可以立即传送到计算中心进行处理,短时间内给出处理结果。

实时系统(Real Time System)

联机分析处理 (On Line Analytica Processing,OLAP)

概念:多维数据库和多维分析

元数据 (Meta Data)

什么是元数据?

描述数据的数据(Data About Data)

为什么研究?

数据越多,越需要能对数据进行描述说明的数据。

重要性:数据仓库中数据的描述(数据字典)

元数据的分类?

  1. 关于数据源的元数据
    对不同平台上的数据源的物理结构和含义的描述。(提示我们如何将数据转换到DW中)
  2. 关于数据模型的元数据
    描述了DW中有什么数据以及数据之间的关系。
  3. 关于DW映射的元数据
    是数据源与DW数据间的映射。 (获取数据的第一步)
  4. 元数据反映DW中的数据项从哪个数据源抽取的,经过哪些ETL
    关于DW使用的元数据。
  5. DW中信息使用情况的描述。

总结:D源模W映用,物含关系,映射使用

元数据的分类查看原魔应用

DW特点(6)

  1. 面向主题
    每一个主题基本对应一个宏观的分析领域。(对什么决策?)
  2. 集成的
    对不同的数据来源进行统一数据结构和编码。
  3. 稳定的
    大量的历史数据(只进不出)
  4. 随时间变化(长时间)
  5. 数据量很大
  6. 软、硬件要求较高
    巨大的硬件平台
    并行的数据库系统

特点总结:题集稳时数要求

DW提及问题时要数要求

本书核心

数据仓库是为辅助决策而建立的

DM

  • 知识发现 (Knowledge Dicovery in Database,KDD):从数据中发现有用知识的整个过程。主要算法是归纳学习算法。
  • KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。

DM与OLAP比较

  • OLAP多维分析:切片、切块、钻取操作。辅助决策。
  • DM:任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。
    确定一个高价值的客户或可能离开的客户特征。

第二章 DW原理

DW结构包含哪几类数据?

(5:历当轻高元)

数据集市 (Data Marts)

概念:更小、更集中、具特定应用的DW。

特性:规模小、特定应用、面向部门、快速实现、投资快速回收、可升级到完整DW。

分类?

独立数据集市 (Dependent Data Mart)

        数据来源:直接来源于各生产系统

从属数据集市 (Independent Data Mart)

        数据来源:直接来自中央DW

数据集市与DW差别?

  • 主题
    DW:面向企业范围。
    数据集市:面向某一特定部门。
  • 数据详细程度
    DW:非常详细
    数据集市:低,概要多
  • 数据组织
    DW:第三范式等。
    数据集市:星型模型。

总结:题详细组织,企部,高低,三星

主题公园的D详细组织,起步高低的三星

DW系统结构

由数据仓库(DW)、仓库管理和分析工具三部分组成。

1、仓库管理包括什么? (4部分)

(1)数据建模:是建立DW的数据模型(Data Model)

DW数据模型按设计过程分类?

  • 概念数据模型

    • 最高层次的数据模型, 它定义了组织的数据仓库的业务概念和需求。

  • 逻辑数据模型

    • 概念数据模型的具体化, 它描述了数据元素之间的关系,但不涉及存储细节。

  • 物理数据模型

    • 逻辑数据模型的实现, 它详细描述了数据在数据库中的存储方式。

总结:概逻物,需求关系存储

盖螺屋,rrs

(2)数据抽取、转换、装载 (ETL: Extract、Transform、Load) 70%工作量
  • 抽取(Extract)

    • 第一步,从各种数据源中收集数据。 批量实时提取数据。

  • 转换(Transform)

    • 核心步骤,将原始数据转换成适合DW格式的数据。

      • 转换过程

        • 数据清洗 (去除错误和不一致的数据)

        • 数据集成 (合并来自不同源的数据)

        • 数据聚合 (汇总数据以减少数据量)

        • 数据映射 (将数据映射到数据仓库模型)

        • ......

    • 转换过程确保数据的一致性、准确性,并满足数据仓库的业务需求。

  • 装载(Load)

    • 最后一步,涉及将转换后的数据加载到DW中。

  • 总结:ETL,收集数据,转格式,加载DW

(3)元数据
  • 3功能:DW字典,指导ETL工作,指导用户使用DW。

(4)系统管理
  • 4部分:数据管理、性能监控、存储器管理、安全管理。

总结:数性存安

dpss

2、分析工具

(1)查询工具:可视化工具

(2)多维分析工具(OLAP工具)

(3)数据挖掘(DM)工具

(4)C/S工具

DW运行结构

  1. 典型的客户/服务器(C/S)
  2. DW应用的三层C/S结构

C/S(OLAP,DW) 有个公用OLAP层,工作效率更高

DW的数据模型

  • 多维数据模型

    • 星型模型

      • 由“事实表”(大表)以及多个“维表”(小表)所组成。

    • 雪花模型

      • 对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。

    • 星网模型

      • 将多个星型模型连接起来形成网状结构。

    • 第三范式

      • 传统DB设计理论

        • 减少数据冗余

  • 优势

    • 星型模型

      • 多维数据分析时速度很快

        • 但是增加维度将是很困难的事情。

    • 第三范式

      • 海量数据(如TB级),大量的动态业务分析

第三章 OLAP (联机分析处理)

概念

定义

OLAP是共享多维信息的快速分析。

4个特征

1、快速性

2、可分析性

3、多维性

4、信息性

总结:快可多信

快速的多维分析信息值得信赖

特点

  • 1.线性(On Line),由网络上的C/S结构完成。

  • 2.多维分析,OLAP的核心所在。

准则 (主要4条)

  • (1)多维数据分析;

  • (2)客户/服务器结构;

  • (3)多用户支持;

  • (4)一致的报表性能等。

    • 数据维数和数据的综合层次增加时, 提供的报表能力和响应速度不应该有明显的降低。 (即便D量,维度增加,速度不应该下降)

OLAP的数据模型

  • 分类

    • MOLAP数据模型

      • Multidimensional Online Analytical Processing

      • 基于多维数据库存储方式建立的OLAP

      • 表现为“超立方”结构,采用类似于多维数组的结构。

    • ROLAP数据模型

      • Relational Online Analytical Processing

      • 是基于关系数据库的OLAP。

      • 是一个平面结构,用关系数据库表示多维数据时,采用星型模型。

  • 比较

    • 1.数据存取速度(MOLAP的响应速度快 )

      • M

      • R需要转化SQL语句

    • 2.数据存储的容量( ROLAP存储容量上没有限制)

      • R

      • M立体方式存放数据,数据量级不大

    • 3.多维计算的能力(MOLAP能够支持高性能计算 )

      • M

      • R无法多行/维计算

    • 4.维度变化的适应性(ROLAP对于维表的变更有很好的适应性 )

      • R

      • M增维需重建DB

    • 5.数据变化的适应性( ROLAP对于数据变化的适应性高 )

      • R

      • M在数据频繁变化时需要大量重新计算

    • 6.软硬件平台的适应性(ROLAP适应性很好 )

      • R

    • 7.元数据管理

      • 均无成形标准。

    • 总结:as计维变适管,多关多关关关无

      • 存计为多,其余为关

多维数组的表示

(维1,维2,……,维n,变量)

一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。(元组)

多维数据的显示

  • 多维数据的显示只能在平面上展现出来。

  • 多维数据的分析视图

    • 平面显示多维数据,利用行、列和页面三个显示组表示。(页面,行,列,指标维)

      • 页面:商店3(商店维) 行:月份(时间维:1月,2月,3月) 列:产品(产品维:上衣,裤子,帽子) 指标维:固定成本,直接销售

多维数据分析的基本操作分别是怎么执行的?

(切片、切块、旋转、钻取)

  • 1.切片

    • 选定多维数组的一个二维子集的操作。

  • 2. 切块

    • 多维数组的某个维上选定某一区间的维成员的操作。

    • 选定多维数组的一个三维子集的操作。

  • 3. 钻取

    • 维度的细分。

    • 向上钻取(drill up )

      • 向上钻取获取概括性的数据。

      • 缩小地图:区-市-省-国

    • 向下钻取(drill down )

      • 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。

      • 放大地图:国-省-市-区

  • 4.旋转

    • 得到不同视角的数据。 相当于平面数据将坐标轴旋转。

  • 总结:片块上下转,二三概细多视角。

数据立方体

概述:实际为数据仓库结构图中的综合数据层(轻度和高度)。

多维数据集的属性分类?

  • 维属性

  • 度量属性

典型的压缩型数据立方体

  • (1)冰山立方体

    • 数据的筛选:在冰山立方体的生成计算中,仅聚集高于(或低于)某个阈值的子立方体。

  • (2)紧凑数据立方体

    • 用一条数据来代表之前表中的多条数据元组压缩如(产品,地区,时间,销售渠道,销售额)

  • (3)外壳片段立方体

  • (4)流式数据立方体

第四章 DW的决策支持

DW用户

信息查询者 (业务层面)

  • user

    • 是使用DW的主要用户。

  • 特点

    • 以一种可预测的、重发性的方式使用数据仓库平台。

  • 作用

    • 使用数据仓库能发现目前存在的问题。

  • 方法

    • 创建数据阵列

    • 预连接表格

    • 预聚集数据

    • 聚类数据

知识探索者 (分析决策)

  • user

    • 典型的DM者。

  • 特点

    • 有一个完全不可预测的、非重复性的数据使用模式。

  • 作用

    • 发现问题并找出原因。

  • 方法

    • 创建单独的探索仓库,不影响数据仓库的常规用户。

      • “标识技术”数据压缩,提高数据分析速度。

    • 使用模型帮助决策分析。

    • 采用数据挖掘工具来获取商业知识。

总结比较:

  • user

    • DW;DM

  • 特点

    • 可预测,重发性;不可预测和重复

  • 作用

    • 找到问题;问题和原因

第五章 DM原理(了解即可)

KDD

概念:从数据中发现有用知识的整个过程。

过程

  • 数据准备、DM、结果评估

数据准备的三个步骤?

数据选择,数据预处理,数据转换

DM
  • KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。

  • 按照DM任务采取不同方法

    • 聚类方法 (结果未知)

      • 在没有类别的数据中,按照”距离“远近聚集若干类别。

      • 典型方法:k均值聚类算法,统计分析方法,机器学习方法,神经网络方法等

    • 分类方法 (结果已知)

      • 对有类别的数据,找出各类别的描述知识。

      • 典型方法:ID3、C4.5、IBLE等分类算法

总结

有无类别

结果评估
  • 数据质量好坏的两个影响因素?

    • DM技术的有效性

    • 挖掘数据的质量和数量

总结:技术和数据

DM任务和分类

DM任务

  • (1)关联分析

    • 两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

  • (2)时序模式

    • 通过时间序列搜索出重复发生概率较高的模式

  • (3)聚类

    • 在没有类的数据中,按“距离”概念聚集成若干类。

    • 距离

      • 同一类别中个体之间的距离较小

      • 而不同类别上的个体之间的距离偏大

  • (4)分类

    • 在聚类的基础上,对已确定的类找出该类别的概念描述,它代表了这类数据的整体信息。

    • 类的内涵描述

      • 特征描述

        • 对类中对象的共同特征的描述。

      • 辨别性描述

        • 对两个或多个类之间的区别的描述

  • (5)偏差检测

    • 从数据分析中发现异常情况

  • (6)预测

    • 利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等

什么是聚类和分类?

决策树知识

  • ps:在其基础上考计算题 (信息熵和信息增益)

  • 决策树是一种常用的机器学习算法,用于分类和回归任务。

  • 基本概念

    • 决策树通过一系列的问题将数据分割成不同的分支,最终达到一个结论或决策。

  • 构建过程

    • 从根节点开始,选择一个特征和阈值进行分割,递归地在子节点上重复这个过程,直到满足停止条件。

  • 特征选择

    • 特征选择是决策树构建中的关键步骤,用于决定在每个节点上使用哪个特征进行分割。常见的特征选择方法包括信息增益、信息增益率和基尼不纯度。

第六章 信息论方法 (计算题)

  • 决策树方法 (了解即可)

    • 决策树是一种知识表示形式,它是对所有样本数据的高度概括。

    • 决策树,如ID3、C4.5方法,是把信息量最大的属性作为树或子树的根结点,属性的取值作为分枝。

ID3决策树

  • 结点

    • 根结点

      • 是所有样本中信息量最大的属性。

    • 中间结点

      • 是该结点为根的子树所包含的样本子集中信息量最大的属性。

    • 叶结点

      • 是样本的类别值。

信息熵和信息增益

  • 信息传递系统 (信道模型)

    • 发送端(信源)

    • 接收端(信宿)

    • 连接两者的通道(信道)

  • 概念

    • 1、信息熵 H(U) 也称为先验熵

      • 先验不确定性

        • 先验不确定性不能全部被消除,只能部分地消除

      • 接收端(信宿)不确定发送端(信源)状态。

        • 是信源输出前的平均不确定性,也称先验熵。

      • 总结

        • P(U):所有例子中的正例和反例在总例的占比

        • H(U):(-占比log占比)二者相加

    • 2、条件熵H(U/V) 也称为后验熵

      • 后验不确定性

      • 通信结束之后,信宿仍然具有一定程度的不确定性。

      • 后验不确定性总要小于先验不确定性 H(U/V)< H(U)

        • 相等,表示信宿没收到信息。

        • 后验不确定性为0,表示信宿收到全部信息。

      • 总结

        • P(V):属性某一取值在总例的占比

        • P(U/V):属性某一取值的正反例占比

        • H(U/V):(-总例占比×(属性取值占比log属性取值占比)之和)之和

    • 3、信息量用互信息来表示,也称为信息增益=先验熵-后验熵 I(U,V)=H(U)- H(U/V)

      • 信息是用来消除(随机)不确定性的度量。

      • 总结

        • 计算所有属性的互信息量I

    • 4、建决策树树根和分支

      • 树根

        • 选择互信息量I最大的特征值

      • 分支

        • 划分特征子集F

    • 5、递归建树

      • 继续求剩余特征的互信息量,找互信息量最大的一个作为分支的根结点向下分支,最后标记正反例(分类)

计算

第九章 遗传算法和计算智能 (了解)

遗传算法 (Genetic Algorithms,GA)

是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。

遗传算子

  • 选择 (Selection)

    • 依据每个染色体的适应值大小,适应值越大,被选中的概率就越大,其子孙在下一代产生的个数就越多。

    • 选择操作是建立在群体中个体的适应值评估基础上的,目前常用的选择算子有适应值比例法、最佳个体保存法、期望值方法等。

  • 交叉(重组) (Crossover)

    • 通过染色体重组来产生新一代染色体。

  • 变异 (Mutation)

    • 变异增加了遗传算法找到接近最优解的能力。

    • 变异就是以很小的概率,随机地改变字符串某个位置上的值。把某一位的内容进行变异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36208.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024最新美区TikTok选品全流程指南

打造TikTok爆款&#xff0c;3分靠运营&#xff0c;7分靠选品。 选择适合TikTok推广的商品至关重要&#xff0c;针对TikTok美区如何选品&#xff1f;怎么定价&#xff1f;SKU定多少&#xff1f; 本文总结出独家「美区TikTok选品全流程指南」方法论&#xff0c;说清楚选品最重要…

【项目一】全场景工业互联设备管理系统解决方案(PC上位机+中控+多传感器) 文章汇总

全场景工业互联设备管理系统解决方案(PC上位机中控多传感器) 配套硬件及资料 配套资料&#xff1a;https://pan.baidu.com/s/109e9Cr5nl-BWpct24Q6zOw?pwdroot 密码&#xff1a;root 交流论坛&#xff1a;https://forums.100ask.net/c/specialc/85 QQ交流群&#xff1a;865…

深入理解 XML 和 HTML 之间的区别

在现代网络技术的世界中&#xff0c;XML&#xff08;可扩展标记语言&#xff09;和 HTML&#xff08;超文本标记语言&#xff09; 是两个非常重要的技术。尽管它们都使用标签和属性的格式来描述数据&#xff0c;但它们在形式和用途上有显著的区别。 概述 什么是 XML&#xff…

告别 “屎山” 代码,务必掌握这14 个 SpringBoot 优化小妙招

插&#xff1a; AI时代&#xff0c;程序员或多或少要了解些人工智能&#xff0c;前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家(前言 – 人工智能教程 ) 坚持不懈&#xff0c;越努力越幸运&#xff0c;大家…

【论文阅读 Validation Free and Replication Robust Volume-based Data Valuation】

论文题目 免验证的对于复制鲁棒性的基于量的数据估值 1. 本文具体贡献 通过数据的体积形式化了数据多样性的度量&#xff0c;并在理论上和实证上证明了体积对数据估值的适用性&#xff1b;形式化了复制鲁棒性的概念&#xff0c;并设计了一种基于稳健体积&#xff08;RV&…

分布式服务测试各节点调用第三方服务连通性

背景&#xff1a;分布式部署 一个主节点往各个节点下发任务&#xff08;调用第三方服务&#xff09;&#xff0c;目的是为了测试各节点与第三方的连通性 思路&#xff1a; 主节点实现 创建Spring Boot项目&#xff1a;作为主节点的后端服务。 集成Eureka客户端&#xff1a;在…

Android 遥控器

遥控器源码 import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import android.graphics.Path; import android.graphics.RadialGradient; import android.graphics.Region; import android.g…

个微API二次开发

通过 E云API 可以实现 个性化微信功能 &#xff08;例&#xff1a;营销系统、云发单助手、社群管家webot、客服系统等&#xff09;&#xff0c;用来自动管理微信消息。 可开发的功能包括但不限于&#xff1a; 好友管理&#xff1a; 添加好友、删除好友、修改备注、创建标签、获…

云动态摘要 2024-06-28

给您带来云厂商的最新动态&#xff0c;最新产品资讯和最新优惠更新。 最新优惠与活动 [新客专享]WeData 限时特惠 腾讯云 2024-06-21 数据分类分级管理&#xff0c;构建数据安全屏障 &#xff0c;仅需9.9元&#xff01; 云服务器ECS试用产品续用 阿里云 2024-04-14 云服务器…

VMware虚拟机三种网络模式设置 - Host-Only(仅主机模式)

一、前言 在之前的《Bridged&#xff08;桥接模式&#xff09;》、《NAT&#xff08;网络地址转换模式&#xff09;》中&#xff0c;我详细介绍了虚拟机网络模式设置中的桥接模式与网络地址转换模式。今天详细讲解一下Host-Only&#xff08;仅主机模式&#xff09;。 在VMware虚…

Java代码基础算法练习-判断学生成绩等级-2024.06.28

任务描述&#xff1a; 输入一个学生的成绩&#xff08;成绩大于等于 0 并小于等于 100&#xff09;&#xff0c;根据成绩判断学生成绩的等级。 60 分以下不及格&#xff1b;60-70 分为及格&#xff1b;70-80 分为中等&#xff1b;80-90 分为良好&#xff1b;90 分以上为优秀。 …

版本控制工具-git分支管理

目录 前言一、git分支管理基本命令1.1 基本命令2.1 实例 二、git分支合并冲突解决三、git merge命令与git rebase命令对比 前言 本篇文章介绍git分支管理的基本命令&#xff0c;并说明如何解决git分支合并冲突&#xff0c;最后说明git merge命令与git rebase命令的区别。 一、…

Excel 宏录制与VBA编程 —— 15、MsgBox参数详解

Msgbox参数具体如下 Msgbox参数使用1 Msgbox参数使用2&#xff08;返回值示例&#xff09; &ensp ;###### 关注 笔者 - jxd

ANSYS Electronics 电磁场仿真工具下载安装,ANSYS Electronics强大的功能和灵活性

ANSYS Electronics无疑是一款在电磁场仿真领域表现卓越的软件工具。它凭借强大的功能和灵活性&#xff0c;帮助用户在产品设计阶段就能精确预测和优化电磁场性能&#xff0c;从而极大地降低了实际测试成本&#xff0c;并显著提升了产品的可靠性。 这款软件不仅在电子设计领域有…

linux中awk,sed, grep使用(待补充)

《linux私房菜》这本书中将sed和awk一同归为行的修改这一点&#xff0c;虽然对&#xff0c;但不利于实际处理问题时的思考。因为这样的话&#xff0c;当我们实际处理问题时&#xff0c;遇到比如说统计文本打印内容时&#xff0c;我们选择sed还是awk进行处理呢&#xff1f; 也因…

VS Code 配置cmake(Linux环境)

通过sudo apt install cmake在linux上安装cmake 在Vs Code中安装这两个插件 通过命令whereis cmake获取linux中cmake的路径信息 右键CMake Tools右下角齿轮标志&#xff0c;选择扩展设置&#xff08;Extension Settings&#xff09; 注意要设置的是本地&#xff0c;还是远程连接…

添加用户页面(Flask+前端+MySQL整合)

首先导入Flask库和pymysql库。Flask用于创建Web应用程序&#xff0c;pymysql用于连接和操作MySQL数据库。 from flask import Flask, render_template, request import pymysql创建一个Flask应用实例。__name__参数告诉Flask使用当前模块作为应用的名称。 app Flask(__name_…

高效管理客户的秘诀:企业如何建立稳固的客户关系

如今的竞争&#xff0c;从商业模式、产品、服务到销售环节&#xff0c;竞争已经不再是单一层面的&#xff0c;而是全方位的&#xff0c;企业需要打造全价值链竞争优势。在这个过程中&#xff0c;客户管理的作用是无可替代的&#xff0c;成为企业成功的关键因素之一。如何高效地…

基于Java的蛋糕预定系统【附源码+LW】

摘 要 当今社会进入了科技进步、经济社会快速发展的新时代。国际信息和学术交流也不断加强&#xff0c;计算机技术对经济社会发展和人民生活改善的影响也日益突出&#xff0c;人类的生存和思考方式也产生了变化。传统购物方式采取了人工的管理方法&#xff0c;但这种管理方法存…

0628_ARM4

练习&#xff1a; stm32流水灯 .text .global _start _start: 使能GPIOE外设时钟 0X50000A28 RCC_MP_AHB4ENSETR[4]->1 LDR R0,0x50000a28 指定操作的内存地址 LDR R1,[R0] 将R0对应的地址空间中的值读取出来 ORR R1,R1,#(0x3<<4) 将第4,5位设置为1 STR…