数据挖掘:数据仓库相关知识笔记

             

 

1、数据仓库介绍

数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。

传统数据库和数据仓库比较

比较内容

传统数据库

数据仓库

数据内容

当前数据

历史的、存档的、归纳的、计算的

数据目标

面向业务操作员,重复处理

面向主题、分析应用

数据特性

动态变化、按字段更新

静态、不能直接更新、只能定时添加、刷新

数据结构

高度结构化、复杂、适合操作计算

简单、适合分析

数据使用频率

数据访问量

每个事务只访问少量的记录

有的事务可能需要访问大量的记录

响应要求

以秒为单位计算

分钟、甚至小时为计算单位

2、数据仓库的基本特性

面向主题:数据仓库中数据是面向主题进行组织的,主题就是一个较高的管理层次上对信息系统中数据按照某一具体的管理对象进行归类、综合所形成的分析对象。比如企业中哪些产品畅销、竞争对手哪些产品对本企业产品构成威胁。

数据是集成的:根据决策分析的要求,将分散于各处的原始数据进行抽取、筛选、清理、综合等集成工作,数据仓库的数据具有集成性。

一般情况下数据仓库所需要的数据不需要直接从业务发生地获取数据,而是针对原数据库挑选中数据仓库所需要的数据,然后将来自不同数据库中的数据按照某一标准进行统一处理。

数据是相对稳定的:因为数据仓库的数据主要是供决策分析使用,一般主要是数据查询操作,不进行修改等操作。数据反映的是一段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,然后进行统计、综合、分组的导出数据。

数据是反映历史变化的:主要表现三个方面,数据仓库随时间变化不断增加新的数据内容,定时获取OLTP数据库中变化的数据追加到数据仓库中去;

随时间变化不断删除旧的数据内容;数据仓库中包含大量综合数据会隔一段时间进行抽样处理等。

3、数据仓库的模式

主要有星型模式、雪花模式、事实星型模式。

4、数据仓库的体系结构

底层:数据仓库服务器。一般是关系数据库系统,数据仓储服务器从操作型数据库或外部数据源提取数据对数据进行清理、转换、集成等然后装入数据仓库中。

中间层:OLAP服务器。可以实现关系型OLAP提供多维数据的支持;也可以是多维的OLAP服务器,支持多维数据存储存储和操作。

顶层:前端工具。主要包括查询、报表工具、分析工具、数据挖掘工具。

5、数据仓储模型

5.1 企业仓库

收集跨越整个企业的各个主题所有信息。提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息的提供者,并且可以跨越多个功能范围。

5.2 数据集市

包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题。

5.3 虚拟仓库

虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作型数据库服务器具有剩余的能力。

 

IT技术分享社区

个人博客网站:https://programmerblog.xyz

文章推荐程序员效率:画流程图常用的工具程序员效率:整理常用的在线笔记软件远程办公:常用的远程协助软件,你都知道吗?51单片机程序下载、ISP及串口基础知识硬件:断路器、接触器、继电器基础知识

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/271290.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python200行代码_如何用200行Python代码“换脸”

本文将介绍如何编写一个只有200行的Python脚本,为两张肖像照上人物的“换脸”。 这个过程可分为四步: 检测面部标记。 旋转、缩放和转换第二张图像,使之与第一张图像相适应。 调整第二张图像的色彩平衡,使之与第一个相匹配。 把第…

git的smart Checkout跟force checkout的区别

1:在切换分支的时候,常常会遇到下图的问题 是因为我在test分支上修改了代码,但是没有commit,切换到其他分支上就弹出了这个窗口 我们需要怎么处理呢 2:可以看到弹框底部有Force Checkout Dont checkout Smart Checkout,表示什么意思呢 Smart …

数据挖掘相关知识介绍

1、数据挖掘定义把数据库中大量数据背后隐藏的重要信息抽取出来,然后为公司创造很多潜在的利润,针对这种海量数据库中挖掘数据信息的技术称为数据挖掘(DM)。2、数据挖掘的分类按照数据库种类:关系型数据库的数据挖掘、…

c语言数字灵活多变的访问形式_学习C语言你必须知道的事儿!

是新朋友吗?记得先点蓝字关注我哦~今日课程菜单Java全栈开发 | Web前端H5大数据开发 | 大数据分析人工智能Python | 人工智能物联网有听过这样一段话:在编程界,C语言就是道家的“三”,A生B,B生C&#xff0c…

IDEA通过git怎么回滚到某个提交节点或某个版本

1:先右键点击项目,选择git,接着Show History 2:这里会显示有历史提交的版本记录,假设我要回滚到箭头处到提交,操作如下 3:右键点击,点击Copy Revision Number 在编辑器里粘贴,可以看到如下 4:右击选择项目,选择git -&…

关系数据库基础知识介绍

1、关系的相关名词介绍属性(Attribute):描述事物的若干特征称为属性。比如学号、姓名、职位、年龄等。域(Domain):针对属性的取值范围集合。比如性别取值为男、女、学号的长度为8位等。一般在关系数据模型中&#xff0…

android中xmlns:tools属性详解

第一部分 安卓开发中,在写布局代码的时候,ide可以看到布局的预览效果。 但是有些效果则必须在运行之后才能看见,比如这种情况:TextView在xml中没有设置任何字符,而是在activity中设置了text。因此为了在ide中预览效果&…

python excel库 linux_用python写一个简单的excel表格获取当时的linux系统信息

最近在学习excel表格的制作,顺便结合之前学习的内容,利用python的两个模板,分别是获取系统信息的psutil,和生成excel表格的xlsxwriter。利用这两个模板将生成一个简单的excel表格,获取当时的linux系统信息,…

mac下安装brew下载非常慢解决方法

一键解决:自动脚本(全部国内地址)(在Mac os终端中复制粘贴回车下面这句话) /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"输入y 在终端环境下,brew --version 查看brew的版本&#xf…

关系数据库模式和完整性约束相关概念

一、关系数据库模式介绍关系的描述形式:R(U,D.dom,F),简化形式:R(U)、R(A1,A2,A3...An)R:表示关系名;U组成该关系的属性名集合;D是属性的域;dom是属性向域的映像集合;F为属性间数据的依赖关系集…

分布式锁的实现方式

在进行大型网站技术架构设计以及业务实现的过程中,多少都会遇到需要使用分布式锁的情况。那么问题也就接踵而至。分布式锁zk和memcached以及redis三者都能实现,同样是分布式锁,三者的区别何在?各自适用什么场景? 一、Z…

关系数据库基础:关系代数运算知识笔记

1、关系代数运算符集合运算符:并(U)、差(-)、交(∩)、笛卡尔积()专门的关系运算符:选择(∂)、投影(π)、连接(∞)、除()算术比较符:大于(>)、大于等于(≥)、小…

POJ 1308 Is It A Tree? (并查集)

Is It A Tree?题目链接: http://acm.hust.edu.cn/vjudge/contest/123393#problem/M Description A tree is a well-known data structure that is either empty (null, void, nothing) or is a set of one or more nodes connected by directed edges between node…

Mysql分页加pagebean_Spring+MyBatis+SpringMvc+Mysql+Druid+PageHelper分页实现

我是阿福,公众号「阿福聊编程」作者,一个在后端技术路上摸盘滚打的程序员,在进阶的路上,共勉!文章已收录在 JavaSharing 中,包含Java技术文章,面试指南,资源分享。思路分析MyBatis的…

python csv使用_python CSV模块的使用

简介 CSV(comma separated values),逗号分隔值(字符分割值,字符可以不是逗号),常用的文本格式,用以存储表格数据,包括数字或者字符。kaggle就是csv格式,pytho…

数据库技术基础:查询优化相关知识笔记

1、查询优化的基本概念1.1 查询处理查询处理是指从数据库中提取数据的一系列活动。主要包括:将高级数据库查询语句翻译成文件系统这一物理 层次的表达式,为优化查询进行各种转换以及查询的实际执行。1.2 查询处理的代价查询处理的代价通常由磁盘的访问,因…

设计模式----解释器模式

一、简介 解释器模式使用频率并不高,通常用来构建一个简单语言的语法解释器,它只在一些非常特定的领域被用到,比如编译器、规则引擎、正则表达式、sql解析等。 解释器模式是行为型设计模式之一,它的原始定义为:用于定义…

HTML学习笔记16——尺寸的表示_px、%、em三种

1.像素表示: 23px 2.子像素可以用百分比表示其大小,如50%,表示为父元素的一半 如果块状子元素的宽度不指定,默认是占满父元素的宽度; 3.用em表示字体大小时,表示相对大小,是与父元素的比值&…

mysql索引是自动使用吗_mysql索引是自动使用吗?

MYSQL在创建索引后对索引的使用方式分为两种:其一,由数据库的查询优化器自动判断是否使用索引;其二,用户可在写SQL语句时强制使用索引。MYSQL在创建索引后对索引的使用方式分为两种:1 由数据库的查询优化器自动判断是否…

mac idea配置配置自动清除类中无用的import包

1:mac快捷键清包 control option o windows快捷键 Ctrl Alt O 2:打开Perferences ---> Editor --->Auto Imort 在下图选中方方框中勾上