数据仓库作业一:第1章 绪论

目录

    • 一、给出下列英文短语或缩写的中文名称,并简述其含义。
    • 二、简述操作型数据与分析型数据的主要区别。
    • 三、简述数据仓库的定义。
    • 四、简述数据仓库的特征。
    • 五、简述主题的定义。
    • 六、简述元数据的概念。
    • 七、简述数据挖掘的主要任务。
    • 八、简述数据挖掘的主要步骤。
    • 九、下列活动是否属于数据挖掘任务,并简述其理由。
    • 十、简述数据仓库与数据挖掘的区别。

一、给出下列英文短语或缩写的中文名称,并简述其含义。

1、DataBase(DB)

数据库(DataBase,DB):是长期存储在计算机内的、有组织的、可共享的数据集合。具有较小的冗余度、较高的数据独立性和易扩展性,并为用户共享。

2、On-Line Transaction Processing(OLTP)

联机事务处理(On-Line Transaction Processing,OLTP):指一种信息处理方式,用于处理日常业务事务。对传统数据库进行联机的日常操作,因此称为操作性处理。

3、Decision Support System(DSS)

决策支持系统(Decision Support System,DSS):对数据进行分析处理任务的计算机系统,提供管理者决策支持。

4、Systems Development Life Cycle(SDLC)

系统开发生命周期(Systems Development Life Cycle,SDLC):指支持日常事务操作事务处理需求驱动符合系统开发生命周期,即操作型系统遵循 “需求调查、需求分析、设计&编程、系统测试、系统集成、系统实施” 的系统开发生命周期。

5、Extract-Transform-Load(ETL)

抽取-转换-加载(Extract-Transform-Load,ETL):对数据源数据进行抽取、清理、转换和加载到DW的过程。

6、Data Warehouse(DW)

数据仓库(Data Warehouse,DW):是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。

7、Data Warehouse Management System(DWMS)

数据仓库管理系统(Data Warehouse Management System,DWMS):是位于用户与操作系统(OS)之间的一层数据分析管理软件,负责对数据仓库数据进行统一更新、管理和使用控制,为用户和应用程序提供访问数据仓库的方法或接口软件的集合。

8、Data Warehouse System(DWS)

数据仓库系统(Data Warehouse System,DWS):是计算机系统、DW、DWMS、应用软件、数据库管理员和用户的集合。

9、Knowledge Discovery in database(KDD)

数据库中的知识发现(Knowledge Discovery in database,KDD):指采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有用乃至最终可理解的模式的非平凡过程。

10、Data Mining(DM)

数据挖掘(Data Mining,DM):是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

11、On-Line Analytic Processing(OLAP)

在线分析处理(On-Line Analytic Processing,OLAP):指一种用于分析数据的技术和工具,它允许用户从不同的角度、多个维度对数据进行分析、查询和报表生成。

二、简述操作型数据与分析型数据的主要区别。

  从用途角度来看,操作型数据主要用于支持组织的日常业务活动和实时决策,通常用于记录、更新和管理组织的运作;分析型数据主要用于支持决策制定、趋势分析、预测和发现潜在的商业见解,可以帮助组织了解业务表现和规划未来方向。
  从处理方式角度来看,操作型数据以快速、实时的方式进行处理,通常存储在关系型数据库或类似的数据存储系统中,以便实时访问和更新;分析型数据通常以批处理或实时流式处理的方式进行,主要用于数据挖掘、机器学习、统计分析等用途。
  在特点方面,操作性数据的数据量较小,数据更新频繁,主要用于支持实时的业务流程和交易处理;分析型数据的数据量较大,数据处理过程可能需要复杂的算法和技术支持,主要用于深入分析和挖掘数据背后的信息。
  总的来说,操作型数据主要用于支持日常业务活动的实时处理,而分析型数据则用于深入分析和挖掘数据背后的信息,帮助组织做出更明智的决策。操作型数据强调实时性和快速访问,而分析型数据注重深度分析和发现隐藏在数据中的价值。

三、简述数据仓库的定义。

  数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。因此可以说,数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题、集成、不可修改和随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理。
  数据仓库的建设需要进行一系列的过程,包括需求分析、数据建模、ETL (Extract-Transform-Load)处理、数据存储和管理、数据挖掘和分析等。通过数据仓库,企业可以获得准确、全面、一致和实时的数据,以支持企业的决策和管理需求。同时,数据仓库还可以帮助企业发现数据中潜在的模式、规律和趋势,以指导企业的发展和优化决策。

四、简述数据仓库的特征。

1、数据仓库的数据是面向主题的

  主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。

2、数据仓库的数据是集成的

  根据决策分析的主题需要,把多个异种数据源中的数据收集起来形成一个统一并且一致的数据集合的过程。

3、数据仓库的数据是不可修改的

  数据仓库的数据都是从事务处理数据源抽取过来的历史数据,因而是不可以修改的,且基于数据仓库的决策分析只有读操作而没有修改操作。

4、数据仓库的数据是随时间变化的

  主要体现在以下3方面:数据仓库随时间变化不断增加新的数据内容;数据仓库随时间变化不断删去旧的数据内容;数据仓库中包含有大量的综合数据,且随着时间要求的变化而不断变化。

五、简述主题的定义。

  主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。
  从信息管理的角度看,主题是在一个较高管理层次上对数据库系统中数据,按照具体的管理要求重新综合、归类的分析对象。从数据组织的角度看,主题就是一个数据集合,这些数据对分析对象进行了比较完整、一致的描述,不仅描述了数据自身,还描述了数据之间的关系。

六、简述元数据的概念。

  元数据是描述数据的数据,它提供关于数据的信息,帮助组织理解、管理和有效利用其数据资源。换句话说,元数据是对数据进行描述、定义和解释的数据。元数据通常包括以下几个方面的信息:

  • 数据结构:描述数据的逻辑结构、字段名称、数据类型、长度等信息。
  • 数据来源:记录数据的来源、采集方式、生产时间等信息。
  • 数据质量:包括数据的准确性、完整性、一致性等质量指标。
  • 数据关系:描述数据之间的关联、依赖关系以及数据流向。
  • 数据用途:记录数据的业务含义、用途、访问权限等信息。
  • 数据变更历史:记录数据的修改、更新历史,包括谁、何时、为什么做出了数据变更。

七、简述数据挖掘的主要任务。

1、分类分析(Classification Analysis)

  通过分析已知类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules);然后用这个分类模型或规则对样本集合以外的记录进行分类。

2、聚类分析(Clustering Analysis)

  根据给定的某种相似性度量标准,将没有类别标记的数据库记录集划分成若干个不相交的子集(簇),使簇内的记录之间相似度很高,而不同簇的记录之间相似度很低。聚类分析可以帮助我们判断,数据库中记录划分成什么样的簇更有实际意义,在客户细分、定向营销、信息检索等领域广泛应用。

3、关联分析(Association Analysis)

  关联分析最初是针对购物篮分析问题而提出的,其目的是发现交易数据库中商品之间的相互联系的规则,即关联规则(Association rules)。关联分析主要用于市场营销、事务分析等领域。

4、序列模式(Sequential Patterns)

  数据间的前后序列关系,包括相似模式发现、周期模式发现等,主要应用于客户购买行为模式预测、疾病诊断、防灾救灾、Web访问模式预测和网络入侵检测等领域。

5、离群点检测(Outlier detection)

  离群点(Outlier)是一个数据集中过分偏离其它绝大部分数据的特殊数据。离群点检测就是希望从数据集中发现这种与众不同的数据,已在银行、保险、电信、电子商务等行业的欺诈行为检测中得到广泛应用,比如银行的反洗钱检测系统,互联网的入侵检测系统等。

八、简述数据挖掘的主要步骤。

1、问题定义

  弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务。

2、数据准备

  数据抽取,从各种可用数据源中抽取与挖掘任务相关的数据。预处理,包括消除噪声、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等。数据存储,即把经过预处理的数据,按照数据挖掘任务和挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象。

3、挖掘实施

  选定数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示。

4、评估解释

  挖掘人员、企业高管和领域专家,对发现的知识或模式进行评估,剔除冗余或无关的模式,并对余下的知识或模式进行解释,发现并理解其中有实际应用价值的知识。如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始。

5、知识应用

  将经过评估解释,且被用户理解的知识,用于商业决策。

九、下列活动是否属于数据挖掘任务,并简述其理由。

1、根据性别划分超市的顾客。

  不属于教据挖掘任务。根据性别划分顾客是一种简单的数据分类,它不涉及对数据进行深入分析或模式识别。可以通过简单的统计方法,如计数和百分比,来获得这些信息。

2、根据可赢性划分超市的顾客。

  属于数据挖掘任务。可赢利性是一个复杂的概念,涉及多个因素,如收入、消费习惯、购买频率等。根据“可赢性”(即顾客的购买潜力或利润贡献)来划分顾客需要对数据进行分析和模式识别,可以使用聚类、分类等数据挖掘技术来实现。通过挖掘大量的顾客数据,可以识别出那些具有高可赢利性的顾客,并制定相应的营销策略。

3、预测投一对骰子的结果。

  不属于数据挖掘任务。因为骰子投掷的结果是基于随机的概率事件,而不是基于数据分析或模式识别。

4、使用历史记录预测某超市股票明天的价格。

  属于数据挖掘任务。通过分析历史股票价格数据,可以运用时间序列分析、回归分析等数据挖掘技术来预测未来股票价格走势,这涉及对数据的深入分析和模式识别。

十、简述数据仓库与数据挖掘的区别。

  数据仓库是一个用于集成、存储和管理大量数据的系统,旨在支持企业的决策制定和分析需求。通常用于存储结构化数据,经过清洗、整合和转换后的数据以便进行查询和分析。数据仓库的主要功能包括数据的抽取、转换、加载(ETL)、数据存储、数据管理和提供报表等功能。数据仓库的目的是为了提供高效的数据访问和查询,帮助用户进行各种分析和报告工作。
  数据挖掘是从大量数据中发现隐藏的模式、关系和信息的过程,旨在提取对业务有用的知识和见解。数据挖掘技术包括聚类、分类、关联规则挖掘、异常检测等方法,可以帮助发现数据中的潜在模式。通常应用于数据仓库中的数据,通过分析数据挖掘结果来实现更深入的业务理解和决策支持。数据挖掘的目的是发现数据中的价值和趋势,帮助企业做出更明智的决策和预测未来的走向。
  总的来说,数据仓库主要用于数据的存储、管理和查询,而数据挖掘则是在数据仓库中进行的一种分析过程,旨在发现数据中隐藏的信息和规律。数据仓库是数据挖掘的数据来源和支撑,二者共同为企业提供数据驱动的决策支持和业务洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/732261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu22.01安装及配置

前言 本次安装基于VMware Pro 16进行安装。 ubuntu版本:ubuntu-22.04.3-live-server-amd64.iso 1、下载 1.1官网下载 https://ubuntu.com/download 1.2、清华大学镜像网站下载 https://mirrors.tuna.tsinghua.edu.cn/ 进入网站后搜索ubuntu,选择ubu…

Claude3超大杯发布,将取代ChatGPT4?

演示站点: https://ai.uaai.cn 创作模块 (Claude3已接入,欢迎体验)官方论坛: www.jingyuai.com 前言 今天【超越GPT-4 接近人类水平!Claude 3系列大模型惊艳问世】登上了全网热搜,那么【超…

微信小程序实现上拉加载更多

一、前情提要 微信小程序中实现上拉加载更多,其实就是pc端项目的分页。使用的是scroll-view,scroll-view详情在微信开发文档/开发/组件/视图容器中。每次上拉,就是在原有数据基础上,拼接/合并上本次上拉请求得到的数据。这里采用…

电动机工作原理图

电机(俗称“马达”)是指依据电磁感应定律实现电能转换或传递的一种电磁装置。它的主要作用是产生驱动转矩,作为用电器或各种机械的动力源。 电动机,转子置于旋转磁场中,在旋转磁场的作用下,获得一个转动力…

SSRF漏洞基础原理(浅层面解释 + 靶场演示)

一、SSRF漏洞的基本概念: SSRF--全名:Server-Side Request Forgery,汉译:服务端请求伪造,漏洞别名“借刀杀人”。 想象以下,现存在一个 Web应用,这个Web应用可以帮助我们能爬取互联网上的其他…

好的软件测试人员简历是什么样子的?

简历是入职职场的一张名片,也是进入职场一块“敲门砖”。从某种角度说,简历也是一张专业人员的说明书。 软件测试人员作为IT行业具有技术含量的职业,一份优秀的简历包含的内容以及如何写好简历尤为重要。接下来从以下两方面来介绍这个话题&a…

蓝桥杯算法错题记录

这里写目录标题 本文还在跟新,最新更新时间24/3/91. nextInt () next() nextLine() 的注意事项2 . 转换数据类型int ,string,charint -> string , charstring -> int ,charchar -> int , string 进制转换十六进制转化为10 进制 最大公约数 本文还在跟新&am…

都2024年了你还手动修改文件名?建筑设计行业的福音之Python自动化之按照图纸目录批量对pdf文件重命名

概述 在建筑设计行业里,各个专业的图纸交付有两种,一种是纸质的蓝图,一种是电子版图纸,电子版的图纸一般以PDF格式交付。而近年来随着各个地方开始推广各地的勘察设计行业设计施工图审查平台,要求所有的图纸都要上传PDF格式的图纸,每张图纸一个pdf文件,每个pdf的…

cannot import name ‘Flask‘ from partially initialized module ‘flask‘

bug: ImportError: cannot import name Flask from partially initialized module flask (most likely due to a circular import) (G:\pythonProject6\flask.py) 这个是因为包的名字和文件的名字一样 修改文件名: 结果 🤣🤣&…

preg_replace漏洞e模式函数执行

关于PHP函数preg_replace \e 模式函数执行漏洞 preg_replace: ​ 该函数执行一个正则表达式的搜索和替换。 ​ 语法: mixed preg_replace ( mixed $pattern , mixed $replacement , mixed $subject [, int $limit -1 [, int &$count ]] )​ 搜索…

“删边“的并查集------反向并查集

目录 1.题目2.思路3.代码 默认大家都会并查集了 1.题目 小美认为,在人际交往中,但是随着时间的流逝,朋友的关系也是会慢慢变淡的,最终朋友关系就淡忘了。 现在初始有一些朋友关系,存在一些事件会导致两个人淡忘了他们…

如何系统地去学python

学习Python是一个非常有用的技能,无论您是想成为一名软件工程师、数据科学家还是想自动化日常任务,Python都是一个非常强大且流行的编程语言。但是,对于初学者来说,学习Python可能会感到有些困难和混乱。因此,本文将分…

Offer必备算法12_链表_五道力扣题详解(由易到难)

目录 ①力扣2. 两数相加 解析代码 ②力扣24. 两两交换链表中的节点 解析代码 ③力扣143. 重排链表 解析代码 ④力扣23. 合并 K 个升序链表 解析代码1(小根堆优化) 解析代码2(递归_归并) ⑤力扣25. K 个一组翻转链表 解…

MongoDB开启事务

MongoDB开启事务 配置单节点。到路径C:\Program Files\MongoDB\Server\4.0\bin 使用记事本以管理员权限打开文件mongod.cfg添加如下配置: replication:replSetName: rs02. 重启MongoDB服务 3. 重启后执行命令 rs.initiate()

使用`pyautogui`和`tkinter` 获取鼠标光标的位置

这段代码是一个简单的Python程序,使用pyautogui和tkinter库创建了一个窗口应用程序,用于获取鼠标光标的位置。 让我们逐行解释代码的功能: 1. #!/usr/bin/python3:这是一个Shebang行,用于指定脚本使用的解释器。 2.…

【蓝牙协议栈】【经典蓝牙】【BLE蓝牙】蓝牙协议规范(射频、基带链路控制、链路管理)

目录 1. 蓝牙协议规范(射频、基带链路控制、链路管理) 1.1 射频协议 1.2 基带与链路控制协议 1.3 链路管理器 1. 蓝牙协议规范(射频、基带链路控制、链路管理) 蓝牙协议是蓝牙设备间交换信息所应该遵守的规则。与开放系…

wifi连接上后是怎么提供网络的?

干了六个月的网络协议栈,又回到了wifi老本行,所以我最近又开始研读 Android wifi fwk的源码了 之前还在干wifi的时候就思考过一个问题,wifi区别于蓝牙的一个很明显的点是,wifi可以提供 access to Internet 所以我想看看wifi连接成…

vue2 div滚动条下拉到底部时触发事件(懒加载) 超级简易版本的懒加载

文章目录 导文文章重点内容效果展示:代码展示这些方法适用于哪些场景 总结 导文 vue2 div滚动条下拉到底部时触发事件(懒加载) 超级简易版本的懒加载 文章重点 内容效果展示: 当div拉到底部的时候: 编辑器返回: 代码展示 在…

substr函数踩坑

##hive和impala的substr函数比对 ###在hive中substr函数使用 select substr(name,0,5) from bd_test; 结果:12345 select substr(name,1,5) from bd_test; 结果:12345 ###impala中substr函数使用 select substr(name,0,5) from bd_test; 结果&#xff…

JAVA后端开发面试基础知识(十)——设计模式

创建型模式 创建型模式的作用就是创建对象,说到创建一个对象,最熟悉的就是 new 一个对象,然后 set 相关属性。但是,在很多场景下,我们需要给客户端提供更加友好的创建对象的方式,尤其是那种我们定义了类&am…