大数据技术与应用——数据可视化(山东省大数据职称考试)

  大数据分析应用-初级

第一部分 基础知识

       一、大数据法律法规、政策文件、相关标准

       二、计算机基础知识

       三、信息化基础知识

       四、密码学

       五、大数据安全

       六、数据库系统

       七、数据仓库.

第二部分 专业知识

       一、大数据技术与应用

       二、大数据分析模型

       三、数据科学


数据可视化

  • 大数据分析应用-初级
  • 前言
  • 一、BI(Business Intelligence)的概念及应用
  • 二、常见可视化图形的概念
  • 练习题目


前言

数据可视化

1、了解BI(Business Intelligence)的概念及应用。

2、了解常见可视化图形(散点图、折线图、饼图、环图、柱状图)的概念,具有初步的可视化图形展示数据的能力。


一、BI(Business Intelligence)的概念及应用

一、概念

定义

  • 商业智能(Business Intelligence,简称 BI)是一套完整的解决方案,用于将企业中现有的数据进行有效的整合、提取、分析和展示。它帮助企业的管理者和决策者通过数据洞察企业的运营状况、发现问题、识别机会,从而做出更明智的业务决策。
  • 从技术角度讲,BI 涵盖了数据仓库(Data Warehouse)、联机分析处理(OLAP - On - Line Analytical Processing)、数据挖掘(Data Mining)和报表工具(Reporting Tools)等多种技术。数据仓库是存储大量结构化数据的系统,为后续的分析提供数据基础。OLAP 允许用户从多个维度对数据进行快速分析,例如按时间、地域、产品类别等维度分析销售数据。数据挖掘则侧重于发现数据中的潜在模式和关系,如通过关联规则挖掘发现购买某种产品的客户同时也可能购买其他相关产品。报表工具用于以直观的图表和表格形式展示分析结果。

数据处理流程

  • 数据收集:从各种数据源(如企业资源规划系统 ERP、客户关系管理系统 CRM、数据库、文件系统等)获取数据。这些数据源可能包含结构化数据(如数据库中的表格数据)、半结构化数据(如 XML 或 JSON 格式的数据)和非结构化数据(如文本文件、图像等,不过在传统 BI 中主要关注结构化数据)。
  • 数据清洗:对收集到的数据进行预处理,包括处理缺失值(如用均值、中位数或其他合适的方法填充缺失的数值)、纠正错误数据(如将错误的日期格式更正)、去除重复数据等操作,以提高数据质量。
  • 数据转换:将数据转换为适合分析的形式。例如,将数据标准化,使不同范围的数值能够在同一尺度上进行比较;或者对数据进行编码,将分类数据转换为数字形式以便于计算机处理。
  • 数据分析:这是核心步骤,运用统计分析、数据挖掘等方法对数据进行处理。例如,计算销售数据的平均值、中位数、标准差等统计指标,或者通过聚类分析将客户分为不同的群体,以便进行针对性的营销。
  • 数据可视化与报告:将分析结果以直观的图表(如柱状图、折线图、饼图等)、图形(如地图、流程图等)和报告的形式展示出来,使决策者能够快速理解数据含义。

二、BI的应用

BI可以应用于各个行业和领域,包括但不限于:

  • 金融行业:客户行为分析、风险管理等。通过BI,金融机构可以更好地了解客户需求,优化产品和服务,同时降低风险。
  • 零售业:销售数据分析、库存管理等。BI可以帮助零售商追踪销售数据,分析市场趋势,优化库存管理,降低成本。
  • 医疗保健:患者数据分析、资源配置等。通过BI,医疗机构可以更好地了解患者需求,优化资源配置,提高服务质量。
  • 制造业:生产流程优化、质量控制等。BI可以帮助制造商优化生产流程,提高产品质量,降低成本。
  • 销售和市场营销:BI可以追踪销售数据、分析市场趋势、评估市场份额和竞争对手活动,帮助企业制定有效的销售策略。
  • 供应链管理:BI可以监控供应链运作情况,优化库存管理,降低成本并提高效率。
  • 客户关系管理:BI可以帮助企业了解顾客需求、分析顾客行为和偏好,提供个性化的产品和服务。
  • 财务管理:BI可以对企业财务数据进行分析和预测,帮助企业管理风险、优化财务决策。
  • 人力资源管理:BI可以分析员工数据、评估绩效和满意度,帮助企业招聘、培训和留住人才。

二、常见可视化图形的概念

散点图(Scatter Plot)

  • 概念:散点图是一种用笛卡尔坐标系展示两个变量之间关系的图形。它将数据集中的每个数据点以坐标(x,y)的形式绘制在平面上,其中 x 轴和 y 轴分别代表两个不同的变量。通过观察这些点的分布情况,可以直观地发现变量之间是否存在某种关联,如正相关(点的分布呈现从左下角到右上角的趋势)、负相关(从左上角到右下角的趋势)或者没有明显的相关性(点的分布比较杂乱)。
  • 应用场景示例:假设研究学生的学习时间和考试成绩之间的关系。将学习时间作为 x 轴变量,考试成绩作为 y 轴变量,每个学生的数据点(学习时间,考试成绩)就构成了散点图。如果大部分点呈现从左下角到右上角的趋势,就可以初步判断学习时间和考试成绩可能存在正相关关系,即学习时间越长,考试成绩越高。
  • 制作要点
    • 确定 x 轴和 y 轴所代表的变量,要确保变量的选择有实际意义,能够体现出想要探究的关系。
    • 适当调整坐标轴的刻度范围,以完整地展示数据点的分布情况,避免数据点过于集中在某个区域或者超出坐标轴范围。

折线图(Line Chart)

  • 概念:折线图主要用于展示数据随时间或其他连续变量的变化趋势。它通过将一系列数据点按照顺序用直线连接起来,清晰地反映出数据的增减变化情况。折线图中的横轴通常代表时间或其他连续的序列,纵轴代表相应的数据值。
  • 应用场景示例:在股票市场中,用折线图来展示某只股票在一段时间内(如一个月、一年)的价格走势。横轴是日期,纵轴是股票价格。通过折线的上升和下降,可以很直观地看到股票价格的波动情况,投资者可以据此分析股票的走势,如上涨趋势、下跌趋势或者盘整阶段。
  • 制作要点
    • 数据点的顺序要按照时间或连续变量的顺序排列,这样连接起来的折线才能正确地反映变化趋势。
    • 为了更清晰地展示趋势,可以添加趋势线(如线性趋势线、多项式趋势线等),并且标注出关键的数据点(如最大值、最小值、转折点等)。

饼图(Pie Chart)

  • 概念:饼图是用于展示各部分占总体比例关系的圆形统计图表。整个圆代表总体,各个扇形的大小表示相应部分占总体的百分比。饼图能够直观地呈现出各部分之间的相对大小关系。
  • 应用场景示例:分析一家公司的业务收入来源结构。假设公司有产品 A、产品 B 和服务 C 三种主要业务,将公司的总收入看作一个整体(即 100%),分别计算产品 A、产品 B 和服务 C 的收入占总收入的百分比,然后用饼图展示。通过扇形的大小,可以快速看出哪种业务收入占比最大,哪种业务占比最小。
  • 制作要点
    • 一般情况下,饼图的部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分。
    • 要按照一定的顺序(如从大到小等)排列扇形,并且标注出每个扇形所代表的类别名称和占比数值,最好还能加上不同的颜色或图案来增强区分度。

环图(Doughnut Chart)

  • 概念:环图可以看作是中间有一个空洞的饼图。它和饼图类似,也是用于展示各部分占总体的比例关系。不过,环图可以在中间的空洞部分添加其他信息,如总数值、另一个相关的指标等,并且可以通过嵌套环来展示更复杂的层次结构。
  • 应用场景示例:在市场调研中,调查消费者对不同品牌手机的偏好情况。用外环表示不同品牌手机的市场占有率,在内环的空洞部分可以显示总的调查人数或者手机市场的总规模。如果要进一步细分品牌手机的不同型号的市场占有率,还可以通过嵌套的内层环来展示。
  • 制作要点
    • 与饼图类似,部分数量过多会使图形复杂。对于嵌套环图,要注意合理安排各层环所代表的内容,并且确保每层环的比例计算正确,颜色搭配要清晰,便于区分不同的层次。

柱状图(Bar Chart)

  • 概念:柱状图是一种以长方形的长度为变量来展示数据的统计图。它通常用于比较不同类别之间的数据大小。柱状图的横轴代表不同的类别,纵轴代表数据的数值大小,每个类别对应的数值用一个垂直的柱子来表示,柱子的高度与该类别数据的大小成正比。
  • 应用场景示例:比较不同城市的人口数量。将城市名称作为横轴的类别,人口数量作为纵轴的数据。每个城市对应的柱子高度就反映了该城市的人口数量,通过柱子的高低对比,可以很容易地看出哪个城市人口最多,哪个城市人口最少。
  • 制作要点
    • 柱子之间要保持适当的间隔,以便区分不同的类别。间隔过窄会使图形显得拥挤,间隔过宽可能会影响视觉上的比较效果。
    • 可以添加数据标签在柱子上,直接显示每个类别对应的数值,并且根据需要可以对柱子进行颜色填充或图案装饰,增强视觉吸引力。同时,要注意纵轴刻度的起始值,避免因为刻度设置不当而造成数据对比的误导。


练习题目

单选题

(1)以下哪项不是 BI 的核心技术?( )

A. 数据仓库

B. 机器学习算法(如深度学习)

C. 联机分析处理(OLAP)

D. 报表工具

答案:B

解析:BI 主要涵盖数据仓库、联机分析处理(OLAP)和报表工具等技术。数据仓库用于存储数据,OLAP 用于多角度分析数据,报表工具用于展示结果。机器学习算法(如深度学习)虽然在数据分析中有应用,但不是 BI 的核心技术,BI 更侧重于传统的数据处理和分析方式来支持商业决策。

(2)BI 在企业中的主要作用是( )

A. 代替人工进行数据分析

B. 存储海量数据

C. 帮助管理者做出更明智的决策

D. 进行数据加密

答案:C

解析:BI 的主要目的是整合、分析企业数据,通过数据洞察来帮助企业的管理者和决策者发现问题、识别机会,从而做出更明智的业务决策。它不是完全代替人工分析,数据存储主要是数据仓库的功能,数据加密不是其主要作用。

(3)要展示一个班级学生的身高分布情况,最合适的图形是( )

A. 折线图

B. 饼图

C. 柱状图

D. 散点图

答案:C

解析:柱状图适合用于比较不同类别(这里是不同身高区间)之间的数据大小。可以将身高区间作为横轴,每个区间内的学生人数作为纵轴,通过柱子的高度直观地比较各身高区间的人数多少。折线图主要用于展示变化趋势,饼图用于展示比例关系,散点图用于展示两个变量之间的关系,都不适合展示身高分布情况。

(4)如果想观察某产品的市场份额随时间的变化情况,应该选择( )

A. 环图

B. 折线图

C. 散点图

D. 柱状图

答案:B

解析:折线图用于展示数据随时间或其他连续变量的变化趋势。在这里,将时间作为横轴,产品的市场份额作为纵轴,通过折线的变化可以清晰地看到市场份额随时间的增减情况。环图主要用于展示比例关系,散点图用于展示两个变量的关系,柱状图主要用于比较不同类别之间的数据大小,不符合要求。

多选题

(1)BI 的数据处理流程包括以下哪些步骤?( )

A. 数据收集

B. 数据清洗

C. 数据转换

D. 数据分析

E. 数据可视化与报告

答案:ABCDE

解析:BI 的数据处理流程是一个完整的体系。首先要从各种数据源收集数据,然后对收集的数据进行清洗,去除错误和不完整的数据。接着进行数据转换,使其适合分析。之后进行数据分析,挖掘有价值的信息。最后通过数据可视化与报告的方式将分析结果展示出来。

(2)BI 可以应用于以下哪些企业领域?( )

A. 销售与市场营销

B. 财务管理

C. 供应链管理

D. 人力资源管理

答案:ABCD

解析:在销售与市场营销领域,可用于销售分析、客户分析和营销活动评估等;在财务管理领域,可用于财务报表分析、预算与成本控制、财务风险管理;在供应链管理领域,用于库存管理、供应商管理和物流配送管理等;在人力资源管理领域,可用于员工绩效分析、人力资源规划等。

(3)以下哪些图形可以用于展示数据的比例关系?( )

A. 饼图

B. 环图

C. 柱状图

D. 散点图

答案:AB

解析:饼图是专门用于展示各部分占总体比例关系的图形,整个圆代表总体,各个扇形表示各部分占比。环图和饼图类似,也用于展示各部分占总体的比例关系,还可以在中间添加其他信息。柱状图主要用于比较不同类别之间的数据大小,散点图用于展示两个变量之间的关系,它们一般不用于展示比例关系。

(4)散点图可以帮助我们发现( )

A. 变量之间的正相关关系

B. 变量之间的负相关关系

C. 变量之间的因果关系

D. 变量之间没有明显相关性

答案:ABD

解析:通过观察散点图中点的分布情况,可以直观地发现变量之间是否存在正相关(点从左下角到右上角分布)、负相关(点从左上角到右下角分布)或者没有明显的相关性(点分布杂乱)。但是散点图本身不能确定变量之间的因果关系,因果关系需要通过更深入的实验或分析来确定。

判断题

(1)BI 主要关注非结构化数据。( )

答案:错误

解析:传统的 BI 主要关注结构化数据,如数据库中的表格数据,尽管现在也在逐渐融合半结构化和非结构化数据处理技术,但结构化数据仍然是其重点关注的对象,因为结构化数据更易于按照既定的规则进行处理和分析。

(2)数据仓库是 BI 的一个组成部分。( )

答案:正确

解析:数据仓库是 BI 的重要组成部分,它为后续的数据分析提供了数据存储的基础,将企业中各个数据源的数据整合到一个数据仓库中,方便进行统一的管理和分析。

(3)在制作饼图时,部分数量越多越好。( )

答案:错误

解析:在制作饼图时,一般部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分,这样才能直观地展示各部分占总体的比例关系。

(4)折线图的横轴必须是时间。( )

答案:错误

解析:折线图的横轴通常是时间或其他连续变量。它主要用于展示数据随时间或连续变量的变化趋势,但不局限于时间,例如可以是产品的编号(如果产品编号有顺序意义)等连续的序列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/64387.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++移动语义与完美转发】左值右值,引用,引用折叠,移动语义,万能引用与完美转发

前言 nav2系列教材,yolov11部署,系统迁移教程我会放到年后一起更新,最近年末手头事情多,还请大家多多谅解。本期是一个鸽了半年的教程,很早以前我就一直想写一篇文章有关C的移动语义,一直拖到现在(),那么今…

暂停一下,给Next.js项目配置一下ESLint(Next+tailwind项目)

前提 之前开自己的GitHub项目,想着不是团队项目,偷懒没有配置eslint,后面发现还是不行。eslint的存在可以帮助我们规范代码格式,同时 ctrl s保存立即调整代码格式是真的很爽。 除此之外,团队使用eslint也是好处颇多…

Hadoop学习笔记(包括hadoop3.4.0集群安装)(黑马)

Hadoop学习笔记 0-前置章节-环境准备 0.1 环境介绍 配置环境:hadoop-3.4.0,jdk-8u171-linux-x64 0.2 VMware准备Linux虚拟机 0.2.1主机名、IP、SSH免密登录 1.配置固定IP地址(root权限) 开启master,修改主机名为…

扩展SpringBoot中的SpringMVC的默认配置

SpringBoot默认已经给我们做了很多SpringMVC的配置,哪些配置? 视图解析器ViewResolver静态资料的目录默认首页index.html图标名字和图标所在目录,favicon.ico类型转换器Converter,格式转换器的Formatter消息转换器HttpMessageCon…

企业内训|阅读行业产品运营实战训练营-某运营商数字娱乐公司

近日,TsingtaoAI公司为某运营商旗下数字娱乐公司组织的“阅读行业产品运营实战训练营”在杭州落下帷幕。此次训练营由TsingtaoAI资深互联网产品专家程靖主持。该公司的业务骨干——来自内容、市场、业务、产品与技术等跨部门核心岗位、拥有8-10年实战经验的中坚力量…

Android Room 数据库使用详解

一、Room介绍 Android Room 是 Google 提供的一个 Android 数据持久化库,是 Android Jetpack 组成部分之一。它提供了一个抽象层,使得 SQLite 数据库的使用更为便捷。通过 Room,开发者可以轻松地操作数据库,不需要直接编写繁琐的…

IS-IS协议

IS-IS协议介绍 IS-IS(Intermediate System to Intermediate System)协议是一种链路状态的内部网关协议(IGP),用于在同一个自治系统(Autonomous System, AS)内部的路由器之间交换路由信息。IS-I…

QoS分类和标记

https://zhuanlan.zhihu.com/p/160937314 1111111 分类和标记是识别每个数据包优先级的过程。 这是QoS控制的第一步,应在源主机附近完成。 分组通常通过其分组报头来分类。下图指定的规则仔细检查了数据包头 : 下表列出了分类标准: 普通二…

电机控制杂谈(23)——共模电压与轴电流

1.共模电压与轴电流的关系和危害 对于电压源换流器,由于功率半导体器件的快速开关和PWM调制方案,将在电机定子绕组的中性点(N)和接地点(O)之间产生高频共模电压(Common-mode voltage&#xff0…

FPGA设计-使用 lspci 和 setpci 调试xilinx的PCIe 问题

目录 简介 lspci lspci-TV lspci-vvv 注意事项 lspci -vs lspci -vvvs 设置pci 识别setpci中的寄存器 setpci -s 00:01.0 d0.b42 简介 lspci 和 setpci 命令在 Linux 发行版中本身可用。该命令具有各种级别的输出,并提供非常有用的时间点查看 PCI 总线…

vue+node+mysql8.0,详细步骤及报错解决方案

1.下载需要安装的插件 下载express npm install express下载cors,用于处理接口跨域问题 npm install cors下载mysql npm install mysql 2.配置服务器 可以在vue项目的src同级创建server文件夹(这里的位置可随意选择) 然后依次创建&#…

并发修改导致MVCC脏写问题

并发修改导致MVCC脏写问题 一、概要 1.1 业务场景 数据库表结构设计: 一个主档数据,通过一个字段,逗号分隔的方式去关联其他明细信息的id。 如主档数据A,有3条明细数据与A关联,其id分别是1,2,3,那么其存…

SSE(Server-Sent Events)主动推送消息

说明 使用Java开发web应用,大多数时候我们提供的接口返回数据都是一次性完整返回。有些时候,我们也需要提供流式接口持续写出数据,以下提供一种简单的方式。 SSE(Server-Sent Events) SSE 是一种允许服务器单向发送事…

Java四大内部类之局部内部类、匿名内部类

目录 一、局部内部类 二、匿名内部类 基于接口的匿名内部类 基于类的匿名内部类 三、匿名内部类的实践 类的五大成员:属性、方法、构造器、代码块、内部类 内部类的分类 定义在外部类局部位置上(比如说方法内): 局部内部类&…

请求go web后端接口 java安卓端播放视频

前端代码 添加gradle依赖 implementation com.squareup.retrofit2:retrofit:2.9.0 implementation com.squareup.retrofit2:converter-gson:2.9.0 添加访问网络权限 <uses-permission android:name"android.permission.INTERNET" />允许http 请求请求 andro…

ARMS 用户体验监控正式发布原生鸿蒙应用 SDK

作者&#xff1a;羿莉 背景 对企业数据进行敏感数据扫描和保护可以提升企业或组织的数据安全。一方面敏感数据可能包括个人身份信息、财务记录、医疗记录等&#xff0c;定期扫描这些数据可以防止未经授权的访问和泄露。 另一方面&#xff0c;许多国家和地区都有关于数据保护的…

CSS学习记录14

CSS不透明度 opacity属性指定元素的不透明度/透明度。opacity属性的取值范围为0.0 ~ 1.0。 值越低&#xff0c;越透明&#xff1a; img {opacity: 0.5; } opacity属性通常与:hover选择器一同使用&#xff0c;这样就可以在鼠标悬停时更改不透明度&#xff1a; img {opacity: 0…

【YashanDB知识库】如何处理yasql输入交互模式下单行字符总量超过限制4000字节

现象 在yasql执行sql语句后报错&#xff1a;YASQL-00021 input line overflow (>4000 byte at line 4) 原因 yasql在交互模式模式下单行字符总量限制4000字节&#xff0c;超出该限制即报错。 交互式模式下&#xff0c;yasql会显示一个提示符&#xff0c;通常是 SQL>…

为何ZLG致远电子要推出LGA嵌入式核心板?

LGA嵌入式核心板究竟有什么好&#xff1f;能让ZLG致远电子陆续推出了5个系列12个型号的LGA嵌入式核心板。 到目前为止&#xff0c;ZLG致远电子一共推出了M1106/M1107、M1126、M6Y2C、 A6Y2C、MR6450等5个系列&#xff0c;共12个型号的LGA形态的嵌入式核心板&#xff0c;涵盖了A…

C++小白实习日记——Pollnet,Efvi,UDP,数据类型转换(下)

内容太多了&#xff0c;这篇记录UDP接收端 一&#xff0c;UDP接收端接收数据 有了pollnet这个开源项目的支持&#xff0c;接收端的步骤为&#xff1a;1&#xff09;初始化硬编码的参数&#xff1a;接口&#xff0c;IP和端口 2&#xff09;创建接收文件.csv 3&#xff09;读…