【期末复习向】数据可视化技术

一、重点复习

题型：填空题（15道，2分一个）与简答题（3道题目，10分一个）与绘图题（选画2个类型的图）

1.什么是数据可视化

在计算机视觉领域，数据可视化是对数据的一种形象直观的解释，实现从不同维度观察数据，从而得到更有价值的信息。数据可视化将抽象的、复杂的、不易理解的数据转化为人眼可识别的图形、图像、符号、颜色、纹理等，这些转化后的数据通常具备较高的识别效率，能够有效地传达出数据本身所包含的有用信息。

数据可视化是为了从数据中寻找出三个方面的信息：模式、关系和异常。（1）模式。指数据中的规律。（2）关系。指数据中的相关性。（3）异常。指有问题的数据。

2.数据可视化的作用

数据可视化的作用包括记录信息、分析推理、信息传播与协同等。（1）记录信息。自古以来，记录信息的有效方式之一是用图形的方式描述各种具体或抽象的事务。（2）分析推理。数据可视化极大地降低了数据理解的复杂度，有效提升了信息认知的效率，从而有助于人们更快地分析和推理出有效信息。（3）信息传播与协同。通过数据可视化可以加深对数据的感知。

大数据的问题：（1）大量数据不能有效利用，弃之可惜，想用却不知如何下手。（2）数据展示模式繁杂晦涩，无法快速甄别有效信息。

数据可视化在大数据分析中的作用：（1）动作更快。使用图表来总结复杂的数据，可以确保对关系的理解要比那些混乱的报告或电子表格更快。可视化提供了一种非常清晰的交互方式，从而能够使用户更快地理解和处理这些信息。（2）以建设性方式提供结果。大数据可视化工具能够用一些简短的图形描述复杂的信息。通过可交互的图表界面，轻松地理解各种不同类型的数据。（3）理解数据之间的联系。在市场竞争环境中，找到业务和市场之间的相关性是至关重要的。

3.数据可视化的分类

数据可视化的处理对象是数据。根据所处理的数据对象的不同，数据可视化可分为科学可视化和信息可视化。科学可视化面向科学和工程领域数据，如三维空间测量数据、计算模拟数据和医学影像数据等，重点探索如何以集合、拓扑和形状特征来呈现数据中蕴含的规律；信息可视化的处理对象则是非结构化的数据，如金融交易、社交网络和文本数据，其核心挑战是如何从大规模高维度复杂数据中提取出有用信息。（最多加一个可视分析学，可视分析学被定义为一门以可视交互界面为基础的分析推理科学，综合了图形学、数据挖掘和人机交互等技术）

4.数据可视化的发展方向

数据可视化技术的发展主要集中在以下3个方向：（1）可视化技术与数据挖掘技术的紧密结合。数据可视化可以帮助人类洞察出数据背后隐藏的潜在规律，进而提高数据挖掘的效率。因此，可视化与数据挖掘紧密结合是可视化研究的一个重要方向。（2）可视化技术与人机交互技术的紧密结合。用户与数据交互，可方便用户控制数据，更好地实现人机交互是人类一直追求的目标。因此，可视化与人机交互相结合是可视化研究的一个重要发展方向。（3）可视化技术广泛应用于大规模、高维度、非结构化数据的处理与分析。目前，我们处在大数据时代，大规模、高维度、非结构化数据层出不穷，若将这些数据以可视化形式完美地展示出来，对人们挖掘数据中潜藏的价值大有裨益。因此，可视化与大规模、高维度、非结构化数据结合是可视化研究的一个重要发展方向。

5.视觉感知的处理过程

在视觉感知的过程中，人们会经历6个心理过程：（1）视觉寻找。指在视线所能达到的范围内搜寻目标。（2）寻找。当发现视线探测到的对象与预期所需目标相符合时，则排除其他对象，锁定目标。（3）分辨。对多个相似的对象的信息进行深入探测。（4）识别。指根据视觉特征信息和细节信息的差异，识别目标的含义。（5）确定。指锁定的对象与记忆中的存储信息相吻合，确认目标。（6）记忆搜索。是以上视觉过程的基础。通过以上步骤所获得的信息都要与记忆信息对比，然后做出判断。

6.格式塔原则

格式塔原则描述了人在视觉上如何感知对象，它是视觉可视化设计的基本原则。格式塔包括以下基本原则。

（1）接近原则。通常人在进行视觉感知时会把在距离上相互靠近的元素视作一个整体。元素之间的距离越大，被视作组合的概率越大。

（2）相似原则。相似原则看中的是元素内部特性的不同，对于元素内部的纹理、颜色、形状、大小等特征，人们的视觉感知常常会把这些明显具有共同特征的元素当做一个整体或归为一类。

（3）闭合原则。闭合原则是指人们通常会在潜意识中把一个不连贯的图形补充完整，使之连贯。人们常会将不完全封闭的东西视作统一的整体。在设计中，可以通过不完整的图形，让人去想象闭合图形，这样可以引起用户的兴趣和关注。

（4）连续原则。是以实物形象上的不连续使用户产生心理上的连续知觉。凡具有连续性或共同运动方向的元素容易被视为一个整体。

7.颜色理论

（1）光的特性。人们能够看到物体，是因为有光的存在；人眼能够区分不同的颜色，是因为不同光的波长和强度有区别。三基色：红、绿、蓝。

（2）三基色原理。大多数的颜色可以通过红、绿、蓝三色光按照不同的比例合成产生。同样，绝大多数单色光也可以分解成红、绿、蓝三种色光。

（3）不同的色彩对人心理的影响。暖色系的颜色是以橘色为中心的色群，适用于积极、健康、努力等内容；冷色系是以蓝色为中心的色群，适用于表现商业、科技、学习等方面的内容。

（4）色彩的三要素。从可视化编码的角度对颜色进行分析，可将颜色分为色相、明度和饱和度三个视觉通道。1.色相。即色彩的相貌和特征，指颜色的种类和名称。黑白没有色相，为中性。2.明度。又称亮度，指颜色的深浅，明暗的变化。3.饱和度。又称纯度，指颜色的鲜艳程度。

（5）数据可视化色彩搭配技巧。1.色调与明度上的变化要大。在进行色彩搭配时，配色要容易辨识与区分，明度差异需要进行整体设计，而且明度差异要够大。2.学习大自然的色彩过渡。设计者应该更多了解大自然中的色彩过渡，再将其应用到可视化设计中。3.尽量使用渐变来替换静态的单一颜色。要想让设计效果更加美观，则可以在不同色调的基础上加上渐变。

8.视觉的编码

（1）视觉编码的定义。描述数据与可视化结果的映射关系。

（2）标记。指图形元素，如点、线、面、体。

（3）视觉通道。指用于控制图形元素的展示特性，包括元素的颜色、位置、尺寸、形状、方向、色调、饱和度、亮度、纹理等。

（4）视觉通道的类型。1.定性或分类的视觉通道。适合用于编码分类的数据信息，如形状、颜色的色调、空间位置。2.定量或定序的视觉通道。适合用于编码有序的或者连续性的数据信息，如直线的长度、区域面积、空间的体积、颜色的饱和度和亮度等。3.分组的视觉通道。分组是通过多个或多种标记的组合来进行描述的，分组通道包括接近性、相似性和包括性。

（5）视觉通道的表现力和有效性。视觉通道表现力和有效性体现在以下几个方面：1.精确性。指人们视觉感知后的判断结果是否与原始数据一致。2.可辨性。指视觉通道有不同的取值范围，如何取值能使人们更容易区分该视觉通道的多种取值状态。3.可分离性。指将不同视觉通道的编码对象放置到一起，是否容易分辨。4.视觉突出。指对重要的信息，是否使用更加突出的视觉通道进行编码。

（6）视觉编码的两大原则。1.表达性、一致性。可视化的结果应该充分表达数据想要表达的信息，且不会让用户产生歧义。2.有效型、理解性。可视化之后比前一种数据表达方案更加有效，更加容易让人理解。

9.数据的类型

根据数据模型，可以将数据分为浮点数、整数、字符等。通常根据测量标度将数据分为四类：类别型数据：用于区分物体、有序型数据：用来表示对象间的顺序关系、区间型数据：用于得到对象间的定量比较、比值型数据：用于比较数值间的比例关系。通常并不区分区间型数据和比值型数据，所以可以将数据类型精简为三种：类别型数据、有序型数据、数值型数据。

10.数据预处理

大数据时代，数据来源广泛，数据类型和格式存在差异，并且这些数据中的大部分是有噪声的、不完整的，甚至存在错误。因此数据预处理的目的是提升数据质量，使得后续的数据处理、分析、可视化过程更加容易、有效。

数据的质量：（1）有效性。数据与实际情况对应时，是否违背约束条件。（2）准确性。数据能否准确地反映现实。（3）完整性。采集的数据集是否包含了数据源中的所有数据点，且每个样本的属性都是完整的。（4）一致性。整个数据集中的数据的衡量标准要一致。（5）时效性数据适合当下时间区间内的分析任务。（6）可信性。数据源中的数据是使用者可依赖的。

数据预处理的步骤：（1）数据清理。指修正数据中的错误、识别脏数据、更正不一致数据的过程。（2）数据集成。指把来自不同数据源的同类数据进行合并，减少数据冲突，降低数据荣誉程度等。（3）数据归约：指在保证数据挖掘结果准确性的前提下，最大限度地精简数据量，得到简化的数据集。（4）数据转换。指对数据进行规范化处理。

11.数据分析与数据挖掘

（1）数据分析。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，目的是找出内在规律，提取隐藏在大量数据中的信息，从而帮助人们理解，判断，决策和行动。

常用的数据分析有统计分析、探索性数据分析、验证性数据分析、在线分析与处理。1.统计分析：是指对数据进行统计描述和统计推断的过程。2.探索性数据分析：是对调查、观测所得到的的一些初步的杂乱无章的数据，在尽量少的先验假设下进行处理，通过作图、制表等形式和防尘你和、计算某些特征量等手段，探索数据的结构和规律的一种数据分析方法。3.验证性数据分析：是指在已经有事先假设的关系模型等情况下通过数据分析来验证已提出的假设。4.在线分析与处理（OLAP）：是一种交互式探索大规模多维数据集的方法。OLAP的基本功能有切片和切块、钻取和旋转。

（2）数据挖掘。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。常见的数据挖掘的方法有分类与预测、聚类分析、关联分析和异常分析等。1.分类与预测。分裂算法是从数据中选出已经分好类的训练集，再次训练集上运用数据挖掘分类技术，构造一个分类模型，然后在根据此分类模型对数据集中未分类的数据进行分类。2.聚类分析。聚类指将数据集聚集成几个簇，使得同一个聚类中的数据集之间的相似程度高，而不聚类中的数据集之间的相似程度低，利用分布规律从数据集中发现有用的规律。3.关联分析。关联分析就是发现存在于大量数据集中的关联性或相关性，从而描述了一个事物中某些属性同时出现的规律和模式。4.异常分析。少量数据与大多数数据的特征不一样，通常它们被认为是噪声，但是也可能是重要信息。

（3）数据挖掘的步骤。1.确定业务对象。清晰地定义业务问题，认清数据挖掘的目的。数据的挖掘结果是不可预测的，但要探索的方向应是有遇见的，不应该带有盲目性。2.数据准备。数据的准备包括数据的选择、数据的预处理和数据的转换。3.数据挖掘。对所得到的经过预处理的数据进行挖掘。4.结果分析。解释并评估结果。使用的分析方法一般应根据数据挖掘操作而定。5.知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。

12.数据可视化的流程

数据可视化的流程以数据流向为主线，其核心流程主要包括数据采集、数据处理和变换、可视化映射和用户感知四大步骤。

（1）数据采集。在可视化设计过程中，一定要事先了解数据的来源、采集方法和数据属性，这样才能准确地反映要解决的问题。

（2）数据处理和变换。可视化之前需要将原始数据转换程用户可以理解的模式和特征并显示出来。它包括去噪、数据清洗、提取特征等流程。

（3）可视化映射。可视化映射过程是整个流程的核心，其主要目的是让用户通过可视化结果去劣迹数据信息以及数据背后隐含的规律。

（4）用户感知。可视化映射后的结果只有通过用户感知才能转换成知识和灵感。用户从数据的可视化结果中进行信息融合、提炼、总结知识和获得灵感。

13.数据可视化的设计标准及框架

（1）数据可视化的设计标准。1.表达力强。能真实全面的反映数据的内容。2.有效性强。一个有效的可视化设计应在短时间内把数据信息以用户容易理解的方式显示出来。3.能简洁地传达信息。这样能在有限的画面里呈现更多的数据，而且不容易让用户产生误解。4.易用。用户交互的方式应该简单、明了，用户操作起来很方便。5.美观。视觉上的美感可以让用户更易于理解可视化要表达的内容，提高工作效率。

（2）数据可视化的设计框架。

第一层描述现实生活中用户遇到的实际问题。了解用户数据所属领域，搜集相关信息建立系统原型。第二层是抽象层。将第一层确定的任务和数据转换为信息可视化术语。第三层是编码层，涉及视觉编码和交互方式，是可视化研究的核心内容。第四层则需要具体实现与前三个层次匹配的数据可视化展示和交互算法，是解决如何完成。