Interactive Horizon Graphs: Improving the Compact Visualization of Multiple Time Series
- 摘要
- 1 引言
- 2 相关工作
- 2.1 多个时间序列的可视化
- 2.2 缩减折线图 (RLC)
- 2.3 地平线图 (HG)
- 2.4 大尺度和小尺度变异数据集
- 2.5 多个时间序列上的任务
- 3 交互式水平图
- 3.1 基线平移
- 3.2 价值缩放
- 3.3 平移和缩放的组合
- 4 用户研究
- 4.1 数据
- 4.2 假设
- 4.3 实验因素
- 4.4 整体实验设计
- 4.5 参与者
- 4.6 程序
- 5 结果
- 5.1 使用平移和缩放进行交互式地平线图
- 5.2 问卷调查结果
- 6 总结与讨论
- 6. 1 时间序列数量的影响
- 6.2 时间与准确性
- 6.3 任务
- 6.4 假设控制
- 6.5 平移和缩放
- 6.6 与以往研究的比较
- 6.7 普遍影响
- 6. 8 局限性和今后的工作
- 7 结论
- 致谢
- 参考文献
期刊: CHI (发表日期: 2013)
作者: Charles Perin; Frédéric Vernier; Jean-Daniel Fekete; Wendy E. Mackay; Stephen A. Brewster; Susanne Bødker
摘要
已经提出了许多方法用于多个时间序列的可视化。两种突出的方法是缩减折线图 (RLC),它显示时间序列的小倍数,以及最近的水平图 (HG)。我们建议使用一种新技术——交互式水平图(IHG)来统一 RLC 和 HG,该技术使用平移和缩放交互来增加可以并行分析的时间序列数量。在一项用户研究中,我们比较了 RLC、HG 和 IHG 在几个任务和时间序列的数量上,重点关注具有大规模和小规模变化的数据集。我们的结果表明,在图表数量众多的复杂比较和匹配任务中,IHG的表现优于其他两种技术。在最困难的任务中,IHG 的好答案数量(正确度)明显高于 HG (+14%) 和 RLC (+51%),而错误幅度低于 HG (-64%) 和 RLC (-86%)。
关键词:可视化;地平线图;时间序列;评估。
1 引言
时间序列——随时间变化的定量值集在金融(例如,股票价格)和科学(例如,气候测量、网络日志、医学)等广泛领域中占主导地位。
折线图是表示时间序列的最简单方法之一,也是最常用的统计数据图形之一[9]。但是,使用折线图可视化多个时间序列可能很困难,因为有限的垂直屏幕分辨率可能会导致高度的视觉混乱。
我们介绍了交互式地平线图(IHG),这是一种用于可视化多个时间序列的交互式技术。IHG的灵感来自平移和缩放技术,并统一了缩减折线图 (RLC) 和地平线图 (HG),这是可视化多个时间序列的两种最有效的技术。我们设计 IHG 是为了增加人们可以有效监控和探索的时间序列数量。涉及大量时间序列的数据集(如存量或医疗监测)是常见且重要的[16]。我们评估了我们对时间序列可视化标准任务的贡献的好处。虽然相关工作使用生成的具有明确地标的时间序列进行评估,但我们使用了一个非合成数据集,该数据集具有适用于多分辨率可视化技术的大尺度和小尺度变化(LSV)。
在这些条件下,我们得到的结果与之前的工作[15,19]不同(HG的性能优于RLC),并发现IHG在大量时间序列上的表现优于RLC和HG。
本文首先回顾了时间序列可视化技术的相关工作,然后详细介绍了我们依赖的两种技术(RLC和HG)。接下来,它介绍了 IHG 以及我们的 pan 和 zoom 变体。然后,我们描述了一个对照实验,该实验展示了 IHG 如何并行处理多达 32 个时间序列。我们讨论了实验的结果,以及如何将我们的技术与其他技术相结合,以有效的方式支持比较任务。
2 相关工作
自从折线图变得普遍[22]以来,时间序列的可视化一直是一个活跃的研究课题,从基于纸张的表示转向交互式可视化。以图表形式显示数据(例如,[5,8,28])和比较图形可视化技术(例如,[21,26])存在许多设计考虑因素。有关相关调查,请参见[1,25]。
2.1 多个时间序列的可视化
在狭小的空间内可视化多个时间序列(其中垂直分辨率小于人们可能正在寻找的序列变化)导致了使用空间填充[29]和多分辨率表示[20]的技术。
Javed等人将多个时间序列的可视化技术分为两类[19]。在共享空间技术中,时间序列重叠在同一空间中(例如,折线图[22]、编织图[19]、堆积图[6])。在分割空间技术中,空间被时间序列的数量(通常是水平的)除以,每个时间序列都占据自己的缩小空间(例如,RLC [28],HG [12,23])。共享空间技术只能支持有限数量的时间序列(考虑到超过四个涉及太多的视觉混乱[19])。因为我们关注大量的时间序列,所以我们只考虑分割空间技术。此外,虽然大多数先前的技术都是静态的,但我们专注于评估添加交互的好处。
2.2 缩减折线图 (RLC)
RLC 是使用折线图的时间序列的小倍数。要在不同的RLC上执行比较任务,它们必须共享相同的值范围(图1(a))。
2.3 地平线图 (HG)
HG 是一种新的分割空间技术,旨在显示大量时间序列。它最初是以“双色调伪着色”[24]的名义推出的,后来由Panopticon公司以“horizon graph”的名义开发[12,23]。该技术使用两个参数:波段 b 的数量和将图表水平分隔为正值和负值的基线 yb 的值。
图 2 从以基线为中心的折线图说明了 HG 的构造。首先,根据它们相对于基线的位置对数值进行着色(2(a))。接下来,将折线图水平分割成大小均匀的波段,并根据每个波段与基线的接近程度调整其饱和度 (2(b))。然后,低于基线的波段将反映在基线 (2(c)) 上方,因此图表的高度变为原始高度的一半。最后,将不同的波段叠加在一起 (2(d)),将最终的图表高度减小到 h/(2 × b),其中 h 是图表的原始高度,b 是波段的数量。使用 HG,数据值不仅由其垂直高度表示,还由其颜色饱和度和色调表示。例如,时间序列的全局最大值是最暗的红色值中的最高值。图1(b)显示了两个HG并联。
Heer等[15]评估了HG的使用,重点关注使用不同参数时图表读取性能如何变化。它们提供了一些建议,例如最佳图表高度和应使用的波段数量。他们将研究限制在两个同时进行的时间序列,并将波段的数量限制为四个。Javed等[19]比较了HG与其他可视化技术对更多时间序列的影响。他们将HG参数限制在Heer等人推荐的参数上,并且没有突出该技术的任何相当大的优势。特别是,他们没有发现RLC和HG之间的关键差异。然而,他们发现时间序列的数量严重影响了视觉混乱,对可视化技术的性能起到了非常重要的作用。在他们的实验中,之前的两项工作都使用了包含清晰地标的合成数据,这些数据可能有助于视觉搜索任务。由于 HG 是一种多分辨率可视化技术,因此我们可以预期对于更困难的 LSV 数据集会有不同的结果。
2.4 大尺度和小尺度变异数据集
堆栈缩放 [18] 和双尺度数据图表 [17] 等技术使用焦点+上下文 [10] 技术来可视化包含高度变化区域的时间序列数据。这些技术通过修改 x 轴(时间刻度)而不是 y 轴(值刻度)来放大和提高感兴趣区域的可读性。我们只发现了一篇文章[20],该文章探讨了LSV数据集,这些数据集在低分辨率和高分辨率下都表现出可见的大小变化。然而,具有这些属性的时间序列很常见,例如,人们可以根据不同的变化尺度观察一年内城市的温度:大(季节性)、中(每天)、小(每小时)。
根据Bertin的说法,必须调整具有较小变化的时间序列的尺度,以更接近最佳的角度易读性,即70度[5],并且已经广泛研究了45度的多尺度银行,以改善时间序列的图形感知[7,14,27]。虽然在时间序列上可以完成几项任务,其中每个图表都有自己的y轴(例如,比较一段时间内两个时间序列的趋势),但相关工作[12,15,19]表明,多个时间序列的最佳配置包括共享相同的y轴,即使用相同的值尺度和基线。
2.5 多个时间序列上的任务
时间序列可视化技术已经得到了广泛的研究,之前的工作已经评估了它们在各种不同任务中的使用。根据 Andrienko 等人 [2] 的研究,多个时间序列上的任务可以有两种类型:基本任务(关于单个数据元素)或概要任务(关于一组值)。对于每种类型,任务可以是直接/反向比较任务或关系寻求任务。最接近我们工作的研究启发了我们[19],评估了RLC和HG,考虑了三个任务:最大值、区分值和斜率。
求最大值 ( Max)
Max 是直接比较的基本任务。它包括确定几个时间序列中哪个在共享标记点具有最高(或最低)值[19,20]。Javed 等人使用此任务比较了 RLC 和 HG 的 2、4 和 8 个时间序列。他们的研究表明,RLC比HG更快,但他们没有发现任何关于正确性的显着结果。
例如,执行 Max 以查找给定日期内某个国家/地区最热门的城市。如果城市之间存在明显的差异,则此任务很容易实现,但是当差异和垂直分辨率都很小时,任务就会变得困难。图1(a)和1(b)分别说明了使用RLC和HG的Max。此示例突出了使用 LSV 数据集执行此类简单任务的难度。
区分 ( Disc)
Disc 是寻求关系的基本任务,类似于 Max。但是,每个时间序列都有自己的标记点,而不必在所有时间序列共享的标记点 t 上找到最高值。椎间盘比Max更难[15,19,26],在最近的两项研究中,HG已被评估用于这项任务:
Heer等人研究了HG中的波段数量[15]对Disc的影响。他们发现,时间和误差随着波段数量的增加而增加。然而,这些结果是在价值估计任务中获得的,他们恰当地注意到这些增加是由于隐含的心算造成的。
对于他们的 Disc 任务,Javed 等人要求受试者通过选择具有最高值的时间序列来回答,而不是通过估计最高值来回答。他们没有发现 RLC 和 HG for Disc 在正确性或时间方面有任何显着差异。
评估斜率
斜率是Beattie等人[3]提出的模式比较概要任务。它包括确定在给定时间段内哪个时间序列的增幅最高。对于这项任务,Javed等人发现正确性没有显着的结果,并且发现HG比RLC慢[19]。我们认为,这些结果也是由于他们使用的合成数据集造成的,我们预计来自更困难的数据集会有不同的结果。
总之,以前关于多个时间序列的研究有两个主要局限性:它们只研究了少量的时间序列(≤ 8),当流行的数据集中有更大的数字时,并使用合成数据集,其特征比这些流行数据集中通常发现的特征更简单。
3 交互式水平图
交互式地平线图 (IHG) 通过引入交互式技术来控制基线位置和应用于值的缩放因子,从而统一 RLC 和 HG。交互旨在使 HG 即使在探索大量时间序列时也能保持有效。基线平移和值缩放可以看作是常用的平移和缩放交互技术的变体 [4],即基线通过平移的变体进行控制,波段的数量通过缩放的变体进行控制。因此,平移和缩放交互技术与可视化的 y 轴相关,而不是 [17] 中描述的 x 轴。我们将在以下小节中详细介绍我们的交互技术。
3.1 基线平移
基线平移允许用户以交互方式沿 y 轴移动基线 - 在我们的实现中,这是通过在按下右键的情况下向上/向下拖动鼠标来实现的。请注意,与常规平移不同,基线平移根本不会更改 x 轴上的位置,也不会更改图表的高度。用户与单个图表的交互同时会更改所有小倍数的基线。由于基线始终位于图表的底部,因此它不会响应交互而移动。相反,随着基线的变化和颜色的变化,序列似乎会向上或向下移动,因为序列中的点从一个波段移动到下一个波段(图3)。
交互式地改变基线克服了传统HG中使用的固定基线的局限性- -因为预注意颜色感知(区分红色和蓝色)只对基线周围的值有效,远离基线的点更难辨别。基线规划允许用户围绕感兴趣的值进行转移,使其更加突出。如果人们有兴趣识别偏离特定基线的偏差,以比较患者的体温与患者的期望值,这可能特别有价值。同时,找到一个极大值,就变成了红色加高度( y )估计的强度(首先搜索最红的饱和区域,然后找到属于其中一个区域的最高值)的比较。
对于RLC,HG和IHG,所有的图表对于y轴的取值范围相同:[ ym , yM],其中ym和yM是可视化数据集中的最小值和最大值。3种技术对基线yb的取值不同:ybRLC = ym (基线始终处于图表的最底端),ybHG = yM-ym 2 (基线在其中点穿过y轴),ybIHG∈[ ym , yM] (基线可以取取值范围内的任意值)。
3.2 价值缩放
值缩放允许用户使用连续的交互方式指定缩放因子-在我们的情况下,拖动鼠标上/下并按下左键。值得注意的是,与常规缩放不同,值缩放不会改变x轴的尺度,也不会改变海图的高度,因为值会包围海图的下边界。
HG使用离散的波段数,因此从2个波段变化到3个波段会触发一个突变。我们提出的连续交互可以防止这种突变,从而产生平滑和连续的缩放,如图4所示的三个缩放级别所示。图表可以看成是画在一张高大的纸上,根据缩放因子将其包裹在基线上:当图表的形状达到y轴的顶端时,被剪裁,出现在y轴的底部,具有更饱和的色调。合适的缩放因子取决于所要分析的变化的尺度:观察小的变化将导致高的缩放值和大的变化在低的缩放值。使用Heer等人[ 15 ]的术语,我们的放大实现保持了ho的高度
我们感兴趣的是观察用户如何适应和理解这种不寻常的隐喻。我们相信,我们的缩放器提供的这种交互式虚拟分辨率控制可以很容易地理解,这得益于纸张包裹的隐喻,并且这种交互方式可以导致比推荐的两种显著更高的条带数量。然而,波段数量的增加使得用户对不同颜色强度的区分变得更加困难。这种权衡取决于用户的手中,根据任务和/或数据。虽然标准的缩放技术包括聚焦特定区域和丢失上下文信息,但我们对IHG的缩放实现既保留了上下文的可见性,又保留了基线周围微小变化的细节。
对于HG和IHG,由于yb的取值不同,并且HG使用离散的波段数b,而IHG使用连续的缩放值z,因此每个波段bi的范围ri的计算是不同的:
r i = [ y b + i h 2 K , y b + ( i + 1 ) h 2 K ] , r_i=[y_b+i\frac{h}{2K},y_b+(i+1)\frac{h}{2K}], ri=[yb+i2Kh,yb+(i+1)2Kh],
3.3 平移和缩放的组合
由于 HG 特性,我们提供的技术永远不会导致信息丢失。此外,对于我们的平移和缩放交互技术,视觉反馈不同于沿 x 轴的标准平移和缩放,并导致用户控制的过渡而不是突然的变化。
为了说明我们技术的有效性,让我们考虑一下寻找多个时间序列的全局最大值的基本任务。此任务分两步完成:首先,将基线设置为 yM,以便所有值都显示为蓝色。然后,用户逐渐减小基线的值,直到一张或多张图表中出现红色值。全局最大值属于这些图表之一。如果两个或多个时间序列对于相同的基线值变成红色,用户将放大这些区域,并且幅度差异将可见。
我们技术的另一个典型用途包括将平移锁定到感兴趣的参考值并缩放以突出显示与其他值的差异。这种情况如图 5 所示:让我们考虑一个时间序列,该时间序列在特定值周围有较小的变化,但在包含较高值的时间段期间除外,从而导致较高的波动 (5(a))。使用推荐的参数 (z = 2.0, yb = yM −ym 2 , 5(b)) 会稍微增加微小的变化,但将图表一分为二的基线不会带来有趣的信息,因为感兴趣的值不接近 yb 并且 HG 是不适应这种情况。通过精心选择 yb (5©) 值,我们可以专注于感兴趣的值。尽管如此,价值观之间的差异仍然难以估计。组合平移和缩放 (z = 8.5, yb = 0.08 × (yM − ym), 5(d)) 使微小的变化易于阅读和比较。此外,图 1© 说明了与 RLC 和 HG 相比如何使用 IHG 轻松实现 Max。这些示例说明了正确设置条带数量和基线值的重要性。这些设置需要交互式设置,因为它们取决于图表的哪一部分以及人们感兴趣的变化类型(大或小)。
最后,我们设计了平移和缩放交互技术,同时考虑到现实世界的场景。例如,基线平移可以让医生根据患者的健康状况指定患者体温的基准值。连续缩放提供了探索城市一年内温度的有效方法;根据缩放系数,可以观察到季节性、每日或每小时的变化。
4 用户研究
我们设计了一个实验来确定向 HG 添加交互性的有用性。在研究中,我们要求用户检查 LSV 数据集并使用 RLC、HG 和 IHG 执行三种任务。为了量化每种方法的影响,我们测量了每种可视化技术的时间、正确性和错误幅度。
4.1 数据
在我们的试点研究中,我们使用了几个数据集,包括失业率和温度。然而,对于主要实验,我们选择了来自Google Finance的真实世界数据[13]。我们使用了 2012 年 2 月来自 182 家银行的股票市场历史,在此期间没有遗漏任何数据。我们之所以选择这些数据集,是因为它们是在近距离内演变的 LSV 时间序列,因此有必要对所有可视化图表使用通用尺度。由于 LSV 时间序列具有不同的细节级别,因此我们预计 HG 的性能会优于 RLC,并且我们将能够区分 HG 和 IHG,因为两者都是多分辨率可视化技术。
4.2 假设
我们对该实验的假设如下:
H1 IHG 相对于 RLC 和 HG 在时间、正确性和错误方面的优势将随着时间序列数量的增加而增加。该假设基于这样的直觉:随着时间序列数量的增加,任务会变得更加困难,但交互将有助于应对不断增加的规模。为了检验这个假设,我们使用 2、8 和 32 个时间序列设计了该任务的变体。我们还预测,时间序列数量越多,RLC 的效率就越低。
H2 IHG 的所有任务都会更快。
H3 对于 LSV 时间序列,具有推荐参数(yb = yM −ym 2 和 b = 2)的 HG 效率低于 IHG。
4.3 实验因素
我们在接下来的小节中描述我们的实验因素:可视化技术、时间序列数 N 和任务。
可视化技术
在所有三种可视化条件(RLC、HG 和 IHG)中,每个图表都具有相同的高度,并且所有图表共享相同的值范围和相同的基线值。根据之前的工作,我们为图表选择了 24 像素的恒定高度,无论显示的时间序列数量有多少。赫尔等人。发现这个高度对于 RLC 和 1 波段镜像 HG 都是最佳的 [15],并且使用这个尺寸可以让我们将我们的结果与他们的结果进行比较。我们在每个工况的设计上也做了几个具体的选择:
RLC:为了与 HG 和 IHG 保持一致,图表中填充了与基线以上的值相对应的颜色。尽管数据值并非都是正值,但基线位于总体数据集最小值 ym 处。
HG:我们颠倒了颜色图中红/蓝的含义,因为在实验设计和试点过程中,我们测试了温度数据集,这些温度通常使用蓝色表示冷,红色表示暖。这种颜色的翻转不会使实验产生偏差,因为三种技术的编码是一致的。我们使用推荐值 yb = yM −ym 2 和 b = 2。
IHG:为了方便学习,我们选择初始阶段的基线和缩放因子的值与RLC相同,即。 e.、ym 和 1.0,分别。颜色编码与 HG 使用的颜色编码相同。实验过程中,显示基线值和缩放因子。
时间序列数 (N)
多时间序列图形感知的相关工作通常一次只考虑两个时间序列[15, 26]。最近,Javed 等人。比较了具有较高 N 值的不同可视化技术:他们的主要研究涉及 2 到 8 个时间序列,后续研究包括多达 16 个时间序列 [19]。我们考虑了 N=2 和 N=8 时间序列组,以便我们可以将我们的结果与之前的工作进行比较。此外,由于我们的目标之一是处理大量时间序列并测试分割空间技术的可扩展性,因此我们还考虑了 N=32 个序列的集合。
任务
基于 Andrienko 等人开发的时间序列任务分类法。 [1, 2],我们选择了一项用于直接比较的基本任务(Max)、一项用于关系寻求的基本任务(Disc)和一项用于关系寻求的概要任务(Same)(图 6)。
查找相同(相同)任务是 Andrienko 等人的 Slope 任务的变体。要求用户选择与指定参考时间序列完全相同的时间序列。我们选择这种替代方案是因为使用 RLC 和 LSV 数据集来识别时间序列的斜率非常困难。我们选择这组特定任务的动机是我们的试点研究,旨在让我们能够将我们的结果与之前的工作进行比较。
根据试点研究的结果,我们还放弃了实验中的其他几项任务。例如,我们没有要求用户找到所有时间序列的全局最大值,因为在正确性和时间方面,IHG 显然比其他两种技术更适合这项任务。此外,对于此类基本任务,自动技术将胜过任何交互式技术。
找到最大值(Max):我们选择比之前的实验对任务有更多的控制,以使其适应 LSV 时间序列。从数据集中随机选取参考时间序列,并在显示顺序中分配一个随机位置。该参考在时间 t 的随机点被标记。其关联值为 Vt。如果满足以下条件,则在数据集中选择其他时间序列:vt 是每个附加时间序列在 t 处的值,如果满足以下条件,则称该时间序列与参考具有可比性:
{ V t − v t > 2 % × ( y M − y m ) V t − v t < 10 % × ( y M − y m ) \left\{\begin{array}{ccc}V_t-v_t&>&2\%\times(y_M-y_m)\\V_t-v_t&<&10\%\times(y_M-y_m)\end{array}\right. {Vt−vtVt−vt><2%×(yM−ym)10%×(yM−ym)
通过施加这些条件,对于 RLC 技术,参考值和共享标记点 t 处的剩余时间序列值之间的最小视觉差异在 [0.5, 2.5] 像素范围内。对于 HG 和 IHG,像素差异与虚拟分辨率成正比 [15],即。即,带的数量。
判别(Disc):时间序列的选择方式与 Max 相同,但每个时间序列都有自己的随机时间点 t。
查找相同(相同):与其他两个任务(参考)相比,此任务显示的时间序列多一个。
因为我们专注于评估时间序列的视觉感知,所以我们没有包含其他功能,例如排序或突出显示最大值,这些功能可能有助于用户执行 Max 和 Disc 等操作。正如 Javed 等人的研究 [19] 一样,我们没有提供刻度或刻度线,也没有显示数值。参与者只能分析时间序列的形状和颜色。请注意,如果值之间的幅度差异很小(LSV 数据集就是这种情况),则这些任务将很难执行。
4.4 整体实验设计
我们测量的因变量是时间(连续)和正确性(二进制)。因为正确性没有捕获误差的大小,所以对于 Max 和 Disc,我们还测量了误差(连续),其定义为 100×e (eM −em) ,其中 e 是测量的绝对误差,eM 和 em 是最大值以及最小可能的错误。误差表示正确的最大值与用户选择的值之间的百分比差异。对于 Same 来说,除非我们主观地定义相似性度量,否则这个附加度量没有任何意义。因此,我们只在 Same 中记录答案的正确性。对于 IHG,我们还测量了每个参与者执行平移和缩放交互所需的时间,以及每次试验结束时的值。每个参与者对每种技术 × 任务 × N 组合进行四次试验。
使用拉丁方来平衡技术和任务的顺序,以尽量减少学习效果。
由于任务的难度与时间序列的数量高度相关[19],因此N的顺序逐渐增加而不是随机(先是2,然后是8,最后是32)。总之,设计包括(3×技术)×(3×任务)×(3×N)×(4×试验)=每个参与者 108 次试验。对于每个时间序列,时间序列都是在数据集中随机选择的。实验总共持续约45分钟。
参与者完成了一项特定技术的试验,分为任务块,然后再转向另一项。每次开始一项新任务(每种技术三次),参与者都会对该模块进行简短的培训。这次培训包括任务提醒和四次训练试验,不限时间,让参与者制定任务策略。在培训和实际试验期间,参与者会收到关于他们的答案是否正确的反馈。有人告诉我们,答案的正确性比时间更重要。
4.5 参与者
从我们的研究所招募了 9 名参与者(7 名男性,2 名女性)。参与者年龄范围为 23 至 36 岁(平均 27 岁,中位数 26 岁),视力正常或矫正至正常,并且不是色盲。参与者都是志愿者,并且没有因为参与实验而获得报酬。所有参与者(学生和非学生)都具有计算机科学背景和良好的图表阅读能力。六名参与者已经听说过 RLC,只有一名参与者知道 HG。
4.6 程序
参与者观看了一段简短的介绍性视频,解释了 RLC 和 HG 技术,并说明了修改基线以通过对标准线图着色来分离低于和高于基线的值的可能性。他们坐在距离约 50 厘米的 19 英寸液晶显示器(1280x1024 像素)前,在实验过程中仅使用鼠标。要选择答案时间序列,他们必须双击它。为了避免意外点击,选择时间序列后,会出现一个对话框,要求他们确认选择,同时时间继续运行。这种交互是唯一可用于 RLC 和 HG 的交互。对于 IHG,通过按下两个鼠标按钮之一在屏幕上的任意位置垂直拖动,使用鼠标提供平移和缩放。左侧按钮触发缩放,右侧按钮触发平移。参与者可以进行练习,直到他们很好地理解界面。在完成每项任务和每种可视化技术后,参与者被要求给出难度分数并描述他们使用的策略。
5 结果
所有数据均使用重复方差分析测量进行分析。我们对时间的度量应用对数变换以获得准正态分布。通过 Bonferroni 调整进行配对 t 检验。使用 Cohen d [11] 的无偏估计和合并标准差来计算效应大小。我们仅报告表 1 中总结的显着影响及其影响大小。
5.1 使用平移和缩放进行交互式地平线图
表 2 显示了参与者对 IHG 平移和缩放的使用情况。对于 N=2,一半参与者根本没有使用任何交互。对于 N=8,71.7% 使用两种类型的交互。对于 N=32,86.7% 的人同时使用两者。任务越困难,使用的交互就越多。我们还观察到,对于所有 N ,很少有参与者仅使用平移或仅缩放 - 两者对大多数参与者来说似乎都很有用。
我们还记录了 IHG 每次试验结束时的基线值和缩放系数(图 8(a) 和 (b)),以及参与者使用平移和缩放的总时间百分比(图 9(b)):我们的运动日志。最终值是重要的衡量标准,因为它们对应于参与者估计的每次试验最佳的条带数量和基线值。
5.2 问卷调查结果
对于每项技术 × 任务 × N ,我们要求参与者给出 1 到 4 之间的难度分数(1:非常容易,2:容易,3:困难,4:非常困难)。图 9(a) 报告了按任务和 N 划分的平均难度。对于 9 名参与者,我们无法执行可靠的方差分析,但可以报告一致的排名:所有 9 名参与者都以相同的顺序对技术进行排名,无论任务和 N:他们将 IHG 排名第一,HG 第二,RLC 第三。
6 总结与讨论
结果证实了我们的假设,即对于大量 LSV 时间序列,IHG 优于 RLC 和 HG。
6. 1 时间序列数量的影响
在本小节中,我们详细介绍了每个 N 的 RLC、HG 和 IHG 之间的统计显着差异,并为每种技术的使用提供了建议。
对于N=2:对于相同的情况,HG 比RLC 和IHG 都快。这种改进可能是由于 HG 使用允许预先注意感知和识别关键特征的颜色。在 IHG 中,参与者在交互中浪费了时间,使用平移和缩放来寻找可识别的形状。对于 Max 和 Disc,RLC 和 HG 都比 IHG 更快:参与者被告知正确性比时间更重要,我们观察到,每当他们有疑问时,他们都会使用平移和缩放来仔细检查他们的答案。
图 9(b) 说明了这一观察结果,即使对于 N=2,平移和缩放的使用也占试验时间的 50%。
由于 N=2 的正确性或错误没有差异,因此我们建议 N=8 或更少时使用 HG。 RLC 可用于基本比较和关系查找任务,例如 Max 和 Disc。然而,我们不推荐洲际酒店集团推出如此少量的系列,因为交互技术会分散用户的注意力,并且不会带来任何好处。
对于 N=8:对于 Max 和 Disc,HG 都比 IHG 更快。其基本原理可能与 N=2 的情况相同——参与者在交互过程中损失了时间。此外,由于 IHG 的初始状态与 RLC 相同(z = 1,yb = ym),因此参与者必须进行交互才能获得类似于 HG 的可视化效果,而对于 HG,默认配置很容易获得。 N=2 和 N=8 之间的显着区别在于,后者的正确性和错误性存在显着差异。对于 Max,IHG 比 RLC 具有更高的正确性,因为缩放允许用户辨别图表之间的细微差异。由于 IHG 和 HG 放大了微小的变化,因此两种技术产生的误差都低于 RLC。
对于光盘,出于同样的原因,IHG 比 RLC 具有更高的正确性和更低的错误。
总之,IHG 对于 Same 的正确率比 RLC 和 HG 高 1.2 倍和 1.02 倍,对于 Disc 比 RLC 和 HG 高 1.2 倍和 1.06 倍。所有参与者都使用 IHG 完成了任务,没有出现任何错误。
我们建议在执行基本比较和关系搜索任务时使用 IHG 或 HG,并避免对中等数量的时间序列使用 RLC。 HG 和 RLC 之间的差异在之前的研究中并未得到强调,几乎可以肯定是由于我们数据集的属性造成的。
对于 N=32,对于所有任务,IHG 和 HG 都比 RLC 具有更高的正确性和更低的错误,除了相同之外,HG 和 RLC 之间的正确性没有差异。无论任务如何,RLC 都明显限制大量时间序列。有趣的是,对于 Disc,IHG 比 HG 具有更高的正确性和更低的错误。对于这项最难的任务,涉及垂直和水平地直观地浏览图表,IHG 表现出比 HG 更好的结果。
对于 Same(多 1.4 倍和 1.1 倍)、Max(多 1.5 倍和 1.03 倍)以及 Disc(多 2.4 倍和 1.2 倍),IHG 比 RLC 和 HG 更正确。不仅这些技术之间存在显着差异,而且效应大小也表明这些差异是巨大的。
误差测量还显示出显着差异:对于 Max,IHG 的误差比 RLC 的误差小 9.6 倍,比 HG 的误差小 1.3 倍。对于光盘,IHG 的误差比 RLC 低 7.5 倍,比 HG 低 2.7 倍。这证实了 IHG 会产生更正确的答案,并且即使答案错误,误差也比使用 RLC 和 HG 时要小。
对于时间而言,无论任务如何,IHG 和 HG 之间没有显着差异。这与较小 N 的结果形成对比,其中 IHG 通常比其他技术慢。在这里,与图表交互的开销低于视觉搜索的开销。
我们强烈建议对大量时间序列使用 IHG,并避免使用 RLC。我们还发现,与之前发表的研究相比,对于大量和中等数量的时间序列,HG 比 RLC 更有效。我们的工作首次揭示了 HG 的这些优势。
6.2 时间与准确性
对于 N=32 的所有三种技术,执行 Max 和 Disc 的时间相似(图 7(b)),但 RLC 的正确性在 N=8 和 N=32 之间严重下降(图 7(a))。参与者的回答速度与 HG 和 IHG 一样快,但正确率非常低。参与者对我们问卷的回答解释了这种效应——对于 RLC 技术,他们的策略是快速识别潜在的答案并随机选择一个,而无需确定答案。显然,无论用户在 N=32 的 RLC 上花费多少时间,他们都无法正确执行 Max 和 Disc。我们观察到 HG 也有同样的效果,但程度较低,但 IHG 则没有。图 7(a) 说明了每种技术的可扩展性与 N 的函数关系,显示了 IHG 的明显优势。
图 7(b) 说明了完成任务的时间与 N 的函数关系。这显示了与正确性不同的趋势 - IHG 和 HG 的时间随着 N 的增大而增加,而 RLC 的增加要大得多。
6.3 任务
正如预期的那样,当所有任务的 N 增加时,正确性会降低。此外,从Error的趋势可以清楚地看出任务难度:Same是最简单的任务,其次是Max,Disc是最难的。参与者的问卷回答证实了这些结果——他们发现 Disc 是最难的任务,并且发现难度随着时间序列数量的增加而急剧增加(图 9(a))。这些结果与 Javed 等人的观点一致。 [19]。然而,我们的结果并未表明 HG 比 Max 的 RLC 慢,这可能是由于我们使用了 LSV 数据集。
6.4 假设控制
我们确认 H1:N=32 是唯一显示三种技术之间明显差异的 N 值。 IHG 的正确性最高,错误率最低,其次是 HG,而 RLC 则差很多。 HG 在正确性和错误性方面的得分也明显优于 RLC。这种差异在之前的研究中并未得到强调,我们通过使用 LSV 数据来解释这一差异,这表明需要多分辨率技术。
我们拒绝 H2:我们的结果表明,至少对于相同的任务,IHG 明显快于 RLC,但与 HG 没有显着差异。这是因为,与 HG 不同,IHG 要求用户与图表交互以获得有用的配置,这需要额外的时间。
我们部分确认 H3:当 N 增加时,HG 的正确性降低,并且低于使用 IHG 时的正确性。我们没有发现 HG 和 IHG for Max 之间有任何显着差异,但 IHG 比 HG for Disc 具有更高的正确性和更少的错误。然而,我们惊讶地发现 HG 在时间序列数量方面的稳健性;我们没想到这项技术会取得如此好的效果。
6.5 平移和缩放
最终值:与[15]相反,最有用的缩放级别可以远高于2。这可以在图8(b)中看到,该图显示了每次试验结束时的z。我们将最终值解释为用于回答任务的最舒适的缩放级别。
对于 Max 和 Disc 用户的最终缩放值通常是我们允许的最大缩放值 — 10 个波段。推荐的带数很少是选择 N=8 和 N=32 的带数。我们的结论是,此参数没有默认值 - 需要更多或更少的频段与任务、数据集和 N 相关。相反,在完成 Same 时使用较低的缩放值可以通过参与者采用的策略来解释。大多数参与者修改 yb 的值,直到参考时间序列中出现特定的颜色和形状组合。然后他们直观地浏览所有时间序列来搜索这个特征。
基线最终值(图 8(a))很少处于基线的经典值(图表高度的 50%)。这个结果当然是由于数据集造成的,但证实了如果用户有修改基线的可能性,他们将选择一个可以在连续范围内的值,而不会将他们的选择限制为单个值。
交互作用:N=2 时交互时间的百分比(图 9(b))较低,并且不随 N 线性增加。相反,N=8 和 N=32 的情况大致相同,大约占总时间的 50%。这证实了 IHG 对于大量时间序列更有用,但对于 N=2 来说会分散注意力。
6.6 与以往研究的比较
我们的研究与之前的研究之间的差异可以归因于三个因素:IHG 中交互的使用、LSV 数据集的使用以及使用 Same 任务而不是 Slope。对于 N=8,与之前的研究相反 [19],HG 明显比 RLC 更有效,可能是因为我们使用了 LSV 数据集。以前的研究从未尝试过当所有任务都变得非常困难并且交互有很大帮助时,N=32。至于任务的选择,我们没有将 IHG 与 Slope 的其他技术进行比较,因为这项任务在 LSV 数据集上执行起来太困难了,尤其是对于 RLC; IHG 在更统一的数据集上的好处仍有待研究。
赫尔等人。建议不要使用太多的频段[15]来进行价值估计任务,这在我们的实验中没有考虑。我们不确定 LSV 数据集上的值提取是否准确,即使带很少。
6.7 普遍影响
我们使用的 LSV 数据集通常比之前研究中使用的合成数据集更具挑战性,而且在生态上也更有效。我们的结果表明,未来的实验应该使用更多不同的数据集,以获得更普遍的结果。
最后,我们相信 IHG 可以降低 HG 的学习曲线,因为它们从熟悉的 RLC 表示开始,并通过使用平移和缩放的连续交互,向新手用户展示 HG 的构建方式。我们的结果强调了这样一个事实:向现有技术添加交互可以显着提高其性能和可用性。
6. 8 局限性和今后的工作
我们的设计建议在下面详细介绍的某些条件下是有效的。
参与者:我们的参与者是 HCI 和 Infovis 的学生和研究人员,需要进行额外的研究来评估 IHG 的新手用户。
N:我们将时间序列的数量限制在标准屏幕的高度,而无需滚动,超过 32 个时间序列将需要更大的屏幕。
数据集:我们的结果对于 LSV 数据集有效,HG 和 IHG 在该数据集上表现良好。已经证明 IHG 对于至少一类数据集是有效的,在未来的工作中,我们计划研究更广泛的数据集。
任务:我们没有考虑价值估算任务,因为它需要用户使用 HG 和 IHG 进行大量的心算。然而,可以专门设计替代交互技术来支持值读取和提取。
7 结论
我们提出了交互式地平线图(IHG),这是一种用于探索多个时间序列的有效交互技术,它统一了两种分割空间可视化技术:简化折线图(RLC)和地平线图(HG)。我们已经证明,由于 IHG 的两个参数(基线值和缩放系数)的交互式控制,在最困难的条件下执行多项任务时,IHG 的性能优于 RLC 和 HG。两者都与 HG 传统上使用的频段数量有关。我们已经证明,IHG 在最多 32 个时间序列上表现良好,而之前的工作仅测试了最多 16 个时间序列。我们还发现,对于我们的数据集,HG 的表现优于 RLC。
我们的结论是,使用小倍数可视化时间序列的系统应该默认提供我们的交互技术。我们的技术通常可以提高视觉探索任务的性能,但在学习阶段或交互可能会分散注意力的非常小的集合中除外。
我们的贡献是:(i)通过使用交互式平移和缩放来统一 RLC 和 HG,(ii)演示 IHG 可以扩展到 32 个时间序列,以及(iii)使用真实的 LSV 数据集而不是合成数据集进行评估有助于视觉搜索任务的清晰地标。
未来,我们计划使用更大的屏幕和专用硬件(例如墙壁大小的显示器)研究超过 32 个时间序列的显示器。我们也有兴趣分别评估我们的平移和缩放技术的优点。
这项工作表明,我们简单的交互可以统一两种可视化技术并显着提高其效率。我们希望它将被采用来限制目前为探索多个时间序列而提供的略有不同的可视化技术的扩散。
致谢
作者感谢 P. Irani 向他们介绍 Horizon Graphs,感谢 P. Dragicevic 提出建设性建议,感谢 A. Bezerianos、A. Spritzer、B. Bach、J. Boy 和 W. Willett 帮助校对文档。
参考文献