眼动研究实验设计方法

摘要

本文对基于实验室的眼动实验设计进行了总体回顾，并侧重于回顾实验程序和方法，从而为眼动追踪实验提供一个框架或背景。本文内容涵盖了基本的实验设计，这与实验心理学课本没有太大的区别，其中析因设计在眼动追踪研究中特别受欢迎。

提出假设

在设计实验时，首先要考虑的是研究问题的表述。恰当地阐述研究问题有助于研究人员做出一个良好的实验设计。实验设计通常源于对零假设(H0)的构想，即预测在不同条件下获得的两组(或多组)数据之间的测量结果没有差异的陈述。实验的目的是拒绝零假设，如果从样本信息中得到的证据足以证明零假设不太可能为真，那么就可以拒绝零假设，从而支持备择假设。一个大多数人都熟悉的经典例子是新药测试。零假设是指该药物对疾病的治疗无效，或者说，其效果与安慰剂(一种已知没有任何效果的糖丸)没有区别。建立这一假设就表明存在这样一种合乎逻辑的行动过程：如何给药，以及如何进行测量。一组参与者接受药物或治疗，而另一组参与者接受安慰剂。然后比较两组之间的测量结果。接下来进行统计分析，如果测量结果没有差异，则接受零假设(表明新药无效)，否则拒绝零假设(新药有效)。但请注意，这种支持并不构成绝对证明。该实验植根于传统的科学方法，为药物的效果提供了科学证据，但没有证明其有效性。这种科学证据和证明之间的微妙区别往往被研究所忽视。

眼动追踪研究一般不涉及药物或其他消化物。相反，通常会涉及一些不同形式的交互研究。在大多数情况下，参与者通常被要求执行相当具体的任务，例如打开一个Web浏览器或查找特定的图形用户界面(GUI)图标。然后测量包括反应时、错误率，以及与参与者眼动相关的指标。后者通常包括注视、注视时间等。如何在实验中操纵不同的条件取决于实验设计。

一般来说，被操纵的变量称为自变量，或IV。所有其他变量保持不变(或试图保持不变；实验控制之外的变量可能会混淆结果，称为混淆变量)。所测量的内容(例如，反应时)通常是预期会受到自变量影响的因素，被称为因变量，或DV。也就是说，因变量(DV)取决于对自变量(IV)的操纵。

研究形式

实验是一种特殊的研究形式，一般来说，除了正在研究的效应之外，所有可能引起测量效应变化的原因都被排除了。一般的经验法则是改变一个条件，同时保持其他条件不变。确保除了主效应以外的所有其他条件都相等，这表明对实验条件进行了控制。实验设计的关键在于：如何确保只有一个条件发生变化，而其他条件都保持不变。这听起来可能很简单，但实际并非如此。即使在严格控制的实验室环境中，仍然有许多因素可能会影响实验结果。条件的可控程度将决定正在进行的实验(或非实验)类型。

有几个不同的维度可用来指定不同形式的实验设计，包括：

实验性与观察性研究

实验室与实地研究

个体特征研究与一般规律研究

抽样研究、单案例研究与个案研究

被试内(重复测量)与被试间设计

实验性与观察性研究

实验性和非实验性观察研究之间的区别主要在于对自变量(IV)的操纵。观察性研究一般是通过观察而不操纵IV。能够操纵IV通常是实验设计的先决条件。此外，为了可重复性，实验通常遵循标准化的程序。无论是自变量还是因变量，都需要进行严格定义，实验过程中采取的步骤需要详细描述或记录，分析结果必须得到有效地报告或呈现。大多数研究论文都遵循相似的形式，部分原因是为了让其他研究人员能够重现他们的实验并验证其结果。

实验室与实地研究

实验室研究通常比在实地研究能够更好地控制实验条件。在实验室进行实验的主要原因可能是为了控制实验条件。事实上，对于各种与计算机相关的实验，例如可用性测试，许多实验室已经出现了配备单向镜、摄像机和眼动仪的专门记录“工作室”。实验室研究的结果通常被认为缺乏普适性。简而言之，实验室研究的外部效度会降低，但这种对实验条件的严格控制使得研究的内部效度较高。

在眼动追踪研究中，眼动实验往往会受到设备带来的限制性，例如实验是否需要留在实验室中，或者眼动仪是否可以在实验室外环境中使用。随着设备越来越小型化和便携化，眼动追踪实验不再局限于实验室中进行。例如，桌面式眼动追踪设备可以相对轻松地携带，用一台笔记本电脑就可以在“现场”进行实验。头戴式设备也越来越轻便且实惠，因此可用于在实验室外进行各种实验。

个体特征研究与一般规律研究

这两种研究分别涉及到对个体和对更大群体的研究。一般来说，眼动跟踪研究除了对个体的临床评估或定制解决方案的评估外，还试图揭示大量群体观看模式的相似性(例如，对艺术品或计算机生成的场景)。在一般规律研究中，主要关注研究结果推广到更大群体的普适性，以及选择合适的群体代表。

抽样研究、单案例研究与个案研究

抽样研究通常是为了将结果推广到更广泛的人群。在某些情况下，可以考虑进行个案研究。与个案研究相对的是单案例实验。这是一种准实验设计，因为它无需将参与者随机分配到不同的治疗条件下。这种设计适用于特定的个人或小团体，例如专家，因为他们可能会被用于可用性启发式评估。然后可以将专家的表现与新手的平均表现进行比较，作为类似或相同条件下的基线比较。

被试内(重复测量)与被试间设计

在众多可用的实验方法中，比较常用的两种方法是被试内(重复测量)和被试间设计。被试内设计使用同一组被试，并在所有实验条件下对其进行测试。被试间设计使用不同的被试组，并将不同组的被试分配到不同的实验条件。

被试内设计对每个个体进行重复测量，因此也被称为重复测量设计。重复测量的最突出问题是，结果分析容易受到顺序效应的影响。顺序效应可能包括疲劳或学习等因素。为了平衡条件，可以使用拉丁方阵(随机)为参与者分配条件。n阶拉丁方是一个n×n的数组，其中有n个不同的拉丁字母，而且每个字母在每行和每列中仅出现一次；例如，给定n=4个条件，A、B、C、D，则生成如下拉丁方阵：

被试间设计有两个缺点。首先，需要更多的被试才能获得与被试内设计类似的统计功效。招募和测试更多的被试成本较高且耗时。其次，如果被试之间的差异过大，统计分析可能会变得比较复杂；例如，可能无法对统计平均差异进行参数评估。

示例设计

在没有明确背景和被测试IVs/DVs具体规范的情况下，对实验设计进行一般性讨论是复杂的。通常更容易先确定IVs/DVs，然后再进行设计。这样做可以确定所需的组数或实验试次数，这通常取决于采用的是被试内设计还是被试间设计。在这里，本文提供了一些基本的设计，并非所有都适用于眼动追踪研究，但有助于大家更好地整体掌握实验设计方法。

单个个体，时间序列

以传统的药物有效性实验为例。在这个设计中，只有一个被试，并且随着时间的推移进行测量。在开始治疗之前，需要进行基线测量。随后将测量结果与基线值进行比较，以检验药物的效果。图1是一个简单的ABAB型设计示例，其中A表示无治疗(基线)，B表示治疗。在图1中仅显示了ABA。虚线表示进行治疗和随后的停止治疗。该图可以显示被测量因变量的某种水平(也许是某种主观幸福感，或者是一些可量化的生理指标，如血压)。对这类实验的分析通常需要比较特定时间序列期间的因变量均值(例如，治疗B有效的时间段)。如果该均值在统计学上与无药物期间(即A基线)的均值有显著差异，则称该药物具有效果。

图1.单被试、时间序列ABAB型设计示例。

前-后测设计

单被试设计可以适用于单组设计，在单组设计中，同一组被试按AB治疗顺序接受测量，然后对整个参与者样本的数据进行分析。这种设计被称为前后测设计，因为在治疗前后都进行了测量。该类型设计如图2所示(其中也涵盖了其他设计类型)。同样，这种设计可以被视为是单因素设计。

图2.析因设计图示。

双组设计

以往的单因素(一个实验变量)设计是属于被试内设计，因为所有被试都接受了治疗。将这些设计扩展到被试之间可以得到一个两组因子设计(图2)。每组接受A0或A1，其中A0是安慰剂，A1是治疗。由于这是一种被试间设计，因此在将参与者分配到各组中时必须谨慎。这个分组过程可以通过随机化、预筛选或定向分配来实现。将对刺激的平均反应(A1)与对安慰剂的平均反应(A0)进行比较来确定治疗的显著性(或不显著性)，即效果。

双因子设计

如图2中的四个方框所示，双因子设计有两个实验变量，四个条件水平。这是一个2×2的因子设计，其中的2表示每个因子的水平数。重要的是如何将参与者分配到每个条件中。有几种可能的排列方式：

如果每个被试只完成2×2中的一个条件，那么该设计就是一个2×2四组，即完全独立的被试间设计。

如果将一组参与者分配到条件B0(左列)，另一组参与者分配到条件B1(右列)，那么该设计就变成了一个2×2的混合设计(即结合了被试内和被试间设计)。由于同一组被试将接受B0或B1治疗，因此需要进行重复测量分析来检验这些因子水平之间的显著性，这是因为B的测量不再是完全独立的。

2×3因子设计

2×3因子设计如图2底部所示，其中被试组用带下标的符号G表示。这两种都是2×3的设计，因为B有两个水平，A有三个水平。然而，左侧的设计不同，因为治疗A在被试内是不同的。因此，对A效应的分析，需要对所收集的数据行进行重复测量或非独立分析。然而，对B效应的分析可以通过独立的分析方法进行，因为该治疗是在被试之间进行的。相比之下，右侧的2×3设计是完全独立的，即完全被试间设计。

测量与分析

实验设计通常涉及对自变量(IV)的操作以及后续对因变量(DV)的测量。一般期望(假设)是，IV的操作将对DV产生某种影响，最重要的是，这种影响是可测量的并且具有(统计)显著性。执行有意义实验的关键在于对因变量的操作性定义，也就是说，需要明确定义并测量所期望的影响或效应。

举一个与眼动追踪相关的例子，我们可以测试网页上横幅广告的注意力质量。为此，我们假设动态闪烁的横幅广告比静态图像更具视觉吸引力。这一假设基于低层次视觉的基本理论，该理论表示，视觉，尤其是外围视觉，对“突然出现”的刺激很敏感。因此，通过首先将IV定义为横幅广告的静态或动态性质，即刺激中是否存在运动(也可以是动画的频率、大小、在网页上的位置等细节)，我们就有了预期的因果关系。

DV的定义应与最初对“注意力质量”的定性描述相匹配。可以通过在给定交互(网页浏览)过程中专注于横幅广告的注视次数来量化视觉注意力。需要注意的是，这种DV的操作化在其表示视觉注意的注视假设中是非常具体的。对这一假设的常见批评是，人们可能会自发地将注意力从中央凹视觉中转移。这是事实，但由于无法测量这种隐蔽的注意力机制，所以我们能做的最好事情就是认识到这一点，并且只测量显性注意力，同时假设在研究过程中，预计参与者的注意力与中央凹视觉保持一致。

假设检验取决于操作IV后对DV结果的比较。在横幅广告的例子中，DV被量化为注视次数。给定静态和动态两种条件，可以获得两组测量数据：每个被试组在每种条件下的注视次数。通常会计算出两组注视的均值和方差。然后，对这两组均值进行t检验，以检验均值差异是否具有统计学意义。此外，给定两个以上的实验条件，例如，动态广告、静态广告、无广告(对照条件)，假设所有其他实验程序保持不变，常用的显著性统计检验是方差分析(ANOVA)。ANOVA在概念上是t检验的延伸，它通过检查数据分布的重叠程度来确定是否存在显著差异(假定为正态)。若不能假设数据为正态分布，则需要对均值进行成对比较，例如成对t检验或成对Kruskal-Wallis检验。

通常，进行差异统计检验的类型取决于正在收集的数据类型以及所测量的样本(组)数量。表1列出了样本对的差异统计检验。表2列出了用于多变量数据差异的统计检验。名义数据(Nominal data)通常不是测量得到的，它指的是对数据进行分类或排序，因此也被称为类别数据。等级数据是测量数据，但仅表示数据点的顺序或位置(例如，期末考试的前五名)。

表1.样本对差异的统计检验(df=1)。

表2.多变量数据差异的统计检验(df＞1)。

一般来说，眼动数据被视为是参数化的，因为相关指标可以用统一的(等距)区间尺度/比例尺度来表示。区间尺度由相等的单位组成，例如，从160cm到165cm的距离与从170cm到175cm的距离相同。与区间尺度相关的是比例尺度，后者是区间尺度的一种特殊情况，其中比例尺度数据具有绝对零点。计时从零开始，在这种情况下，如果某件事的完成时间是另一件事的一半，那么它的速度就是另一件事的两倍。请注意，在上述眼动示例中，如果一个广告的注视次数是另一个广告的两倍，那么它的意义或价值就会是另一个广告的两倍(而零注视次数也是有意义的)。如果将注视作为认知负荷的指标，那么可以以这种方式来解释注视；例如，对一个区域投入两倍的注视可能意味着投入了两倍的认知努力(一种操作性假设)。然而，这可能并不总是一个有效的解释。例如，在屏幕的某些显眼部分(如广告)上的注视次数增加一倍，可能意味着观看者感到无聊或被与广告内容完全不同的东西分散了注意力，因此根本不能代表认知负荷。因此，在考虑所记录的测量类型以及变量的操作方式时必须非常谨慎。

参考文献：Duchowski, A.T., Experimental Design. https://doi.org/10.1007/978-3-319-57883-5_17

小伙伴们关注茗创科技，将第一时间收到精彩内容推送哦～