论文:Nebeling M , Speicher M , Norrie M C . CrowdStudy: general toolkit for crowdsourced evaluation of web interfaces[C]// Acm Sigchi Symposium on Engineering Interactive Computing Systems. ACM, 2013.
摘要:
传统的可用性测试方法既费时又昂贵,但自动化可用性评估工具往往会将问题简化到只支持某些评估标准、设置、任务和场景。我们介绍的众包学习,是一个通用的web工具包,它将对自动化可用性测试的支持与众包结合起来,以促进大规模的在线用户测试。众包研究是基于现有的众包技术来招聘员工和指导他们完成复杂的任务,但是它实现了专门为可用性研究设计的机制,允许测试人员控制用户抽样并对特定的使用环境进行评估。我们的工具包支持基于可扩展度量集的上下文感知数据收集和分析,以及用于管理、审查和分析任何收集到的数据的工具。本文展示了众包研究在两种不同场景下的几个有用特性,并讨论了使用众包评估的利弊。
作者关键词
Web可用性;用户测试;众包的评价
ACM分类关键词
H.5.2信息界面与表示:用户界面-评价/方法
介绍
可用性评价是用户界面设计过程中的重要组成部分。web可用性一直受到特别关注,其中具体的设计方法和评估指标已经过了多年的发展。虽然最常用的评估方法是用户测试,但它受到可用时间、金钱和人力资源的严重限制。与此同时,一组用于自动化可用性测试的工具在中不断发展。然而,当前可用性评估工具仍然存在一些局限性,我们的目标是在这项工作中解决这些局限性。
首先,考虑到今天的网络设备的扩散,一个网站的可用性在很大程度上取决于其适应能力这些具体设备使用。现有指南,如w3c的Web内容可访问性指南WCAG,包括一组关于使内容可访问的建议,重点是满足用户的特殊需求。W3C网站列出了不同的评估和问题报告工具,但是没有一个工具考虑到快速变化的使用上下文范围。特别是,还需要支持移动设置并利用现代触摸设备上可用的丰富输入传感技术的工具。
其次,虽然有用于跟踪的用户活动的高级框架,但可用的实现(如WebQuilt和Web可用性探测)通常仅限于事件日志记录,通常在服务器端或客户端支持这一功能。因此,信息通常是在很低的语义水平上收集的,这意味着后处理和特殊的逻辑分析需要可视化,并使收集到的数据有意义。第三,一些基本的任务,如主题招聘(包括资格测试)和远程可用性测试的许多关键方面(包括主题内部或主题之间的任务分配)通常超出了现有工具的范围。通常需要开发特殊的解决方案,以便在需要的条件下进行测试,而不是让工具用于不同的设置。最近,像亚马逊机械Turk2这样的众包服务作为进行在线用户测试[12]的平台受到了很多关注。研究已经开始通过对比实验室和远程研究来研究众包用户测试的利弊[4,16]。我们的目标是将众包支持紧密集成到可用性测试工具中,以支持广泛的评估方法和场景。在本文中,我们提出了众包学习,一个综合框架和全面的网站测试工具包,集成了众包服务,如土耳其机械,广告和网上评估。众包学习是由几个研究项目发展而来的,这些项目要求用户在短时间内测试广泛的使用环境[22,23]。虽然它最初是专门为进行这些研究[21]而开发的,但我们现在已经在众包学习中构建了一些机制,允许它针对不同的任务和特定评估场景所需的额外指标进行配置。作为提出有趣挑战的重要场景的例子,我们报告了两项使用众包学习进行的评估,该评估用于在大屏幕环境和移动触控设备上进行可用性测试。下一节讨论相关工作。以下是两个使用现有工具支持难以解决的场景。然后,我们介绍了众学习的框架、架构和实现,以及说明其用途的各种研究。最后,本文分析了众包研究的贡献,比较了传统的可用性测试和众包评估,讨论了每种技术的优缺点。
背景
众筹建立在现有的可用性自动评估框架的基础上。大多数方法的共同之处是记录用户界面事件,目的是提取与可用性相关的信息。虽然给出了一个全面的概述,但是在这里我们的审查仅限于工具的选择,并强调了众包学习的不同之处。早期的工具是WebQuilt,它支持基于服务器端组件的日志记录和用户活动跟踪,使用基于代理的解决方案拦截与web站点的交互。WebQuilt记录了客户端和服务器之间的通信,在导航和访问路径的网页内和之间。然后,这些信息可以显示在一个图形中,显示web页面为节点,操作为边缘。有了这些信息,就有可能检测某些用户交互模式以及文档结构和导航问题。与基于客户机的解决方案相比,WebQuilt的最大缺点之一是不支持记录和处理基于javascript的操作。鉴于jQuery3等库的日益流行,以及许多现代web站点广泛使用AJAX处理动态内容,这一点就成为比较突出的问题。
在中开发的通用框架还构建在代理服务器上,因此不需要手动修改正在调查的web站点。与WebQuilt不同,该方法侧重于基于javascript的客户端交互跟踪技术。这是由这样一个事实驱动的:基于客户机的技术往往在web页面内的交互方面提供更丰富的信息。该框架可以收集的数据包括鼠标移动和单击、元素焦点和选择、表单输入以及不同表单字段所需的时间。然后,它可以映射到各个页面元素,并可用于可视化web页面内用户的交互路径。
最近,Web可用性探针(WUP)被提出。WUP扩展了上述原则,它不仅支持数据日志记录和可视化,而且支持自动分析。该方法基于由评估器为测试场景定义的“最优”日志。然后,这些日志为与生成的日志进行比较提供了参考
由参与者。与其他解决方案类似,WUP支持跨web站点进行评估,同时捕获大多数标准鼠标和键盘事件。此外,还可以注册自定义客户端事件进行跟踪,从而为评估人员提供更大的灵活性。然而,记录数据的可视化仅限于时间线,这只对计时性能度量有用。
上述解决方案为我们的框架提供了良好的起点。然而,他们缺乏对语境的支持,这是一个群体研究。具体来说,我们展示了如何利用最先进的传感技术[6]获取更多关于使用上下文的信息,这在移动设置中尤为重要。此外,我们的解决方案集成了对众包的支持,最近才被考虑用于可用性测试。众包(Crowdsourcing)是指将一项任务外包给更大范围内的一群人,其形式是公开呼叫。如前所述,人们对支付微任务众包市场(pay micro-task crowdsourcing market,如Amazon Mechanical Turk (MTurk))给予了很大的关注。最初的研究将其评估为开展在线用户研究的通用平台,部分研究重复了之前的实验室研究,得到了相似的结果。
而其他的可用性评估方法可能会产生更可靠的结果,MTurk通常被认为是一种有用的工具,可以说优于传统实验室的实验,如容易和快速访问大量用户池之间的相对较低的成本和更快的迭代初始和后续实验完善评估过程。解决的缺点MTurk作为实验平台,已研制出许多不同的工具箱上,从TurKit编程迭代和并行众包任务设计,在Turkomatic使用人群的“编程”的任务,对汽车制造商为全自动众包编程。
众包学习与这些作品的相似之处在于,它也旨在利用MTurk等现有的众包服务,在时间和金钱的限制下,方便大型网站的用户测试。但是,与这些工具包不同,众包学习是专门为独立于其他服务的现有网站的众包评估提供灵活的支持,使用MTurk作为进行在线实验的额外但可选的渠道。
在总体设计上最接近众学的是TurkServer。TurkServer的目标是成为同步和纵向在线实验的通用平台,解决在线实验的技术设置、用户和数据的分组以及不完整和无效数据的过滤等常见问题。它通过提供合适的抽象和基础设施来实现这一点,这与众筹类似。然而,众包学习实现了特定于web可用性评估的任务和指标,并解决了新设备的激增以及它们可能如何影响用户体验的问题。因此,可以将众包学习配置为使用当前web设计不支持的设备来吸引更多的用户。这有助于开发人员针对特定设备的可用性问题,并最终提供更灵活的web接口,以适应更多种类的使用上下文场景为了更好地说明问题并激发为众包学习开发的技术,我们提出了两种场景,它们提出了不同的要求,并有助于解释我们框架中定义的不同组件的作用。
场景1:为大屏幕设计网页一组HCI研究人员已经开发了一个新的系统原型系统,该系统提供了用户自己的工具,可以为更大的观看尺寸特定地定制网页。为了评估工具支持并在短时间内研究许多可能的布局,他们决定进行远程用户研究并希望招募大量参与者。首先,参与者随机分配三个可能的任务中的一个 - 一个要求他们调整网页,另一个用于比较基于美学考虑的布局,第三个用于使用特定布局阅读和回答文本问题。鼓励参与者处理其他任务,但任务分配取决于参与者已经处理过的任务以及其他参与者提供的布局数量。每项任务都首先显示说明和结尾,并通过任务后问卷收集主观反馈。研究人员需要能够在研究期间和研究后密切监测和检查结果。
场景2:触摸移动设备上的交互同一团队的研究人员还开发了第二个原型,专门用于移动浏览器,使用新技术进行触摸交互跟踪,并根据用户性能指标调整网页。同样,他们需要在短时间内评估新系统的参与者数量,但现在需要针对各种不同的移动设备进行评估。对于这项研究,参与者将被给予50个小任务(例如,点击链接),这些内容需要随机和平衡。为了引导用户完成研究,网页的各个部分将突出显示,窗口将滚动到所需位置。在研究之后,要求参与者填写调查问卷,提供评级和评论方面的反馈。研究人员希望对所收集的数据进行检查和目视检查,以便于快速分析。此外,计划使用类似的任务进行后续实验室研究,以在更加可控的环境中验证其发现。
要求
要求上述方面不仅仅考虑使用上下文(大屏幕与移动触摸),而且还涉及任务类型(相当简单的设计和设计,比较网页与相当简单的机械任务,如点击链接),任务分配(随机和受控的随机和平衡)和分配(主体内与主体之间)。 基于这些场景和我们进行可用性研究的经验,我们得出了众包学习的以下一系列要求:
- 上下文感知系统必须能够检测客户端上下文以及与台式PC和移动触摸设备上的所有主要浏览器兼容。
- 易于集成系统必须易于集成到正在调查的网站中。此外,应该支持较小的改变到网络接口(例如,将任务的一部分作为页面组件)。
- 主题招募系统必须在很短的时间内支持参与者的潜在重要性。
- 简单而复杂的任务系统必须同时启用简单和复杂的任务,例如:通过分割任务和自动化不相关的子任务来保持认知负荷和参与者分心。
- 受控测试系统必须支持在受试者内或受试者之间的不同模式的分配和分配,例如随机化和平衡。
- 资格检查系统必须确保参与者必须满足某些要求(例如使用特定的浏览器或设备)才能参与该研究。
- 前/后条件系统必须支持整体研究和个别任务的可选前后条件。例如,条件可以是询问人口统计和反馈的问卷。
- 不同的指标系统必须提供各种可用数据的自动记录,包括人口统计,用户反馈和任务相关数据(如任务完成时间,任务成功率等)。这些必须通过指标以汇总形式提供,以便于统计处理。
- 实时检验根据刚刚描述的指标,系统必须提供方便,方便地检查研究后的风险,包括单个参与者的个人数据集和可配置的聚合方式。
- 不同的评估系统必须能够轻松准备不同的研究方法,即异步远程研究以及受控的实验室研究。
众包学习在本节中,我们从更高层次的抽象中给出了我们框架的第一个概述。图1说明了众包学习的主要组成部分。这些组件的设计来自以前的工作和不同的方案,包括前面提到的,但是整体框架设计被推广并且还扩展到为情境感知和众包提供支持。一方面,任务和度量组件允许可用性评估方案的配置和框架收集的信息。基于这种配置,它可以自动控制主题招募,任务分配和正在运行的研究的其他方面。另一方面,管理工具和用于查看,分析和可视化用户数据的组件通常用于研究和监测用户数据并评估结果。
讨论和结论
本文介绍了众包学习,这是一个灵活的框架,用于在实验室或远程设计和进行网站评估,然后使用众包技术和服务,如Mechanical Turk进行大规模用户测试。 为了在技术层面展示我们框架的新颖性和灵活性,这些研究涵盖了许多不同的使用环境,包括不同类型的移动触摸设备。
众包学习还不是Mechanical Turk(MTurk)的另一个框架。更确切地说,众包学习是一个设计用于导通可测性测试的通用框架,它也可以与众包服务结合使用,例如:
MTurk。而MTurk已经为质量测试提供支持,支持和实施的水平因不同的购买平台而异。 众包学习的测试可以类似于MTurk,但是可以独立于众包服务进行设置,如果众包学习只招募网站用户而不是挤出工作人员,也可以使用。另请注意,众包学习测试可以超越工作者历史记录及其性能,使可用性测试人员可以专门招募用户并针对不支持的使用上下文进行测试。特别是,这两项研究表明,可以实现任务之间的依赖关系,并根据用户的背景和质量以及使用的设备和实验进度来控制是否以及如何将任务分配给用户。一个核心问题是众包评估如何与使用专家或实验室主体的可用性评估进行比较。虽然这通常是在中讨论的,但是在使用众包学习s的经历中,他们认为这些因素是最重要的。例如,使用众包学习进行的第二项研究表明,我们的移动测试版本在阅读体验和效率方面非常接近原始版本,在线和实验室环境中都有类似的结果。实验室研究证实了众包实验的结果,但没有提供任何新的见解。但是,控制设置越多,结果的有效性就越高。例如,阅读时间显示实验室研究中的差异通常较小。另一方面,众包评估提供了额外的洞察力,了解参与者如何在多种不同的现实条件下在许多不同的智能手机和平板电脑上使用测试页面。这使我们能够检测使用模式和差异,不仅仅是设备的不同类型,而且还可以在纵向和横向之间检测,这在实验室中会很困难。
致谢
此文由南京大学软件学院2018级硕士吴贝贝翻译转述。