众包服务小测试(可用性测试的众包)
众包服务小测试(可用性测试的众包)参与者首先被引导进行一项调查,并被要求填写一份人口统计学问卷。然后他们被要求执行一系列的四个任务,在网站上进一步讨论。这些任务代表了网站的新用户将在网站上做什么。任务完成后,参与者被要求回答一系列关于他们在网站上的经历的开放式问题。这些参与者中没有一个人表示以前有过被测试网站的任何经验。参加测试的人员因参加测试而获得补偿。这些测试分三轮进行。因为我们之前没有进行众包可用性评估的经验,所以首先对11名参与者进行了试点测试。在分析了试点测试的结果之后,我们修改了测试,并对另外44名参与者进行了第二次测试。在前两轮积累了经验之后,我们做了一些改变,并在2011年世界可用性日现场进行了第三轮测试,有50名参与者。uTestUtest社区由一组测试人员组成,这些测试人员横跨许多位置、语言、操作系统(OS)、浏览器和设备。用户指定测试需求,比如地理位置、操作系统和浏览器,然后上传测试脚本。Utest继
论文:Liu D Bias R G Lease M et al. Crowdsourcing for usability testing[J]. Proceedings of the American Society for Information Science & Technology 2013 49(1):1-10.
摘要虽然可用性评估对于可用性网站的设计至关重要,但传统的可用性评估可用性测试可能既昂贵又耗时。亚马逊mTurk(Mechanical Turk)和CrowdFlower等众包平台的出现,为执行远程可用性测试服务提供了一个有趣的新途径,这种服务具有潜在的多用户、快速的扭转局面和显著的成本节约。为了调查这种众包可用性测试的潜力,我们进行了一项可用性研究,使用众包平台评估了一个研究生院的网站。此外,我们在同一个网站上进行了类似但不完全相同的传统实验室可用性测试。虽然我们发现,与传统的实验室环境相比,众包显示出一些明显的局限性,但它对可用性测试的适用性和价值是显而易见的。
技术介绍可用性被定义为"在特定的使用环境中,特定的用户可以在多大程度上使用产品以达到特定的有效性、效率和满意度的目标"。
众包(Crowdsourcing)是这样一种行为:接受一个传统上由指定代理人执行的工作,然后以公开选拔的形式将其外包给一个未定义的、通常是大群体的人。人们从事众包工作有各种各样的原因:报酬、利他主义、享受、声誉、社会化等等。众包正变得越来越流行,并已作为一种可用性工程方法。通过众包可用性测试,你可以利用广泛的用户来测试一个在线网站或应用程序。
uTest
Utest社区由一组测试人员组成,这些测试人员横跨许多位置、语言、操作系统(OS)、浏览器和设备。用户指定测试需求,比如地理位置、操作系统和浏览器,然后上传测试脚本。Utest继续从它的大型社区中识别并邀请合格的测试人员。测试人员接受然后根据提供的测试脚本测试网站/应用程序的功能或可用性。最后,请求者根据质量通过或拒绝每个测试者的报告。
方法我们的研究包括对一个研究生院的网站进行众包可用性测试。我们要求参与者完成一系列任务,这些任务是为那些以前从未使用过该网站的潜在学生设计的。所有的参与者都执行相同的任务。
这些测试分三轮进行。因为我们之前没有进行众包可用性评估的经验,所以首先对11名参与者进行了试点测试。在分析了试点测试的结果之后,我们修改了测试,并对另外44名参与者进行了第二次测试。在前两轮积累了经验之后,我们做了一些改变,并在2011年世界可用性日现场进行了第三轮测试,有50名参与者。
参与者首先被引导进行一项调查,并被要求填写一份人口统计学问卷。然后他们被要求执行一系列的四个任务,在网站上进一步讨论。这些任务代表了网站的新用户将在网站上做什么。任务完成后,参与者被要求回答一系列关于他们在网站上的经历的开放式问题。这些参与者中没有一个人表示以前有过被测试网站的任何经验。参加测试的人员因参加测试而获得补偿。
众包可用性测试设计众包可用性测试不同于设计传统的实验室可用性测试。首先,由于测试主持人并不直接与参与者互动,众包可用性测试中的说明和任务必须尽可能明确具体地描述——没有机会提供随后的澄清。为了确保高质量的数据,我们没有使用可以随机选择答案的多项选择题,而是使用填空题,参与者被迫放慢速度,花时间在任务上。为得到高质量的反馈,给出实质性反馈的员工将获得高达100%的奖金,而给出随机答案的员工将被拒绝。
1. 试点测试
试点测试由直接从mTurk招募的11名参与者进行,他们自我报告人口信息,包括年龄、性别和达到的最高教育水平。然后我们把他们引导到网站上,要求他们完成一系列任务,并回答一系列关于他们经历的开放式问题。
整个调查计划在10分钟内完成。我们提供每次高强度训练0.15美元。试点测试在一个周日下午启动,所有11名参与者的测试结果在三个小时内就可以得到。总费用包括给做得好的参与者的奖金和mTurk的佣金为2.92美元(1.10美元作为奖金,0.17美元作为mTurk的佣金)。
试点测试结果
试点测试的结果为我们后来的测试设计提供了依据。高强度锻炼的平均时间约为13分钟,比预期的要长。最快的员工只用了7分钟就完成了高强度训练。拥有学士学位或高等教育水平的工作者完成高强度职业技术教育的速度要快于拥有大专或以下学历的工作者。
在开放式问题部分,用户没有兴趣对开放式问题给出详细的反馈。所有的工作者被认为已经按指示完成了HIT(Human Intelligence Task),所有的结果被接受,没有垃圾邮件散布者被识别。
重新设计测试工作者
(1) 一个人口统计问题用于区分是否经验丰富的工作者。
(2) 开放式问题被分解为更详细的问题。
(3) 提高了最终测试的补偿金。
2. 第二轮测试
第二轮测试由44名通过CrowdFlower招募的mTurk参与者完成。
最终测试的参与者也被要求记录和报告在每个任务上花费的时间(分钟)。完成任务后,工作者们被问了一系列开放式的测试后问题。
第二轮测试结果
最终测试的结果比mTurk的试点研究得出的结果更快。
在第二轮测试中,大多数工作者按照指示完成了测试。然而,大约30%的工作者(44人中的14人)被手动标记为垃圾信息散布者。这是因为他们提供的答案似乎是随机的。
一些员工报告的任务时间值得怀疑。我们预计工作者们不会非常精确地计时,但是最终的结果太不准确,无法有效地利用任务时间数据来评估网站。
通过将开放式问题分解成更详细的问题,提交的反馈要比试验性测试好得多。
第三轮测试
在获得前两轮测试的经验之后,我们进行了第三轮测试,由50名mTurk的工作者完成。在这个测试中,我们直接从mTurk招募群体工作者,就像我们在试点测试中所做的那样,以获得对接受或拒绝工作者工作的更多控制。第三轮测试的人口统计学问题、任务和开放式问题与第二轮测试的完全相同。但是,我们没有要求用户自我报告他们在每个任务上花费的时间,这在第二轮测试中被证明是没有效果的,而是问了一个5分制的问题:“你找到这些信息有多难?”,并提供了一个可选的字段“基于你在这项任务的经验提供评价”。我们还在调查结束时添加了系统可用性量表(SUS)问题。这一轮测试在世界可用性日现场直播。第三轮测试的设计时间为每个参与者20-25分钟。因为我们是在现场直播,所以我们将每次高强度训练的补偿金提高到1美元,以便更快地得到结果。这项测试是在一个星期四的早晨启动的。所有50名参与者的结果在不到一个小时内就出来了。
第三轮测试结果
第三轮测试的结果很快就出来了。我们提供的HIT的补偿,1.00美元,高于其他大多数mTurk的点击数。我们怀疑这吸引了更多的工作者来做测试。
与第二轮测试不同的是,在我们得到的50组测试结果中,只有4组(8%)被标记为垃圾邮件,就像我们在第二轮测试中标记垃圾邮件一样。
成功率、可用性问题识别和一般反馈与试点测试和第二轮测试没有显著差异,后面将讨论这些。
3. 传统的实验室可用性测试
除了三轮众包可用性测试,我们还进行了传统的实验室可用性测试。形成性测试的目的是发现可用性问题并从用户那里得到反馈,然后比较两种可用性测试方法的结果和发现。
实验室可用性测试是在研究生院的传统可用性实验室环境中进行的,有5名参与者。这部分测试的所有参与者都是学校的在校学生,都是志愿者。戴尔的笔记本电脑安装了火狐浏览器,上面安装了hypercam3。参与者与网站的互动由两名测试人员监控:一名无声观察员和一名辅导员,他们对每位参与者进行测试和互动。 通过HyperCam3记录测试会话以供以后分析。
在可用性测试过程中,参与者首先被告知测试的目标和方法。然后,他们完成了一份预先测试的人口统计和背景信息问卷。研究人员要求参与者完成五项与在校学生日常使用网站有关的任务。
当参与者表明目标已经实现或者他/她通常会停止使用网站来实现目标时,认为每项任务都已完成。 参与者被要求在他们处理每项任务时大声思考。 作为网站的常规用户,参与者还会提到他们在之前与网站交互过程中遇到的问题。
讨论众包可用性测试相比于传统实验室可用性测试的优点和缺点
优点:从众包平台招募参与者要比让参与者来实验室做可用性测试容易得多。
众包可用性测试可以较高速度完成任务。
众包式可用性测试的潜在成本节约也很重要。
众包工作者来自各行各业。
缺点:来自一个众包参与者的反馈数量远远低于来自一个实验室测试参与者的反馈数量。
工作者们参与度较低。
出现垃圾邮件散布者。
用户组比较不集中,比如计算机文化低的用户不太可能拥有像mTurk或uTest这样的在线众包平台的账户。
与传统可用性测试相比
众包可用性研究和实验室可用性研究的结果既有显著的相似性,也有显著的差异。实验室可用性测试和众包可用性测试的参与者人数不同,人口统计学特征不同,测试时间不同,具体任务不同,货币成本也不同。(表2)
两组测试的网站可用性问题尽管存在差异,却有着显著的重叠。(表3)
未来的工作我们详细未来研究的一个重要方向是探索如何面对这样的众包挑战进行更多的平行研究。虽然在某种程度上,参与者的人口统计学差异是由测试方法的核心差异造成的,但可以制定措施来促进更多的平行研究。例如,我们的实验室可用性可以在没有网站经验的参与者身上完成,类似于大众工作者。另一方面,我们也可以尝试招募学生使用在线众包平台。无论哪种方式,参与者在两种情况下都可以期望执行最大程度相似的任务,以确保更系统的比较。
在我们的众包可用性测试中,任务执行时间和网站上的动作没有受到监控,尽管任务执行时间对于识别可用性问题非常有帮助。通过访问网站服务器端的日志数据,可以监测这些信息,而不是依靠工作人员自己报告的数据。这样,就有可能更准确地测量完成任务的时间,并跟踪参与者在最终完成任务之前所采取的不必要步骤。当然,这显然是一个更加劳动密集型的测试。
另一种收集大量反馈的可能方法是对开放式问题要求一定长度的答案,或者对一个问题要求一定的时间。
总结这篇论文探讨了众包作为远程可用性测试的一种替代方式。我们在研究生院的网站上进行了实验室可用性测试和众包可用性测试。我们发现,虽然众包的结果质量通常不如我们实验室可用性测试的结果,但是一些重要的可用性问题可以通过众包可用性测试来识别。与来自不同背景的参与者一起,众包似乎不负其速度更快、成本更低、表现更容易的名声。然而,要得到有用的结果并最大限度地减少垃圾邮件,需要仔细设计任务和调查。众包减少了实现障碍,但仍然需要仔细的实验设计和控制,而且它引入了一些需要仔细管理的新风险。
与少量的实验室测试相比,众包的累积结果对组织来说可能更有价值。某些指标(例如,任务执行时间)和某些类型问题的识别(例如,对于在前一个网站上有经验的用户)可能最适合与传统的实验室测试联系在一起。混合测试计划,包括传统测试和众包测试,可能是新兴网站或应用程序设计的最佳解决方案。对传统投资的相对回报率有了更细致入微的理解
致谢此文由南京大学软件学院2019级硕士张朱佩田翻译转述。