在可用性研究中需要测试多少用户?

真友书屋 2014-11-30

展开全文

先说说什么是可用性测试。可用性测试是在产品或产品原型阶段实施的通过观察或访谈或二者相结合的方法，发现产品或产品原型存在的可用性问题，为设计改进提供依据。

如果你想一个数字,答案很简单: 在可用性研究中测试5个用户。这几乎能让你找到所有的可用性问题,你会发现使用更多的测试参与者跟使用5个用户的效果是相同的。

这个答案在其他测试中也是同样的,在1989年我开始开始推动“折扣可用性工程”。无论你是测试网站,企业内部网,电脑应用程序,或移动应用。5个用户,你几乎总是接近用户测试的最大收益成本比。

像任何人为因素问题一样,不过,也有例外：

定量研究(针对统计数据,而不是观点)：测试至少20个用户去获得统计上显著的数字;紧置信区间需要更多用户。
卡片分类：测试至少15个用户。
眼动仪测试：如果你想得到稳定的热点图需要测试39个用户。

然而,你不用太担心这些异常：你应该用定性用户研究绝大多数人——也就是说,旨在收集见解来驱动你的设计,而不是在用PPT打动人。

小测试的主要参数是投资回报:每增加一种研究参与者，测试成本就会增加,但很快发现的数量达到了收益递减点。超过5人的研究几乎没有任何附加价值，投资回报率会下降得就像一块重力更大的石头。

如果你有一个大的预算？是的！钱应该花在进一步的研究上，而不是为每个研究增加测试对象。

可悲的是，大多数公司坚持用大规模的测试。在可用性周会上，我调查了217个与会者关于他们公司的做法。一般的回答是，他们使用的每一轮用户测试11个测试参与者——超过推荐大小的两倍。很显然，我需要更好地解释小样本可用性测试的好处。

关于是否使用更多测试参与者的争论

“一个有百万级用户的大型网站。”样本大小并不重要,即使你在做统计。一项民意调查相同数量的受访者需要找出谁将当选匹兹堡市长或法国总统。统计抽样的方差是由样本量决定的,不是由全体人口数量的样本量决定的。在用户测试中,我们关注的是一个网站的功能设计元素很容易或难以使用。评价一个设计元素的质量不依赖于有多少人使用它。(相反,决定是否需要修复一个设计缺陷而恰恰应该考虑多少人去使用它:一些没有人使用的功能是不值得去改进的,而应该把时间花在有数百万用户使用的功能的改进上。)

“一个有数百功能的大型网站。”这是一个运行不同测试的论据——每个关注于一组较小的功能——而不是在每个测试中采用更多用户。你不能要求任何个人测试一大堆任务,否则可怜的用户会累坏的。是的,总体上你需要更多的用户测试整体功能丰富的设计,但是你需要把这些用户分散到不同的研究中,每个测试都要专注于你研究日程中的一个子目标。

“我们有几种不同的目标受众。”这实际上可以为测试一个更大的用户集合提供一个正当理由,因为你需要每个目标群体的典型特征。然而,这种观点只在行为方式完全不同的用户身上有效。从我们的项目包括一些例子:

一个针对医生和病人的医疗网站,
一个你可以卖东西和买东西的拍卖网站

当用户时给他们的任务是如此不同时,你绝对血药为每个目标受众进行一次新的测试,你需要接近5人/组。通常,你可以勉强每组3 - 4用户,因为用户体验中两组之间会有所重叠。例如一个金融网站,目标用户时新手、中等程度和经验丰富的投资者,你可以测试每组3人,总共9用户——你不需要15个用户来评估网站的可用性。

“这个网站赚钱多到即使是最小的可用性问题也是不可接受的。” 有钱的公司肯定有一个ROI案例(“Return OnInvestment”投资回报率)在可用性上花更多的钱。即使他们花了“太多”在每一点质量改进上,他们也会因此通过用户界面获得更多的现金流。然而,即使是最高价值的设计项目也会通过缩小每个研究的规模，增加更多研究项目来优化他们的投资回报率，这是低价值项目所不能支撑的。

基本的一点是,只要你在你将要设计和测试的进阶版本中采用迭代设计的方法，那暂时把目前版本中的可用性问题放到一边也是可以接受的。任何没有修复的问题下次迭代中都会被修复。如果你有很多（可用性）问题要解决, 需要为多次迭代有一个简单的计划。最终的结果将是更高质量的(因此更高的商业价值)，因为采用了更多次的迭代而不是在每次测试中找更多测试者。

83个案例研究

下表总结了83个尼尔森·诺曼集团最近的可用性咨询项目。每个点是可用性研究，并显示有多少用户测试，有多少实用性，我们的调查结果报告给客户。图表只包括“正常”的定性研究,我们也运行竞争基准研究和测量,并进行其他类型的研究没有显示在这里。)

这其中表现出弱相关性,但真的非常小。在这些许多项目,测试更多用户没有明显获得更多的见解。

为什么我们会把采用更多测试者（的方法）优先考虑？这也让我绝对相信我自己的研究结果显示出小样本测试的优越性。原因有三：

一些客户想要更大的测试来获得内部信任。当一个研究的发起人向不懂可用性的高管展示成果时，采用更多测试者的测试更容易被认可、(如果管理层信任自己的员工,可以节省很多钱。)
一些设计项目有多个目标受众，而且，预期的行为差异大到足以掩盖采用更多测试者带来的代价。
最后,事实上,这些咨询项目会采用稍微多一些用户来测试（让企业觉得物有所值）,这就是为什么我们经常用8个用户进行研究。ROI是收益和代价之间的比例。招聘顾问,真正的代价会高于费用，因为客户还必须花时间寻找顾问和项目谈判。更高的投资会让你想要一个更大受益。

最后一点也解释了为什么真正的回答“需要多少用户来测试”有时会比5小得多。如果你有一套低成本的敏捷用户体验的设计方法,你投资在每个研究上的成本会微不足道，这样投资收益比就能被优化。(在每个项目上挣取更少的钱来让总收入提高看上去是违法直觉的，让更小的工作量让你可以运作更多的项目（此处是针对咨询机构而言的）)。

对于真正的低负担项目,通常是最佳的测试在每个研究中仅有2个用户。对于一些其他项目,8个测试用户——有时甚至更多——也许会更好。然而,对于大多数项目,你应该把数量停留在经验证而证明可靠的:5个用户来进行可用性测试就足够了。

本文翻译自nngroup，仅供学习交流使用。