为什么需要对5个用户进行测试

你至少需要测试15名用户才能发现所有可用性设计的问题。...

[设计译文第6期]

摘要：煞费苦心的测试是一种资源浪费的表现。最好的方法是对5个用户进行测试，并且尽可能多的使用小测试。

很多人认为可用性测试是非常复杂并且需要很多资金的，以至于觉得这种测试应该留给个别的网站，因为它会耗费大量项目经费的同时也需要消耗大量时间。这种说法不是正确的。煞费苦心的测试本身就是一种资源的浪费。最好的方法是对5个用户进行测试，并且尽可能多的使用小测试。

在Tom Landauer和我的早期研究中显示：发现可用性问题的数量与N个用户在可用性测试中的关系：

N（1-(1-L)n）

N是可用性问题的总数，L是单个用户测试时发现的可用性问题比例。在我们研究了大量的项目后，得出L的平均值是31%。绘制出了下图的曲线示意图 L=31%

曲线最引人注目的是零用户给予零反馈。

一旦你从第一个被测试的用户那里获得了一些数据。你就会对可用性设计有所了解。零数据和一些数据是有很大区别的。

当你测试第二个用户的时候，你会发现第二个用户和第一个用户做的事情会非常相似，因此有些数据会有所重叠。因为每个个体是不同的，所以肯定会有一些新的发现。

第三个用户也会做一些和上面两个用户相似的行为，当然也有一些会有所不同，就如上文所说，个体的不同数据也有所偏差。

随着你测试的人越来越多，你能得到的新数据会越来越少，因为你将会看到同样的行为一遍又一遍的被操作。所以说没有必要再对同样的行为进行过多次数的测试。反之你更愿意回到自己办公桌去绘制图纸或者重新设计这个方案，以减少之前出现的可用性问题。

到第五个用户被测试的时候，你已经花费了很多时间去测试一些重复行为而不是得到新的数据。迭代

上图曲线示意图清楚的表明了：你至少需要测试15名用户才能发现所有可用性设计的问题。这就是为什么我推荐用小的用户数量来测试。

主要原因是，最好把你的预算分散给许多小测试里，而不是把这些预算给一个。你应该用你现有的预算去招募一些有代表性的客户，让他们作为被测试者。把这些预算用在三组用户（每组5人）里面。

采用多个用户组测试的目的是改善设计，而不是知道它的弱点。通过对第一组用户进行测试就已经能发现85%产品的可用性问题，接下来你就可以重点的去设计它，从而解决这些问题。

在做了新的设计后，产品仍然需要再次测试。即使我说的重新设计应该是“修复”之前遇见的一些问题，但现实就是你以为新的设计解决了这些问题，但由于没有人能设计出完美的界面，所以无法保证新的设计是没有任何问题的。所以需要再次测试，在第二次测试的时候你会发现这些功能是否能运行。在使用了新的设计后，也会有一些新的可用性问题出现，有时候即使旧的问题被解决了，新的其他问题也随之而来。

在对第二组用户进行测试时，会发现在第一轮测试中没有被发现而被遗留下来15%的可用性问题。（仍有2%的问题被留下来，所以不得不等到第三次测试）

第二组研究能够深入调查网站的可用性基本结构，评估网站的一些问题，比如：信息架构、任务流、与用户需求度相匹配。这些重要的问题常常被一些表面的问题给挡住，从而很难去发现真正的问题。

所以在对第二组进行研究的时候应该提供更深入的见解，同时会出现一些新的但较小的可用性问题，也需要去修改设计。这个观点同样适用于设计：并不是所有修改了的设计都能运行；一些更深层次的问题要重新设计之后才能使用。因此，第三组用户的测试是需要的。

通过五个用户为一组的三轮研究，最终产品的用户体验得到很大改善。而不是采用一个大型的15个用户为一轮的研究。为什么不只测试单组用户？

也许你会认为15个人为一组的研究应该比5个人为一组的三轮研究要更好。上图曲线表明，我们从第一组用户那里得到的数据比任何后面得到的更多，那为什么我们还要继续了？以下有2个理由：

·        通常使用单组人的测试会有一些风险，导致这些行为习惯并不是真实数据，假如这个人曾经有过事故或者说他只是代表某类型的人。而3组用户就足以了解用户行为的多样性和不同的见解。

·        用户测试的成本分析提供出了最佳测试比例大约是3个或者5个用户，具体采用哪种取决于测试的风格。总有一个固定的初始成本与计划相关的研究：这个发现来源于，当你使用多个用户时，发现可用性问题数量就在减少。

测试更多的用户

当网站有不同的用户群体的时候，同样也需要测试他们。上面的公式只适用于用相似的方式使用网站的用户。

比如你有一个网站需要对孩子和家长进行测试，那么你需要测试这两组用户群，因为孩子和家长的行为习惯是截然不同的。

即使用户群是截然不同的，通过观察他们之间也有很大的相似之处。毕竟所有的用户群都是人类。用户与网站的交互方式和网站对用户行为的影响都和可用性问题相关。

在测试多个不同用户群体的时候，不需要每个群组都有很多人。通过观察会得出一些结论，那就是从不同的用户群那里得到的数据也会有重叠的部分。

我建议：

·        如果测试两组不同类别的用户，每个类别至少需要3-4个用户

·        如果测试三组或者更多组不同类别的用户，每个类别需要3个用户（你至少需要对三个用户进行测试，从而确保你他们行为的多样性。）