您当前位置:图趣网(Tuquu) >> 网页设计教程 >> 设计理论 >> 浏览设计教程

在可用性测试中,如何做好义务评估模型与计量体例?

金蝶云之家用户研究员-郑少娜:在可用性测试中,如何去评估测试的场景或流程呢?应该包含哪些维度?每个维度要如何测量?怎样在不同的义务间做横向对比?本文就此逐一讲述。

公司的产品最近发布了一个版本,上线了比较多的新功能。所以必要针对这些新功能做一轮可用性测试

可用性测试算是用研的一个入门级技能,即使是从业年限不多的我也已经做过多次,基本的方法和流程都比较认识了。但是之前做过的可用性测试有个缺陷:没有建立一个严谨、科学的义务评估模型。在可用性测试中如何去评估测试的场景或流程呢?应该包含哪些维度?每个维度要如何测量?怎样在不同的义务间做横向对比?

评估模型

iSO9241中对「可用性」的定义是:特定用户在特定的使用场景中,为了达到特定目标而使用某产品时,所感受到的有用性、服从和写意度。

也就是说,在定义好了用户、场景和目标的前提下,可用性包含了下面三个维度:

  • 有用性(Effectiveness):用户完成特定目标的精确和完备程度。
  • 服从(Efficiency):用户完成特定目标的服从,与消费的资源(如时间)成反比。
  • 写意度(Satisfaction):用户使用产品时感受到的主观写意程度。

优秀的可用性必须能够同时知足有用性、服从和写意度三个条件,但是这三个维度也有条理之分,一样平常来说,有用性题目>服从题目>写意度题目。

在可用性测试中,仅仅了解每个功能的可用性水平还不够。即使两个功能的可用性水平一样,若一个是产品的基本功能、一个是价值不大的边缘功能,我们照旧必要优先去优化价值更高的功能。也就是说,在评估一个义务时,除了可用性之外我们还必要考虑功能自己的价值。尤其是在上线了新功能,或者我们对待测功能的价值还不太确信的时候。

功能的价值可以简单分为两部分:用户价值和商业价值。尽管偶然候必要在商业价值和用户价值之间权衡,但是作为一个体验导向的产品,照旧应该将用户价值放在第一位。在用户价值之上,若能够知足商业价值,则是更令人写意的效果。

所以,在可用性测试中可以用下面这个模型来对测试的义务进行评估:

测量方法

在上述模型中,有用性、服从、写意度都是常见的评估维度,有一些经验方法可以参考,用户价值也可以通过用户评价获得。而商业价值则必要根据产品的现实情况进行评估,并且这一样平常是既有的知识,不必要在可用性测试过程中收集这个数据。因此在可用性测试中我们必要收集的数据就只包含四个维度:有用性、服从、写意度和用户价值。

1.有用性

可以用义务的完成情况来评估有用性,这个数据通过观察用户的操作过程即可获得。

义务完成情况的测量重要参考NNG的建议,将每个用户的操作效果标记为失败、部分完成或悉数完成。

失败:假如用户认为本身完成不了而摒弃了义务,或者超过了限制时间仍然无法完成义务,则标记为失败。

必要对每个义务都设置一个限制时间。要求对功能特别很是认识的人(相干的产品、设计师都可以)按照义务提醒进行操作,记录完成操作所需的时间,称为谙练用时。假如想要进步谙练用时的测量正确度,可以多找几个熟手操作然后取其用时平均值。义务的限制时间根据谙练用时确定,一样平常是谙练用时的3-10倍,但是最高也不要超过10分钟(没有效户会有耐心花10分钟完成一个义务,假如真的必要这么久,说明义务设计得太复杂了)。

可以根据义务的难度确定倍数,假如义务对于小白用户来说确实很有难度,那么可以适当延伸义务限时;假如义务很简单,或者其中包含一些输入的操作,那么可以适当削减义务限时(由于打字每每比较费时,而且对功能认识的人打字未必比用户快)。

部分完成:用户只完成了一部分的义务,没有完成义务卡上的所有要求。比如,你盼望用户创建一个日程并约请小王加入,用户成功创建了日程但是却不知道如何(或者忘了)约请小王,这就是部分完成。之所以要区分「部分完成」这个类别,是由于它跟100%完成有差距,但是又不能与失败混为一谈。

完成:这个很容易理解,就是在限制时间内完成了义务卡上的所有要求。

最后,我们必要根据这些数据计算每个义务的成功率。NNG的建议算法是:义务成功率=(完全完成的用户数+部分完成的用户数*0.5)/用户总数,即完全完成率+部分完成率的一半。

除了用完成、部分完成和失败来评价义务完成情况外,还可以考虑另一种体例:顺利完成、碰到停滞后完成、失败。这是我之前使用的计分体例。这种体例下,以上所述的部分完成会被归于失败的类别(但假如用户犯的是无伤大雅的错误,比如输入错误,可以视为完成)。而成功完成的用户会被细分为顺利完成的和碰到停滞后完成的。之所以如许区分是由于这两种情况揭示了不同的可用水平——能让用户轻松地完成的功能可以说是相称易用的。

2.服从

服从可以用时间测量,对用户的操作过程计时。

可以从用户拿到义务卡开始计时,在用户公布本身已经完成、或者限制时间到了的时候即结束计时。不要等到用户读完义务卡、开始操作时才计时,由于有的用户风俗读完再操作,有的却喜好一边读一边做。也不要在看到用户完成了就结束计时,而要等用户本身认为他已经完成了,由于用户偶然候会在做完操作之后去检查本身的操作是否成功了,这也应该算作义务用时的一部分。

计时不必要太正确。手动计时存在几秒钟的偏差都算是正常的,而且用户在操作过程中多说了句话、或者应用相应速度慢了些,这些都会影响义务的完成时间(并且许多影响因素跟可用性并没有关系)。所以计时只要正确到秒就好了,进步记录的正确度也没故意义。

在计算每个义务的服从水平的时候,可以用用户的平均用时除以谙练用时所得的倍数透露表现(数值越大透露表现服从越低)。

这是为了便于义务间的横向比较,由于不同义务的复杂度不同,A义务平均用时1分钟、B义务平均用时4分钟,也不能说明A的操作服从比B高。通过平均用时/谙练用时的比值,可以知道新手与熟手之间的差距,从而了解由于体系的可用性及学习成本给用户带来的操作时间损耗。

3.写意度

写意度涉及到用户的主观评价,因此必要通过用户自评量表来收集。

这里参考的是Jakob Nielsen使用的一个单题项七点量表,并根据必要对标题进行了修正:

4.用户价值

用户价值是指用户感知到的功能价值,也必要通过用户的评价获得。

由于我们做的是一款办公软件,所以通过扣问功能对工作的帮助来了解用户价值:

写意度和用户价值都必要用户评分,因此用户在完成每个义务之后都会拿到同样的两个标题,要求对该义务做出评价。我会把不同义务的标题打印在统一张纸上,如许用户在评价时可以参考本身对前面的义务的评价来调整分数。

义务横向对比

用有用性、服从、写意度、用户价值四个维度对义务进行评价后,我们可以根据这些数据对不同的义务做横向对比,可以通过类似下方如许的折线图对比不同义务的情况。

比如从上面这个示例图中,我们可以看到义务2的可用性水平是比较低的(有用性水平低、完成时间长、用户写意度低),但是它的用户价值处于相对较高的水平;而义务3的用户价值最高,可用性水平居中。

有用性、服从和写意度都是用来评估可用性水平的。假如根据这三个数值计算出可用性水平,直接用可用性去做横向对比,是否更方便呢?前文提到在可用性中,有用性题目>服从题目>写意度题目,所以在计算可用性水平时它们应该有不同的权重;并且因为度量体例的不同,它们的量纲有较大差异(从上图可以看出),必要做标准化处理。

因此,我们必要对有用性、服从、写意度分别做标准化处理,然后按照5:3:2的权重计分(或者其他权重,按需调整):

可用性水平=Z(有用性)*0.5-Z(服从)*0.3+Z(写意度)*0.2(服从处用减号是由于其用时间测量,数值越大服从越低)

如许我们得以在同个量纲上比较不同义务的可用性水平,结合对功能价值的评估,可以得出类似如许的四象限图:

如许的象限图不仅可以帮助我们比较测试的各个功能的情况,还能帮助确定体验优化的优先级。功能价值高、可用性差的功能应该列入最高优先级,其次是功能价值较低、可用性差的功能。

题目优先级

除了上述的评估模型外,在可用性测试中我们还会发现许多可用性题目,这些题目也许是可用性测试产生的最紧张的数据了。那么,这些可用性题目是否必要进行优先级评估呢?

可用性题目当然是有优先级之分的,一个题目是影响了功能的有用性、服从照旧写意度,就决定了这个题目的优先级如何。我认为可以在每个义务之内按照这个标准对发现的可用性题目进行排序,但是不必要把所有义务发现的所有题目罗列出往来来往排列优先级。

优化可用性题目时应该以功能(即可用性测试中的义务)为单位,而不是以题目为单位——以题目为单位容易只见树木不见森林,可能在修改了许多细节后仍然算不上好用。所以排列题目优先级时,也建议根据上面的四象限图先确定功能的优先级,然后再去查看每个功能详细的可用性题目的优先级。

迎接关注微信公众号:「UXD-Cloudhub」

[教程作者:互联网]
免责声明:本站文章系图趣网整理发布,如需转载,请注明出处,素材资料仅供个人学习与参考,请勿用于商业用途!
本文地址:http://www.tuquu.com/tutorial/di3922.html
设计师如何推动本身想法?专访百度输入法设计总监JJ Ying
天猫设计师为什么说不真实的产品测试是无效的?
图趣网微信
建议反馈
×