评论

问卷度量—常见量表汇总及制作流程

01 前言

关于软件的可用性测试大家并不陌生,可用性测试是评估软件/产品体验质量(是否易用、高效、令人满意)的常见手段,是体验度量的重要手段之一。

常见的可用性测试可大致分为两类:

不面向用户的可用性测试-用户模型法

用户模型是使用数学模型来模拟人机交互,其原理是认定用户使用产品都是有目标的,而大的目标又可以拆分为若干小目标,通过模型计算达成目标的所需时间。该方法无法适用于用户测试,在人机交互领域著名的预测模型是GOMS模型。

面向用户的可用性测试—用户调查法

用户调查是通过对用户进行访谈,手段多样,包含问卷调查、用户访谈、焦点小组、观察法、绩效测量、启发式评估等,这其中,使用更多也更为人熟知的是问卷调查。

问卷调查相对于其他手段的好处在其调研结果更为客观,可信度较强,且问卷的创建经过了信效度和灵敏度测试,结果更具备说服力。

02 一些常见问卷汇总

整体评估可用性问卷

SUS-系统可用性问卷

SUS(SystemUsabilityScale)是美国DEC公司在1986年编制,也是目前全球使用最多,传播最广的整体质量评估问卷

考察维度:可用性/易学性

评分:5点量表

QUIS-用户界面满意度问卷

用户界面满意问卷(Questionnaire for User Interface Satisfaction,QUIS)是由马里兰大学的人机交互实验室于1998年编制

包含标准版(90个项目)和简化版(27个项目)

考察维度:总体反应、屏幕、术语/系统信息、学习、系统能力

评分:10点量表

SUMI-软件可用性测试问卷

软件可用性测试问卷(software usability measurement inventory)是由爱尔兰科克大学于1995年编制

考察维度:效率/情感/帮助/控制/易学性

评分3点量表

得分标准:

CSUQ-计算机系统可用性问卷&PSSUQ-整体评估可用性问卷

CSUQ是PSSUQ的一种变形,PSSUQ是IBM的内部项目,主要用于实验室环境,为了在非实验室环境使用,使其使用场景更广泛,对其进行了优化得到了CSUQ

考察维度:整体、系统质量、信息质量、界面质量

评分:7点量表

UMUX-用户体验可用性指标问卷

主要用于满足ISO-9241-11中对可用性的调研

考察维度:有效性/效率/满意度

评分: 7点量表

评分标准: 「n1(7-用户得分)+n2+..+n4」/24*100

场景后问卷ASQ-场景后问卷

ASQ(After-Scenario Questionnaire)是IBM于1993年编制

考察维度: 难易度/完成效率/帮助信息

评分: 7点量表

SEQ-单项难易度问卷

SEQ(Single Ease Question)是作者sauro在2009年编制

考察维度: 难易度

评分: 7点量表

SMEQ-主观脑力负荷问卷

SMEQ(Subjective Mental Effort Questionnaire)是作者ZijLstra于1985年编制,问卷没有去提问题,仅有一份评分准则,当用户完成任务测试后通过该标准打分

考察维度: 难易度

评分标准: 通过一个9点的难易度标尺打分(极其难做,非常非常难做,非常难做,相当难做,难做,有些难做,有一点难做,不是很难做,一点也不难做)

ER-期望评分

ER(Expactation Ratings)由作者Albert & Dixon于2003编制,作者认为任务的难度是与用户进行任务前的预期难度相关的。因此,ER包括两个项目:一个在进行任务前测试,另一个在任务后测试

通过任务前后的评分在画布的对应区间,去判断产品得分

考察维度: 难易度

评分: 7点量表

网站感知可用性评估问卷SUPR-Q-标准通用的百分等级量表

SUPR-Q(Standardized Universal Percentile Rank Questionnaire)是作者saruo于2012年编制

考察维度: 可用性/可信度/外观/忠诚度

评分: 5点量表

WAMMI-网站分析、测量问卷

WAMMI(Website Analysis and Measurement Inventory)是爱尔兰科克大学和Nomos Management AB于1990年合作编制

考察维度: 吸引力/控制/效率/易学性/帮助性

评分: 5点量表

单项指标评估问卷

CAST/NPS/CES

对于前两者用户满意度以及净推荐值较为大众所知, 而CSE(Customer Effort Score)-客户费力度则是《哈佛商业评论》于2010年提出的概念, 其核心理念:真正帮助用户高效轻松解决问题的产品,才会有更高的满意度和忠诚度,因此CES用费力度(中文可解释为难易度)来衡量产品质量,所以,CES也较多的是用在中后台等复杂产品的验证,对比其他量表会更具有准确度

考察维度: 费力度/难易度

评分标准: 7点量表

03 如何制作一份问卷量表

问卷制作步骤

1、明确调研的目标(做这份问卷的目的是为了解决什么问题或验证什么内容)。

2、确定投放群体,渠道(待解决问题的受众群体,合适的投放渠道保证回收效率)。

3、确定问卷内容(问题描述简洁明了、题目数量合适,一般控制在30道题以内,3-5min完成作答)。

4、确定使用几点量表和评分规则(市面常见使用5点、7点量表)。

评分规则

1、总分: 用户测试总分/(n/10)(n为量表题目数量),得分数据可同SUS的评分标准进行对比得出产品评分质量,也可对比内部数据库。

2、平均分:用户测试总分/n(n为量表题目数量),可用来对比各考察维度间分数水平,并根据内部基准线对比。

04 数据回收处理

问卷回收后除了常规的数据清洗,对于问卷内的量表题目则需要进行信效度验证保证数据的可信度。

信度:

指可靠性,指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,简单理解就是可靠性分析,用于测量样本结果是否可靠,用户有没有真实作答; 常见的信度分析有:克隆巴赫α系数,折半系数,重测信度,复本信度,其中使用较多的是克隆巴赫α系数,可在spss中进行信度检验,这里不做展开,感兴趣的可以去查阅spss对于信度检验的使用方法或使用spssu在线分析。

效度:

指测量工具或手段能够准确测出所需测量的事物的程度,简单理解就是问卷设计的有效性,题目设计是否合理可靠; 常见的效度分析有:内容效度,结构效度,效标效度。

内容效度:通常是以文字来说明问卷的有效性。如通过参考文献,或者权威来源说明问卷的权威性和有效性。

结构效度:指测量项与测量维度之间的对应关系,就是指数据结构和最初假设是否一致。测量方法有两种,一种是探索性因子分析,另外一种是验证性因子分析。其中探索性因子分析是当前使用最为广泛的结构效度测量方法。

效标效度:字面意思,和业内标杆进行对比,如果相关性高,则说明效标效度好,实际使用较少。

确定最小样本量

1、统计学中无明确规定要求多少样本量,常见的非学术级项目可按下表规则

2、学术级项目为保证其严谨性则需要根据精确度、置信水平及研究方法等多个条件因素来确定合适的样本量, 常见的样本容量计算模型为

非学术量表类样本数据的常见分析步骤(其他类型如社会性研究、政策、实验室项目等分别有其对应的分析步骤)

1、信效度验证。

2、因子/归因分析(如需要,当量表有多个维度且分类模糊时使用)。

4、相关分析(如需要、验证不同变量间是否有关联关系,例如正/负/无相关)。

5、回归分析(如需要,验证关联关系程度,只有存在关联关系间的变量可使用)。

6、差异性检验(如需要、若对比不同定类数据(人群/地域/性别等)在某一维度的差异,可使用方差、T/Z检验等)。

7、其他性别、学历、地区等定类数据的分析等等(如需要)。

05 总结

问卷调研作为可用性测试的一环,直接使用市面上的量表进行度量的好处是拿来即用,数据结果也可直接使用无需校验、但其缺陷在灵活性较差,存在不能完全契合产品现行指标的问题。因此可参考已有量表进行改造来使其更契合产品,度量精准度更高,缺点就是需要花费较高成本来进行问卷制作和数据验证; 实际工作中如何使用,可根据实际情况进行选择。

后续将以实际业务为例,展示通过确定体验指标及量表来监测业务体验指标,并辅助设计优化, 敬请期待~

参考文献

1 .https://www.nngroup.com/articles/measuring-perceived-usability/

2. https://cxl.com/blog/8-ways-to-measure-ux-satisfaction/

4. https://www.iso.org/obp/ui/#iso:std:iso:9241:-110:ed-2:v1:en

6. https://www.hotjar.com/blog/customer-effort-score/

7. https://measuringu.com/product/suprq/

9. https://sumi.uxp.ie/index.html

10. https://en.wikipedia.org/wiki/American_Customer_Satisfaction_Index

加老D私人微信,朋友圈更多精彩返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()