问卷度量—常见量表汇总及制作流程_调查_测试

01 前言

▼

关于软件的可用性测试大家并不陌生，可用性测试是评估软件/产品体验质量（是否易用、高效、令人满意）的常见手段，是体验度量的重要手段之一。

常见的可用性测试可大致分为两类：

不面向用户的可用性测试-用户模型法

用户模型是使用数学模型来模拟人机交互，其原理是认定用户使用产品都是有目标的，而大的目标又可以拆分为若干小目标，通过模型计算达成目标的所需时间。该方法无法适用于用户测试，在人机交互领域著名的预测模型是GOMS模型。

面向用户的可用性测试—用户调查法

用户调查是通过对用户进行访谈，手段多样，包含问卷调查、用户访谈、焦点小组、观察法、绩效测量、启发式评估等，这其中，使用更多也更为人熟知的是问卷调查。

问卷调查相对于其他手段的好处在其调研结果更为客观，可信度较强，且问卷的创建经过了信效度和灵敏度测试，结果更具备说服力。

02 一些常见问卷汇总

▼

整体评估可用性问卷

SUS-系统可用性问卷

SUS（SystemUsabilityScale）是美国DEC公司在1986年编制，也是目前全球使用最多，传播最广的整体质量评估问卷

考察维度：可用性/易学性

评分：5点量表

QUIS-用户界面满意度问卷

用户界面满意问卷（Questionnaire for User Interface Satisfaction,QUIS）是由马里兰大学的人机交互实验室于1998年编制

包含标准版（90个项目）和简化版（27个项目）

考察维度：总体反应、屏幕、术语/系统信息、学习、系统能力

评分：10点量表

SUMI-软件可用性测试问卷

软件可用性测试问卷（software usability measurement inventory）是由爱尔兰科克大学于1995年编制

考察维度：效率/情感/帮助/控制/易学性

评分：3点量表

得分标准：

CSUQ-计算机系统可用性问卷&PSSUQ-整体评估可用性问卷

CSUQ是PSSUQ的一种变形，PSSUQ是IBM的内部项目，主要用于实验室环境，为了在非实验室环境使用，使其使用场景更广泛，对其进行了优化得到了CSUQ

考察维度：整体、系统质量、信息质量、界面质量

评分：7点量表

UMUX-用户体验可用性指标问卷

主要用于满足ISO-9241-11中对可用性的调研

考察维度：有效性/效率/满意度

评分： 7点量表

评分标准：「n1（7-用户得分）+n2+..+n4」/24*100

场景后问卷ASQ-场景后问卷

ASQ（After-Scenario Questionnaire）是IBM于1993年编制

考察维度：难易度/完成效率/帮助信息

评分： 7点量表

SEQ-单项难易度问卷

SEQ（Single Ease Question）是作者sauro在2009年编制

考察维度：难易度

评分： 7点量表

SMEQ-主观脑力负荷问卷

SMEQ（Subjective Mental Effort Questionnaire）是作者ZijLstra于1985年编制，问卷没有去提问题，仅有一份评分准则，当用户完成任务测试后通过该标准打分

考察维度：难易度

评分标准：通过一个9点的难易度标尺打分（极其难做，非常非常难做，非常难做，相当难做，难做，有些难做，有一点难做，不是很难做，一点也不难做）

ER-期望评分

ER（Expactation Ratings）由作者Albert & Dixon于2003编制，作者认为任务的难度是与用户进行任务前的预期难度相关的。因此，ER包括两个项目：一个在进行任务前测试，另一个在任务后测试

通过任务前后的评分在画布的对应区间，去判断产品得分

考察维度：难易度

评分： 7点量表

网站感知可用性评估问卷SUPR-Q-标准通用的百分等级量表

SUPR-Q（Standardized Universal Percentile Rank Questionnaire）是作者saruo于2012年编制

考察维度：可用性/可信度/外观/忠诚度

评分： 5点量表

WAMMI-网站分析、测量问卷

WAMMI（Website Analysis and Measurement Inventory）是爱尔兰科克大学和Nomos Management AB于1990年合作编制

考察维度：吸引力/控制/效率/易学性/帮助性

评分： 5点量表

单项指标评估问卷

CAST/NPS/CES

对于前两者用户满意度以及净推荐值较为大众所知, 而CSE（Customer Effort Score）-客户费力度则是《哈佛商业评论》于2010年提出的概念, 其核心理念：真正帮助用户高效轻松解决问题的产品，才会有更高的满意度和忠诚度，因此CES用费力度（中文可解释为难易度）来衡量产品质量，所以，CES也较多的是用在中后台等复杂产品的验证，对比其他量表会更具有准确度

考察维度：费力度/难易度

评分标准： 7点量表

03 如何制作一份问卷量表

▼

问卷制作步骤

1、明确调研的目标（做这份问卷的目的是为了解决什么问题或验证什么内容）。

2、确定投放群体，渠道（待解决问题的受众群体，合适的投放渠道保证回收效率）。

3、确定问卷内容（问题描述简洁明了、题目数量合适，一般控制在30道题以内，3-5min完成作答）。

4、确定使用几点量表和评分规则（市面常见使用5点、7点量表）。

评分规则

1、总分：用户测试总分/（n/10）（n为量表题目数量），得分数据可同SUS的评分标准进行对比得出产品评分质量，也可对比内部数据库。

2、平均分：用户测试总分/n（n为量表题目数量），可用来对比各考察维度间分数水平，并根据内部基准线对比。

04 数据回收处理

▼

问卷回收后除了常规的数据清洗，对于问卷内的量表题目则需要进行信效度验证保证数据的可信度。

信度：

指可靠性，指的是采取同样的方法对同一对象重复进行测量时，其所得结果相一致的程度，简单理解就是可靠性分析，用于测量样本结果是否可靠，用户有没有真实作答; 常见的信度分析有：克隆巴赫α系数，折半系数，重测信度，复本信度，其中使用较多的是克隆巴赫α系数，可在spss中进行信度检验，这里不做展开，感兴趣的可以去查阅spss对于信度检验的使用方法或使用spssu在线分析。

效度：

指测量工具或手段能够准确测出所需测量的事物的程度，简单理解就是问卷设计的有效性，题目设计是否合理可靠; 常见的效度分析有：内容效度，结构效度，效标效度。

内容效度：通常是以文字来说明问卷的有效性。如通过参考文献，或者权威来源说明问卷的权威性和有效性。

结构效度：指测量项与测量维度之间的对应关系，就是指数据结构和最初假设是否一致。测量方法有两种，一种是探索性因子分析，另外一种是验证性因子分析。其中探索性因子分析是当前使用最为广泛的结构效度测量方法。

效标效度：字面意思，和业内标杆进行对比，如果相关性高，则说明效标效度好，实际使用较少。

确定最小样本量

1、统计学中无明确规定要求多少样本量，常见的非学术级项目可按下表规则

2、学术级项目为保证其严谨性则需要根据精确度、置信水平及研究方法等多个条件因素来确定合适的样本量, 常见的样本容量计算模型为

非学术量表类样本数据的常见分析步骤（其他类型如社会性研究、政策、实验室项目等分别有其对应的分析步骤）

1、信效度验证。

2、因子/归因分析（如需要，当量表有多个维度且分类模糊时使用）。

4、相关分析（如需要、验证不同变量间是否有关联关系，例如正/负/无相关）。

5、回归分析（如需要，验证关联关系程度，只有存在关联关系间的变量可使用）。

6、差异性检验（如需要、若对比不同定类数据（人群/地域/性别等）在某一维度的差异，可使用方差、T/Z检验等）。

7、其他性别、学历、地区等定类数据的分析等等（如需要）。

05 总结

▼

问卷调研作为可用性测试的一环，直接使用市面上的量表进行度量的好处是拿来即用，数据结果也可直接使用无需校验、但其缺陷在灵活性较差，存在不能完全契合产品现行指标的问题。因此可参考已有量表进行改造来使其更契合产品，度量精准度更高，缺点就是需要花费较高成本来进行问卷制作和数据验证; 实际工作中如何使用，可根据实际情况进行选择。

后续将以实际业务为例，展示通过确定体验指标及量表来监测业务体验指标，并辅助设计优化, 敬请期待~

参考文献

1 .https://www.nngroup.com/articles/measuring-perceived-usability/

2. https://cxl.com/blog/8-ways-to-measure-ux-satisfaction/

4. https://www.iso.org/obp/ui/#iso:std:iso:9241:-110:ed-2:v1:en

6. https://www.hotjar.com/blog/customer-effort-score/

7. https://measuringu.com/product/suprq/

9. https://sumi.uxp.ie/index.html

10. https://en.wikipedia.org/wiki/American_Customer_Satisfaction_Index

加老D私人微信，朋友圈更多精彩返回搜狐，查看更多

未来数字城市探索者

问卷度量—常见量表汇总及制作流程