拿到一份问卷数据,该如何动手剖析呢?且慢,要做剖析得先检讨数据是不是完全、可信,以是先从数据洗濯开聊。
一、数据洗濯
(1)一份数据可能经历过编码、合并、拆分等,先检讨数据是否完全,是否有非常值?
选择题、排序题这类封闭题型的答案是有限定范围的,针对这类题型,在spss内利用频率统计功能,查看每个题目的总量,缺失落值,是否有非常值。比如:性别只有1、2两个选项,涌现其他选项则解释有问题。有个小技巧,在Excel中可以利用筛选功能,快速查看每个题目的结果是否有非常值。

(2)有些用户可能会不负责填答,因此须要检讨逻辑合理性,是否有前后抵牾的情形?
有些问卷,前后题目有逻辑关系,可以用这类题目做测谎题,筛选出前后抵牾的答案,比如前边用户选择了紧张的出行办法是“自己开车”,后边却选择自己的年事“小于18岁”,那么这类问卷可以视为不负责填答的,删除。
如果没有得当的题目做测谎题,也可以在体例问卷的时候设置测谎题,两种设计思路:
同一个题目前后问两遍,检讨答案是否同等,如:请从下列选项中选出你最常用的舆图APP。把稳避免利用有两个答案的问题,比如问用户爱车的品牌就不得当,由于用户前后填答不一致,不一定都是不负责填答,也可能是由于用户本身有两辆车。设置一个有明显缺点答案的问题,检讨是否选择了缺点的答案,如:你最常用的舆图APP是哪个:稠浊选项可以用 :京东。不过我们只是想考验用户的负责程度,而非磨练用户的影象力,以是测谎题要大略明确,只要负责看题就不会错。比如问用户最常用的舆图APP是哪个,稠浊选项用“微信”就不得当,由于用户不负责想的话,很随意马虎把微信自带的舆图当成舆图APP。如果技能支持,也可以通过后台数据和用户问卷中的数据做匹配,常用的是性别、年事、常居地之类的数据,也可以问一些明确的行为数据,比如是否用舆图买过火车票。
须要把稳的是:选择稳定的明确的数据来做校验题目,不要利用须要回顾的数据来校验,用户的影象是模糊的有偏差的,利用频率、利用年限,这些都不适宜做校验,由于用户的影象很可能与实际行为不完备符合。
二、样本加权
问卷调研绝大部分是抽样调研,如果想通过样本的情形去推测整体的情形,除了要考虑最小样本量之外,还须要考虑样本的代表性。群体有很多属性,并不是哀求样本的每个属性都和整体同等,而是关注那些对研究问题最有影响的属性,在该属性上样本和整体只管即便保持同等。
假设:年事对用户忠实度的影响非常大,对出行办法没有影响,那么在研究忠实度时就须要考虑到年事成分,而在研究出行办法时,就无需考虑年事成分了。
一种是事前掌握,区分出不同年事段的用户,分桶按比例发放,该方法本钱高很少用。
另一种是事后掌握——加权 。比如问卷网络到的用户,与整体用户群分布不一致,但是我们想知道整体用户的忠实度,此时可以通过加权的办法去调度。
详细方法如下:
先根据整体和样本的年事分布,打算出权重值,然后再利用spss的权重功能,给数据加权。加权后再统计忠实度。
值得把稳的是,不要为了省事儿,直接打算出样本各年事段的值,然后给个年事段的值赋个权重,求均值。这样的结果是不对的,必须要利用spss的加权功能。
如果有多个成分,挑选最主要的一个成分加权。如果非要考虑多个成分,那么须要理解多个成分交叉后的整体分布。比如既要考虑性别、又要考虑年事,那么须要将性别和年事交叉,知道整体男性的年事分布、女性的年事分布,再打算权重,本钱太高了。
三、剖析思路
我们先假设一份调研问卷,带着这份问卷来看剖析思路。
假设要针对大学生群体利用舆图APP的情形做个调研,设计了以下问卷,通过这个问卷我们能做哪些剖析呢?
3.1 描述统计,看整体分布情形
统计各选项的数量、频率是最常用到的剖析,然后通过图表展现出来,可以非常直不雅观的看出整体分布情形。
通过这个问卷,我们可以得到:
在大学生群体中,各手机舆图的市场霸占率,如果有整体的舆图市场霸占率数据,还可以比较得到,在学生群体中哪个舆图更有上风。大学生群体,用户常用的功能排序,以及各功能的占比。该题是多选题,可以利用spss的“定义多重相应集”的功能。此外在打算占比的时候须要想明白,因此整体人数作为分母,还是以整体选择量作为分母,分母不同阐明也不同,须要标明。本题以整体人数作为分母,占比的意义是:大学生群体中,多少人利用功能。3.2 差异剖析,找影响成分除了看整体分布情形,我们还可以通过差异剖析,探索更多的信息。
做差异剖析,第一步先找到两个可能有关系的成分;第二步将两个成分交叉统计结果,根据结果在这两个成分间做假设;第三步根据这两个成分的数据类型,选择得当的统计方法,验证假设。
通过这个问卷,我们可以剖析:
(1)男性和女性对手机舆图的选择有差异么
先分别打算不同品牌的用户性别占比,结果创造不同品牌的男性占比不同,性别和手机品牌都是分类变量,因此利用卡方考验。
(2)男性和女性,对手机舆图的忠实度有差异么?
先统计不同性别用户的NPS值,NPS值是等距数据(NPS这个题目,实质上是李克特量表,对该数据是否是等距数据尚有争议,但大部分情形按照等距数据处理),我们想要看男性、女性两组之间的差异,采取T考验。
(3)不同品牌的手机舆图,用户的忠实度有差异么?
与性别变量不同的是,手机品牌有4个维度,T考验只能做两组之间的差异考验,多于两组的时候采取方差剖析。
(4)是否由于男性用户多导致腾讯舆图的忠实度低呢?
比如男性的忠实度更低,而不同品牌之间男性的占比又不同,腾讯的男性用户较多,就会假设:是否由于男性用户多导致腾讯舆图的忠实度低呢。
当有两个成分的时候,可以采纳协方差剖析,在做方差剖析的时候,将性别作为协变量纳入,分别看男性组,不同舆图品牌间有差异否,女性组不同舆图品牌间有差异否。
总结一下,做差异考验的统计方法常用的有三种:卡方考验、T考验、方差剖析。但是,统计只是赞助判断的一种工具,也有些情形,直接看交叉后的结果就能创造差异巨大,无需统计考验肉眼都可以判断,也有些情形下,统计结果显著,但是差异实在是很眇小,也不能做出明确的结论。
以是统计方法并不是重点,找到可能有关系的成分才是重点,学术研究一样平常会根据过往的研究提出假设,而实际事情中,绝大部分靠履历,多熟习产品多理解用户,才会有思路。
之前有人提出要做女性舆图,认为女性更看不懂舆图,须要在图面上有不同的处理。实际调研下来,创造性别既不影响用户利用舆图的习气、也不影响用户对舆图的感知。相反年事明显的影响舆图的利用习气,接下来就须要进一步挖掘年事的差异了。
3.3 干系剖析,找影响成分,以及影响程度
(1)通过差异剖析,我们理解到性别会影响用户的忠实度,我们还想接着探索用户常用的功能个数是否会影响忠实度,是不是用的功能越多,忠实度越高呢?
此时须要用到干系剖析,利用功能个数是等距数据,利用spss打算Pearson积差干系系数。干系系数介于-1~1之间,绝对值越大关系越密切,符号代表干系的方向。常日情形下,绝对值大于0.4就可以认为这两个数据之间有比较强烈的关系了。以是绝对值越大,解释这个成分的影响程度越大。
如果想探索利用频率和忠实度之间的关系呢,利用频率是顺序数据,此时须要打算Speaman干系系数。干系是在事情中利用比较多的方法,须要把稳的是,干系剖析只能阐明两个变量之间有无关系,不能得到因果结论。因果结论是我们基于逻辑授予的,事情中,干系关系已经足够我们做判断了。
(2)如果我们不但是想探索单个成分与忠实度之间的关系,还想要探索多个影响成分合并在一起对忠实度的影响,此时可以利用多元回归的方法。
在本调研中,我们可以探索用户碰着利用问题的次数与忠实度的关系,用户碰着的问题有4种,分别是定位问题、地点问题、路线问题、性能问题。以NPS值为因变量,将这四个问题一起作为因变量,求一个多元回归方程。但是多元回归方程的建立,对数据的哀求比较高,实际调研中利用的非常少,干系系数基本够用了。
不论是干系剖析还是回归剖析,都只能反响出变量之间的线性干系关系,如果变量间是非线性的关系,是无法表示在干系系数上的,因此在做干系剖析之前,可以先做一个散点图,直接不雅观察一下,两个变量间是否有其他的关系可能。
如果是自己做调研,不是拿到数据了才去想怎么剖析,而是在体例问卷的时候就要想清楚:我要理解什么问题,须要什么数据支撑,该用什么方法剖析?
文中提到的所有统计方法,在统计书中都可以找到细致的操作步骤。本文只是列了最粗浅的统计方法,但是每每粗浅的才够直接,对实际的决策最有支持力。
参考书目:《量化研究与统计剖析》邱皓政
本文由 @ 乔溪 原创发布于大家都是产品经理。未经容许,禁止转载
题图来自 Unsplash,基于 CC0 协议