数据的比较分析(三):假设性检验在数据比较分析中的应用
数据分析是一个不断验证的过程,本文将通过案例分析来带领大家了解“假设性检验”的应用。
上两节中我讲到基于基准的对比,和基于不同版本之间的对比;可以订阅我专栏看回我以前的文章。
这章节我要分享一下假设性检验在其中的一些应用,“假设性检验”的应用范围确实非常之广,现在最常用在一些AB测试当中,现在互联网产品的AB测试很多时候都是在流量非常充足的情况下进行的,误差幅度相对比较小,但是当在做用户的可用性测试的时候,样本的数量收到很多方面的因素限制的时候,我们就需要如何用有限的样本来做数据的分析工作。
数据的分析其实就是一个不断反复验证的过程,“假设性检验”其实就是基于反正法来的;接下来我通过一个例子来慢慢深入讲解“假设性检验”。
从一个案例说起
案例:一款原版本的CRM系统,找14个用户去测试使用,计算出该14个用户平均任务时长是33秒,标准差是22秒;对该系统进行改版之后,另外选13个用户去测试使用,计算出该13名用户平均任务时长是18秒,标准差是10秒。
我们这个时候可以提出假设:新版本比原版本快15秒?
第一步:使用t检验的方法,先计算t值
第二步:通过t值去计算出p-value值
为了求得事实上并不构成实质差异的差异值有多大,我们在t表中查找2.3,来看2.3标准差上面和下面的区域百分比是多少。所需要的另外一个变量就是自由度,其值大概为样本量大小减去2(13-2=11)。使用Excel公式=TDIST(2.3,11,2),我们得到0.04,也称为p值。
第三步:对p-value值进行分析
p-value值为0.04表示差一步显著的情况下,只有4%的差异会大于15秒。也就是说2.3个标准误占了t分布中96%的面积(1-0.04)。换个说法,依照概率,在100次中,只有4次出现这种情况。
当然有可能的情况是两个样本取自的总体之间没有差异(既均值差异为0),但是更有可能的是均值差异为5、10或15秒。按照惯例,当p-value值小于0.05时,有充足的证据说明差异并不是由概率造成的。换句话说,我们可以得出结论两个版本的CRM系统存在显著差异。
要记住,虽然统计的结论是其中一个CRM应用设计会更快,但是我们尚未完全证明它是更快的。我们只是说两个观察到的均值存在差异的样本,其各自总体的均值差异为零(既观察到的15秒的差异是由概率造成的)不太可能。
从假设性检验的逻辑去分析上述案例
均值检验得到的p-value值告诉我们的是两个均值无差异的概率有多大。无差异的假设就是指零假设。p值针对的零假设的可信度。p值小说明零假设可信度低,不太可能为真。如果零假设不太可能为真,那意味着我们的研究假设为真——具体地说,是存在差异的。
在两个CRM设计中,任务时长均值差异为15秒。我们已经评估这么大的差异发生的概率只有4%,所以零假设为真的概率为4%。看上去似乎择备假设——既我们的设计确存在显著差异——为真的可能性更大。
使用零假设,只需要充足的证据(而非定义性的证明)来说明两个均值直接差异为零食不太可能的 ,至少你可以证明一些差异的真实性。差异量的大小,当然也是重要的,对于任何的显著性统计,你都需要计算差异的置信区间,来为实际的显著性统计提供一个参考。
在《数据的比较分析(二)》中有相关的计算法方法,在这个例子中,95%的置信度是1.3到28.7秒。换句话说,我们有95%的信息说差异至少为1.3秒,也就是说任务时长的缩短量在轻微的4%(1.3/33)到跟容易引起注意的87%(28.7/33)之间。
假设性检验的两类错误
类形一错误:我们可能会说两者之间存在差异,而事实上并不存在。
类型二错误:我们得出的结论说两者之间不存在差异,而事实上存在。
p-value值是告诉我们犯类型一错位的概率,当见到p-value值等于0.05时,我们将其解读为当实际差异为零时,得到一个这么大或者比其他更大的观测差异的概率为5%
总结
产品的打磨也像是科学研究一样,都是在不断的假设、实验、验证,且不断的推倒重来的过程,每一步都需要不断去论证。
本文由 @平遥抒雪 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
通俗易懂,学习了