数据的比较分析（三）：假设性检验在数据比较分析中的应用 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

数据的比较分析（三）：假设性检验在数据比较分析中的应用

平遥抒雪

2019-01-28

1 评论 7386 浏览 28 收藏

7 分钟

数据分析是一个不断验证的过程，本文将通过案例分析来带领大家了解“假设性检验”的应用。

上两节中我讲到基于基准的对比，和基于不同版本之间的对比；可以订阅我专栏看回我以前的文章。

这章节我要分享一下假设性检验在其中的一些应用，“假设性检验”的应用范围确实非常之广，现在最常用在一些AB测试当中，现在互联网产品的AB测试很多时候都是在流量非常充足的情况下进行的，误差幅度相对比较小，但是当在做用户的可用性测试的时候，样本的数量收到很多方面的因素限制的时候，我们就需要如何用有限的样本来做数据的分析工作。

数据的分析其实就是一个不断反复验证的过程，“假设性检验”其实就是基于反正法来的；接下来我通过一个例子来慢慢深入讲解“假设性检验”。

从一个案例说起

案例：一款原版本的CRM系统，找14个用户去测试使用，计算出该14个用户平均任务时长是33秒，标准差是22秒；对该系统进行改版之后，另外选13个用户去测试使用，计算出该13名用户平均任务时长是18秒，标准差是10秒。

我们这个时候可以提出假设：新版本比原版本快15秒？

第一步：使用t检验的方法，先计算t值

第二步：通过t值去计算出p-value值

为了求得事实上并不构成实质差异的差异值有多大，我们在t表中查找2.3，来看2.3标准差上面和下面的区域百分比是多少。所需要的另外一个变量就是自由度，其值大概为样本量大小减去2（13-2=11）。使用Excel公式=TDIST（2.3，11，2），我们得到0.04，也称为p值。

第三步：对p-value值进行分析

p-value值为0.04表示差一步显著的情况下，只有4%的差异会大于15秒。也就是说2.3个标准误占了t分布中96%的面积（1-0.04）。换个说法，依照概率，在100次中，只有4次出现这种情况。

当然有可能的情况是两个样本取自的总体之间没有差异（既均值差异为0），但是更有可能的是均值差异为5、10或15秒。按照惯例，当p-value值小于0.05时，有充足的证据说明差异并不是由概率造成的。换句话说，我们可以得出结论两个版本的CRM系统存在显著差异。

要记住，虽然统计的结论是其中一个CRM应用设计会更快，但是我们尚未完全证明它是更快的。我们只是说两个观察到的均值存在差异的样本，其各自总体的均值差异为零（既观察到的15秒的差异是由概率造成的）不太可能。

从假设性检验的逻辑去分析上述案例

均值检验得到的p-value值告诉我们的是两个均值无差异的概率有多大。无差异的假设就是指零假设。p值针对的零假设的可信度。p值小说明零假设可信度低，不太可能为真。如果零假设不太可能为真，那意味着我们的研究假设为真——具体地说，是存在差异的。

在两个CRM设计中，任务时长均值差异为15秒。我们已经评估这么大的差异发生的概率只有4%，所以零假设为真的概率为4%。看上去似乎择备假设——既我们的设计确存在显著差异——为真的可能性更大。

使用零假设，只需要充足的证据（而非定义性的证明）来说明两个均值直接差异为零食不太可能的，至少你可以证明一些差异的真实性。差异量的大小，当然也是重要的，对于任何的显著性统计，你都需要计算差异的置信区间，来为实际的显著性统计提供一个参考。

在《数据的比较分析（二）》中有相关的计算法方法，在这个例子中，95%的置信度是1.3到28.7秒。换句话说，我们有95%的信息说差异至少为1.3秒，也就是说任务时长的缩短量在轻微的4%（1.3/33）到跟容易引起注意的87%（28.7/33）之间。

假设性检验的两类错误

类形一错误：我们可能会说两者之间存在差异，而事实上并不存在。

类型二错误：我们得出的结论说两者之间不存在差异，而事实上存在。

p-value值是告诉我们犯类型一错位的概率，当见到p-value值等于0.05时，我们将其解读为当实际差异为零时，得到一个这么大或者比其他更大的观测差异的概率为5%

总结

产品的打磨也像是科学研究一样，都是在不断的假设、实验、验证，且不断的推倒重来的过程，每一步都需要不断去论证。

本文由 @平遥抒雪原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

平遥抒雪

不滞于物，草木竹石均可为剑

4篇作品 26678总阅读量

从谷歌看大模型如何深刻改变互联网广告

07-194668 浏览

从谷歌看大模型如何深刻改变互联网广告

淘宝、京东也搞仅退款了，但学拼多多真有用吗？

12-292472 浏览

淘宝、京东也搞仅退款了，但学拼多多真有用吗？

产品思维，到底是个什么玩意儿（一）

06-2910831 浏览

产品思维，到底是个什么玩意儿（一）

直播间，追剧新“乐土”？

07-061824 浏览

直播间，追剧新“乐土”？

为什么说「低价」是一项系统能力

06-282945 浏览

为什么说「低价」是一项系统能力

评论

原始森林

通俗易懂，学习了

最近来自北京回复