如何简单的判断两个版本优劣？T检验的实践运用（二）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

如何简单的判断两个版本优劣？T检验的实践运用（二）

白子

2017-11-25

1 评论 6905 浏览 19 收藏

产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

大学的统计学知识，你是否还记得？本文作者将用最精炼的语言和简单的案例，让你能够快速将T检验运用到实战当中。因此不用纠结过多的统计学理论而不能自拔，知道怎么运用即可。本文是T检验的实践运用系列第二篇-相依样本T检验。

笔者最近项目比较赶，所以更新频率慢了很多，同时也发现其实这类偏学术一点点的文章热度并不怎么高，不过认真读下来并且将文中的知识运用到工作中的小伙伴们，应该是受益颇多的，笔者的初衷也是希望更多的人能在看完我的文章后能在平时的产品设计与产品验证方面更合理，避免很多拍脑袋的事情频频出现，那闲话就聊到这里，下面我们就进入我们本篇的主题-独立样本T检验。

上一篇我们讲到了单样本T检验，我们回顾一下它是用来做什么的：如果我们只有一个样本，假设样本均值为，总体的均值为μ，我们想知道，这个样本来自的总体是否与具有这个均值的总体显著不同？

通俗的来讲，就是想知道我们手里的这个样本与总体的差距，它比总体表现好，还是表现差。

那么，假如我们有两个版本的方案设计，如何简单的判断两个版本的方案谁好谁坏呢？

有同学会立即想到A/B Test。不过，A/B Test就一般的小公司来说并不是很简单就能实施的一种方法，否则也不会有那么多专门做A/B Test的公司了，并且A/B Test的很多理论和知识点与T检验也有重合，所以我们首先了解T检验是只有好处而没有坏处的。而相依样本T检验就是一种简单，快速的双版本验证方法，人人都可以用哦。

相依样本T检验的流程与单样本T检验的流程很是类似，所以在阅读接下来的内容之前，强烈建议回去看一下单样本T检验。那么假如你已经看过上面的文章，并且对基本的实验流程清楚了的话，我们开始我们的相依样本T检验讲解。

相依样本T检验：（Dependent t-test for paired samples）

相依样本的概念是：如果同一受试者参加两次测试，则是相依样本，这叫做受试者内设计。

比如，我们让每个受试者分别体验我们的两版不同的产品，之后我们分别得到两版的成对数据；又或者是一种纵向的时间研究，我们对受试者施加一种前期测试，然后在一个时间点得到一组数据，然后再对受试者施加另一种测试，在另一个时间点得到另一组数据。

总之，我们是为了得到相同对象的成对数据 (Xi， Yi)，我们要衡量这些值之间的差异|Di = Xi – Yi| ，之后我们得到Di后的计算流程就与单样本T检验的计算流程一样了。接下来我们通过案例来直观的感受一下相依样本T检验。

假如我们设计了一个新的游戏玩法（或者我们在PC上看到一个很火的游戏想移(chao)植(xi)到移动端，比如吃鸡），但是目前遇到了一个问题是这个游戏的玩法，目前市面上没有合适的操控设计来匹配，因此我们需要重新设计一套操控系统。

团队经过日夜赶工设计出了两款新的操控方案，但是不确定哪种会更好一些，因此他们想知道这两套操控哪种更方便玩家的操作，哪种操控使得玩家犯错率更低（比如当玩家想向右边转动镜头时却转向了左边）。团队邀请了25个内测玩家来进行方案测试。这些玩家被随机分配到首先使用操控方案一还是操控方案二的组中，然后进行轮换。实验方式是玩家需要在1分钟内进行15步游戏常见的操作，然后统计每个玩家的出错次数。X为方案一的出错次数，Y为方案二的出错次数，最后得到如下数据：

1. 提出问题,设定0假设和对立假设

0假设：我们假设两种方案差别没什么不同，不存在显著差异，即如果将这两种方案共同推出，所有使用这两种键盘的人都没感到什么差异，记为

对立假设：我们假设这两种方案有差异，所以记为

u为总体均值。

2. 计算差异点估计

差异的点估计为

这个点估计只是样本点估计，我们需要知道与其他差异的对比结果，因此我们需要计算差异的标准偏差。

3. 计算差异的标准偏差

根据计算得到S = 1.91

4. 确定均值标准误差SEM

SEM = 1.38

5. 确定t值

计算得出t = -1.21

6. 确定t临界值

自由度

因为我们设置的对立假设为

所以此检验为双尾检验，根据95%置信水平查询T表格得：

t临界 = ±2.064

7. 得出结论

那么根据我们计算得出的t值和t临界值，我们是否拒绝0假设呢？因为t值为-1.21，它不在临界范围之内，所以我们不能拒绝0假设，也就是说，虽然我们从样本的平均值上面看，可能方案一比方案好。

但是从统计学角度讲，如果这两个方案真的都投入到市场上，用户的操控体验其实也没多大区别。那这时候问题来了，我们到底怎么决策呢？这时候，我们就要将得到的这组数据平均分与行业操控数据进行对比，也就是说与行业数据进行单样本T检验，看看此数据是否比行业数据好，如果连行业数据都不如的话，那就需要对这两个方案进行整改设计了，再次循环这个过程，直到找到最优方案。

至此我们经历了一个相依样本T检验的案例，虽然我们最终没有从这两个方案中选择一个出来，但是我们知道了这两个方案其实差异不大，并且我们也知道了接下来该怎么做，相信我们在实验的验证下一定会得到一个比较满意的方案的。

另外，还是提醒大家，影响方案选择的因素是比较多的，除了数据上的验证外，还要考虑到具体的业务需求，时间成本，开发成本等等因素，也就是我们要去评估方案的实际显著性和统计显著性，如果方案一的体验只比方案二的体验有轻微提升，但是开发成本高出许多，这样的方案是否要推出，还是需要评估一下的，好啦，那么这期就到这里啦，我们下期见。

下期我们将会讲解最后一种，独立样本T检验。