AI产品经理需要了解的数据知识：余弦相似度

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI产品经理需要了解的数据知识：余弦相似度

罗飞

2018-06-11

1 评论 7014 浏览 30 收藏

9 分钟

本文概括介绍了余弦相似度是什么、如何应用以及案例说明，目的是希望我们产品经理在设计相关跟相似度功能或是利用相似性功能解决某一业务的场景时能利用上余弦相似度，并希望您读完对自己在设计相关推荐业务、搜索业务、识别业务时能有更深层次的理解。

在机器学习算法中，有很多方法计算某个对象之间的距离或是相似性，余弦相似度是通过衡量两个向量间的夹角大小，通过夹角的余弦值表示结果，余弦相似度的取值为[-1,1]，值越大表示越相似。

计算余弦值的公式如下：

注释：其中a和b代表两个向量（向量是在空间中具有大小和方向的量，在数据计量中表示带箭头的线段，相关向量知识可自行阅读相关文献）。

如果是在二维空间，余弦相似度的值通过如下公式计算：

对于以上公式的理解，我们可以看如下两图（二维向量图和余弦定理）

以上左图是将a\b两个向量二维化，右图是余弦定理，通过余弦定理与二维空间结合，即可推导出来二维空间下计算两个向量的余弦相似性公式。（有兴趣的同学可以看上面两个图，自行推导一下）

如果假设空间是多维的，那么余弦相似度公式可扩展如下公式：

以上是对余弦相似度概括解释，以及公式演化形式，在下一节将会对以上公式的应用说明，请各位同学先好好理解以上公式。

一、余弦相似度应用说明

余弦相似度在度量文本相似度、用户相似度、物品相似度的时候都较为常用。

案例一：文本相似度

比如有如下两个句子：

句子A：他不仅是一个歌手，还是一个舞者；

句子B：他既是一个歌手，也是一个舞者。

那么如何计算以上两个句子的相似度，首先我们要找到如何评价这两个句子，用什么方法将这两个句子向量化？我们最直观的看，连个句子用词相近，那句子整体相似度就高，因此我们从词频入手，来计算其相似性。

首先，进行分词处理：

句子A:他不仅是一个歌手还是一个舞者

句子B:他既是一个歌手也是一个舞者

其次，列出所有的词：

他不仅既是一个歌手还也舞者

第三步：计算词频

句子A: 他（1）不仅（1）既（0）是（2）一个（2）歌手（1）还（1）也（0）舞者（1）

句子B：他（1）不仅（0）既（1）是（2）一个（2）歌手（1）还（0）也（1）舞者（1）

第四步：

我们总结出来两个句子的词频向量：

句子A(1,1,0,2,2,1,1,0,1)

句子B(1,0,1,2,2,1,0,1,1)

这样问题就变成了如何计算这两个向量的相似程度。都是从原点（[0, 0, …]）出发，指向不同的方向的向量。

通过公式计算得出：

A和B的余弦相似度=

通过余弦相似度公式，我们计算出来这来两句话意思很相近。

我们通过这个案例不难发现，想要利用余弦相似性公式来计算两者之间的相似性，首先要确定向量化的方法（比如本案例中，通过将连个句子通过分词的方式，计算词频来向量化），理解向量值的多维度（我们通过分词可以得出来9各维度的向量值），然后将向量化后将值带入到公式中，去计算相似度。

通过以上案例我们可以联想其他案例，比如对于两篇文章，连个实体的相似性对比，我们可以通过向量化关键词、实体画像特征等进行向量化，然后通过这些特征向量化的维度值，进行计算相似性。

案例二：用户相似度

比如一个外卖平台,两个用户A和B，外卖新出了两款新品套餐，分别是a和b,用户A对这两款新品的评分是1分和2分，b对这两款新品的评分是4分和5分，我们通过余弦相似度来评价一下两个用户的相似度。

假如我们将对这新品套餐评分作为特征向量，两个产品的评分分别连个维度的向量值，是那么A和B的特征向量分别是（1,2）、（4、5），我们代入公式计算得出：0.98。

通过公式计算发现两个相似度很高，但是这跟我们直觉判断这两个应该相似度很低才是，这说明我们选定好评价的特征向量后，对于向量值的的确定出现了问题，我们对（1,2）、（4、5）进行转换，变成与平均分3的差额，的出来新的向量值（-2，-1）、（1、2）之后，重新计算得出相似度为-0.8，那么我们看这个结果比较接近事实。

通过这个案例我们可以看到：再找到特征向量后，对于向量值的取值与评价也需要灵活考虑，可以结合统计学知识。