搜索PM:Query“长尾词”的分析及处理思路
做搜索、排序,乃至搜索推荐的PM,都需要关注长尾词的处理。这篇是某电商搜索技术大牛的讨论和分享,同时我结合之前做内容和电商搜索的经验,会加以整理、梳理、加粗。整体都是干货满满,都是从实战经验所得,可以参考学习。
PM角度理解“长尾词”
今天的主题是杂谈,长尾词是什么?
在百度百科上,长尾词解释是:非目标关键词但也可以带来搜索流量的关键词,这是一个明显的SEM的长尾词解释。
用我们做搜索产品经理的“人话”来说:长尾词就是那些个每天搜索量不是很多,但是一直都有搜索量的词。
首先,我们给个结论,长尾词是个金矿。
一、长尾词有些什么特征呢?
(1)比较长
这个“长”和长尾词的长不是一个意思,一般的搜索词都比较精炼,比如只有一两个词语,一般不超过三个,而长尾词可能有5、6个短语组成。
(2)搜索意图一般都比较明确
就是说用户搜长尾词的话,一般搜索的意图都比较明确。
比如:如果用户搜索范冰冰李晨,可能用户只是听说了这两个人有联系,搜索只是想看看范冰冰和李晨到底有什么联系;但是如果搜索范冰冰李晨康熙来了,那么这个用户很可能知道他俩有一腿,并且知道他们上了康熙来了,然后想搜索出那一期的康熙来了来看看,所以意图比第一种情况明确多了。
(3)搜索次数比较少
这个很好理解,搜索范冰冰李晨的搜索肯定比范冰冰李晨康熙来了的人要多的多得多。
(4)总量特别巨大
虽然说搜索次数少,但是使用搜索的人多啊,脑洞也大啊,所以长尾词的搜索量总的来说是巨大的。
所以今天,我们来聊聊长尾词,我们不分析大搜的长尾词优化,还是讲垂直类搜索的长尾词。
垂直类的长尾词一般分成两种:
- 一是有搜索结果的,只是被搜索的次数比较少,这种不在优化范围内,即便要优化也是对排序的优化。
- 一种是这个长尾词没有搜索结果,这种是需要优化的,要优化到有个结果。
二、长尾词的处理?
从搜索引擎端来看,长尾词是个金矿,我们知道一般的事物都会满足二八原则,搜索引擎也不例外,一般20%的搜索词占用了80%的流量,甚至更多,剩下80%的搜索词都属于长尾词。
如果优化这一部分搜索词的体验直接影响到用户的留存率,有时候用户就是通过一两个词的搜索就会主观判断出哪个搜索引擎更好,我们看个大搜的例子。
比如我们搜索多路求交,这是一个比较专业的词语,同时也是一个不太常用的词语,属于长尾词的范围。
1. google搜索
我们在google搜索的话,出现的是下面的搜索结果(第一个结果请忽略,是我文章写出来以后被收录的),前几个结果感觉比较靠谱吧,至少说的都是算法方面的东西,而且确实是求交集的文章。
2. 百度搜索
然后我们再看看百度的搜索结果,对于这种结果,我只能是呵呵了。
(大部分互联网人都使用google搜索是有原因的,尤其是开发等专业性强的岗位。或许百度搜索专业性领域不行,但八卦、趣闻或一些分享文档倒还不错)
很明显,一个正常的人,要是搜几次偏一点的东西都是出现上面的结果,那必然会觉得google更靠谱了。
好,我们来看看,这个搜索词在这两个搜索引擎端都做了什么?(重点原理思路)
(1)在google端
- 他分析了这个搜索词,然后把这个搜索词变成了多路/求交集,
- 这样的搜索词,并且他认为交集是这个搜索词的重要词(中心词),排序上占优,
- 所以这样分析完以后,即便搜索出来的很多不太相关的东西,但是排序以后出来的结果也比较靠谱了。(中心词,即此时搜索权重最高)
(2)我们再看看在百度端
- 百度做了啥呢?呵呵,直接切词成多路/求/交了,
- 首先没管词序,所以出现了第一个求多路这样的词组合,
- 第二因为搜索不到结果,所以把求这个关键词去掉了继续搜,出现了第二个多路公交这样的文章,
- 后面的结果完全没法看了(他们爬虫估计也有问题,呵呵呵呵呵呵)。
上面是在通用搜索引擎端遇到长尾词,直接影响的是用户体验。
3. 淘宝京东搜索
如果是在垂直搜索领域(比如说电商领域)遇到长尾词,那可能直接影响到的就是订单了,
比如我们在淘宝、京东搜索:喇叭 高腰 牛仔 七分 李维斯(为了避免广告嫌疑,搜索结果没有截图)。
淘宝:
京东:
这种词是一个搜索意图非常明确的长尾词,我们看看京东和淘宝分别做了什么。
(这里不做搜索结果的好坏比较,因为京东的服装本来就比淘宝的服装要少,搜索不出来很正常),看看中国第一和第二大电商为了这个长尾词能尽可能多的让用户点击搜索结果都做了啥。(提升搜索点击转化率的策略)
首先,他们都分析了这个长尾词,找到了他们认为比较关键的词,这一步两边得出来的结果就很不一样了。(两者认为“比较关键的词”不同,影响搜索召回。而认为不同的原因,有自身商品库是否存在该品类、品类丰富的有关)
淘宝认为李维斯这个品牌不是重要的词,直接去掉了,淘宝认为前面这些个描述才比较重要,是用户的主要意图,他给推荐了喇叭,高腰,牛仔,七分这几个词的三三组合。(淘宝在这里的策略:是弱品牌,以商品的属性(参数)为重。
即认为用户是追求是符合参数的商品,品牌可能只是作为参考,权重一般。
为什么会这样的?听起来其实不符合逻辑对吧?
但我们细想一下:淘宝不像天猫、京东、唯品会等,不是“以品牌”为调性,更多是中小企业卖家,甚至是DIY设计师等;同时,奔着淘宝购物的用户画像,也并非是要以品牌非买不可等等。
基于这样的情况,弱品牌,重参数是囊满足“人”、“货”的出发点,能平衡“场”。
京东搜索分析出来以后,觉得李维斯,牛仔才是重要词,用户主要意图在这个品牌上面而不在款式上,所以直接给出了牛仔,李维斯作为推荐词进行搜索。
谁好谁坏,大家各自心里有各自的想法,也许女生觉得淘宝的好,男士觉得京东的好,这个东西没什么定论的。(因为用户画像也是很关键,技术或许有标准,但落地到业务就是无法去衡量,这里更多是策略相关,是否能满足该平台下的用户需求、体验)
再说一遍:上面这个比较不能说明两个搜索引擎的差距,在这个品类上,淘宝的商品优势更明显,所以出现无结果的情况更少,我举的这个例子只是为了说明再寻找关键词上不同的引擎会有差异。
我们看到了大搜和垂直搜索中遇到长尾词的一些个情况,前面我们说了长尾词是金矿,如果能处理好长尾词,那么京东淘宝的成单率估计也能上一个台阶。
三、那么在搜索引擎端如何来优化长尾词呢?
1. 用户搜索意图分析
所谓用户的搜索意图分析,就是这个用户到底想搜什么?
首先,我要要知道一点:对于电商的搜索,用户意图一定是一个商品,只不过表述这个商品的关键词不一样而已。
比如上面说的京东和淘宝的例子中:京东认为用户想搜的是李维斯这个品牌,而淘宝认为的是用户想搜的是这些款式的牛仔。
如何得到这些个关键词呢?
首先这些关键词一般是一些具体的物品(比如牛仔裤,鞋子,帽子),或者一些品牌(比如李维斯),因为在电商网站,买物品和买品牌才是关键,所以将物品词作为关键词比较说得过去。
而对于物品词的提取,可以通过你已有的商品进行提取。因为每个商品都是一个物品,都有一个物品词或者品牌词,整个商品过一遍就有你所有的物品品牌词了。当用户的搜索词里面出现了这个物品或者这个品牌,那么我们即使没搜索出来东西,给出这个物品或者这个品牌的商品,用户一般也会有点击。
如果是大搜的话,用户搜索意图的分析就复杂了,因为不见得是搜物品了,那个我也只懂点皮毛,就不在这里瞎扯了。
这里要看平台内容的丰富度。如像淘宝、京东等,其实已经由电商发展成内容+电商,带有导购属性。
以后搜索不仅是有商品维度,还有如榜单类、KOL类、好货类、必买类、圈子等等。如现在在淘宝搜索一个关键词,还会出现淘攻略、挑尖货等。从搜索策略来看,就是丰富搜索内容,提高用户可选择性,满足点击和用户需求的一个精细化运营方式。
有了这个关键词的分析,基本上长尾词能干掉大部分的没有结果的情况,因为只要用户搜索的词里面有个物品或者品牌(一般肯定有),基本上都能出一个不太离谱的搜索结果。
当然,对于电商类搜索,还有一种特殊的情况,找到了搜索词中的关键词也不顶用,那就卖书的电商,比如当当,亚马逊这种,因为书名可不能体现这个商品的关键词。
比如追风筝的人,你说关键词是风筝还是人?如果有人搜索放风筝的人,你怎么办?
这里,就要用到下面的方法了:
2. 后继词挖掘
后继词挖掘是基于用户行为数据的。(可以相信是基于用户画像和历史行为数据挖掘)
比如上面那个放风筝的人搜索结果我们要是不满意,用户会自己修改关键词,然后找到他想找的结果。
这个用户主动修改过的词就是这个词的后继词(一般后台有存储搜索历史的地方,可以挖掘用户的词,这里要注意是时效性、以及受热度等影响),那么我们可以把这个用户行为记录下来,当这个长尾词搜不出东西时,用他的后继词来给出一个搜索结果,这种靠用户自己的修正值进行的长尾词优化效果比较好。
但是他的前提是已经有人搜索过这个词并且主动修改过关键词了。
这里说一句:我们看到的百度的相关搜索就是一个后继词的应用。
3. 编辑距离
编辑距离来找意图也是一种方法,这里我们不展开了,以后说意图识别的时候再具体说说编辑距离,感兴趣的可以自己查查。
简单说,就是我们发现一个商品的标题和用户的搜索词差别比较小(其实这里可以用算法模型,原理应该就是相似性、向量计算比较等),小余某个设定的编辑距离,那么我们就把这个长尾词改成这个标题,上面那个搜索中,追风筝的人和放风筝的人编辑距离就是1,那么我们认为这个用户其实是想找追风筝的人。
垂直搜索的长尾词的优化,最终的目的是让用户在搜索长尾词的时候,即便搜索引擎有些长尾词给不出精确的结果,也能给一个相对靠谱点的结果,增加用户的点击,这个是大的话题。
对于搜索引擎来说也是一个可以持续挖掘的东西,投入再多的人力和精力也都值得,不然一个搜索引擎组哪来那么多自然语言处理的人员啊。
对于最后一句话深有感触,也是实战最能感知的,不管是在大厂还是小厂,开发的资源总的来说都是很缺的。
就算大厂的开发再多,再牛逼,可是他们需要支持项目也很多!尤其搜索方面,在开发人力,处理NLP方面确实是个问题。如前端搜索功能不完善需优化,但这涉及改版、排期、测试,而后端一些大概也需要人力,甚至涉及到架构。
这时候你可以通过一些很灵活的方法去优化搜索,从以前的经验,可以有完善商品的分类、标签、优化匹配词库、联想词库、排序的因子、权重等,这些都是一种策略,一种直接给开发就能修改,甚至半天就生效,是否灵活!
四、长尾词的应用
长尾词是个金矿,这不仅是对搜索引擎来说是这样的,对使用搜索引擎的人来说也是这样的,我们来几个例子说一下。
(这里是列了几个角度,还是比较有趣的)
1. 我是商家
如果我是商家,在一个电商平台开了店,如果没有监管的话,我把我的商品名称取得千奇百怪,也叫关键词堆砌吧,那么长尾词搜索就有很大概率搜索到我的商品了,而前面也说过,搜索长尾词的用户一般是搜索意图很明确的,那么搜出来点我的概率就大了哈。
但是很可惜,这东西在很久以前可以玩玩,目前各大电商网站对商品名称都有比较严格的限制,靠堆关键词基本上很难了,呵呵。
关于标题等SEO范围,PM一般不会在聚焦,这是运营的技巧或者卖家的一些技巧。
也可以了解了解,如选淘宝、京东、阿里巴巴等的大电商参考就行,尤其是阿里巴巴系,人才济济呀!京东这些比较偏规范,但阿里系的2B2C,还是比较“多花样”。
2. 我是广告主
这里我们以百度投放广告为例,如果我知道一堆长尾关键词而别人不知道,那么这些个关键词的百度竞价很可能很低,也许只有一块两块钱点一次,那么我就用了很低的价钱在这些词上面投了广告,并且这种长尾词用户意图明显,点击率非常高,那比花几百块钱去争抢热门词靠谱多了。
在这里,如果找长尾词成了一门学问,呵呵,我们不深究了,这里黑科技太多。
(这里涉及的是SEO优化、广告竞价RTB等方面的策略了,比较深。有运营侧的技巧,一般广告和商业PM主要是关注RTB方面,即竞价计算,连接SSP和DSP的事情也就是价格。)
好了,想想最近很热的医疗的关键词,是不是满足长尾词的全部特征?搜索次数少,意图非常明确(谁会没生病去搜索一次医疗相关的词?),搜索词的量很巨大,所以,呵呵,这种搜索词你一旦投广告,不明真相的群主哪有不点的道理?某搜索引擎的收入怎能不高?
(我想起了之前莆田系的医药虚假广告,唉~有时候目的意图很明显,转化确实也高。在这些行业价格也高,公办医院不屑于、名门规定不准投放。竞争排名,反而变成私家医院的“召回客户”池子。百度总是出这样,那样的广告竞价虚假新闻,就如王欣快播当年的“技术无罪”,可一旦触及大部门人民利益,伦理等,再大的公司也得倒~
所以程序化广告,风控安全策略也很重要,要有敏感的策略,这方面百度应该会一直很重视,PM是需要考虑平衡商业化和引导用户、体验等)
3. 我是平台
好了,我们再进一步,如果我是一个平台(这里假设是个电商平台,其实很多其他平台也可以这样),我这个平台上有很多第三方的店,卖各种商品,他们可以通过各种方式在我的平台上打广告,每个广告点一次5块钱。
这时候,我拿一些个打广告的商品,分析出这个商品的一些长尾关键词,然后我去百度投放广告,比如一个长尾关键词百度卖1块钱,当有人在百度搜索这个长尾词的时候,第一个看到的就是我平台的这个商品,然后点进来。呵呵,我给百度1块,商家给我5块,分分钟4块到手。
(这也是我们逛百度,逛网页,看到一些词或者点击某些页面,跳转到其他商品等页面,是有利益可图)
4. 我是搜索引擎
如果我是搜索引擎,我有全部搜索词和点击率,所以很容易查出长尾词来,分分钟秒了各种找长尾词的黑科技,我拿到这些个长尾词以后怎么办呢?
当有人在我这投关键词广告的时候,通过相关性匹配,我给他推荐这些长尾词啊,并且告诉他这些次点击率高啊,结果客户一试,还真是点击率高,于是各个客户开始拼命竞价,我的收入开始呼呼涨啊。
所以现在,长尾词已经被搜索引擎本身挖掘完了,广告主想靠长尾词降低投放的花费已经比较困难了,呵呵。
这里可以留意阿里妈妈,就是生意参谋等投放平台。我以前玩广告平台时,特意开了淘宝店,没事玩玩生意参谋和投放广告,里面的词包是挺强大的,有包括联想词和推荐词,这些会根据综合维度的去计算,是策略相关。
如果玩用户画像、标签系统等,可以留意阿里妈妈下的达摩盘,这里估计是中国电商算TOP的标签系统。
你会发现用户侧、商家侧、平台侧的标签体系,以及三者能做成场景化运营标签。这个以后我有时间会单独写,或者开live单独聊、用户画像、标签系统的事情。这个对于电商真的很重要,上到精细化运营,用户维护等,下到个性化推荐、广告变现,金融服务……
好了,今天简单的说了说长尾词的一些特点,长尾词挖掘是个长期的工作,对于巨量的搜索词,如果找到一个合适的规则能处理一部分长尾词,那么对搜索引擎的效果都有很好的提升。
所以长尾词的优化,不管是大搜索还是垂直搜索,都是一个搜索引擎最重要的模块之一。
本文由 @凤城狂客 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
很棒
同样,有启发,学习了
有启发
错词纠正,减词搜索,类目预测与关联,中心词匹配策略这些是站内搜素的常用召回在手段,其次就是排序算法。 编辑距离有点牵强,现在基本上使用自然语言大数据处理一下就能将这个放风筝的人 直接给改写了。楼主讲的有点表面了。