搜索策略:PC端时代起的流量入口

0 评论 2015 浏览 11 收藏 17 分钟

搜索引擎曾经是PC端第一流量入口,百度就靠这个成就了BAT的江湖地位。虽然现在昔日荣光不在。但搜索功能依然是部分APP最大的流量入口。这篇文章,我们就来梳理下这个搜索功能的过往。

一、引入

早在PC互联网时代,搜索引擎便是流量的主要入口。由于网站数量的快速增长,传统人工浏览的方式已经不能满足用户获取信息的需求,为此1995年诞生了很多早期的搜索引擎公司,如Yahoo、Excite、InfoSeek等。

移动互联网时代,虽然一些内容类App上推荐系统主导了流量的整体分发,但在一些综合类电商App上(如淘宝、京东),搜索仍是最大的流量入口。

1.搜索引擎的5个时代

①分类目录时代。

1990年,Archie by加拿大麦吉尔大学,用于FTP(file transfer protocol)软件上的文件搜索,Archie可以根据文件名称查询文件所在FTP地址,然而它并非现代意义上的搜索引擎(不能搜网页、没有机器人程序爬取,故只是雏形)。1994你那,卡内基梅隆大学创办的Lycos被公认是第一代互联网搜索引擎的代表,可以按分类目录进行搜索,然后这些信息被统一归类到一个网站上。

第一代搜索引擎的核心技术:网页爬虫能力、网页分类能力。

第一代搜索引擎的核心问题:如何通过机器自动爬取这些网页,并将这些网页归类到对应目录下。

②文本检索时代

1996年,产生了支持用户输入检索词并返回信息的检索方式,系统计算相关性,返回网页并排序,代表引擎是Excite、Alta Vista。

③链接分析时代

为了排除垃圾网站,斯坦福大学学生(Google创始人)推出了全新的排序算法:PageRank,核心思想是通过网页之间的互相链接来侧面反映网页的流行性和权威性,该算法主要用于网页排序。02年世界门户网站基本都在使用Google搜索引擎,Google整合成了一个门户网站的状态。

第三代搜索引擎的核心技术:高效匹配用户的检索词和网页内容,返回高关联度的相关内容并过滤低质内容,结合流行性和权威性进行科学排序,缺点在于未考虑个体的差异性,返回结果所有人都一样。

④多功能+个性化+弱人工智能系统

第四代搜索引擎除了在功能上支持文本搜索以外,还需要支持图片搜索、识曲搜索、视频搜索、语音搜索等多种功能,召回和排序需要重点考虑个性化,对于不同用户,同一检索词返回的内容不同但更合适,得益于AI的不断进步。

⑤强人工智能时代

第五代搜索引擎需要以解决用户实际问题为出发点,当网络上没有现成答案时可以自行为用户解答,具备知识问答的功能,Bing在第五代搜索引擎中已经拔得头筹。(搜索引擎是一个需要强积累的技术产品,不太可能突然诞生一个强有力的新秀)

2. 搜索引擎的分类

搜索引擎主要分为两大类:

  • 综合类搜索引擎:以Google、Baidu为代表,支持用户对各类不同领域的内容进行搜索。
  • 垂直类搜索引擎:以淘宝、小红书为代表,嵌套在某个产品里或者某个场景下,针对某些特定属性的内容进行搜索。

对于垂直类搜索引擎,比如电商App搜索引擎,仍是以电商App第一大流量入口,搜索引擎贡献GMV差不多占电商App整体GMV的70%,在其上进行微小策略优化最终产生的绝对收益是非常大的。

二、搜索引擎概述

1.搜索引擎简介

1.1.搜索引擎的定义:

本质上是一种信息检索系统,从海量的信息中检索出和用户查询相关的信息,现阶段不仅有搜索的功能,也有推荐系统(信息过滤系统)的逻辑。因为筛选之后推荐感兴趣的也是搜索引擎需要解决的问题。

1.2.搜索引擎需要实现的目标

  • 精准:理解用户意图,返回高相关的匹配内容。这是搜索引擎最重要的目标,其他目标都需要以该目标为前提。此处的“精准”不仅是指物料和检索词之间的相关性匹配,还包括物料与用户个性化偏好、差异化需求的精准匹配。
  • 全面:一方面是内容的全面,搜索引擎能够满足所有需求;另一方面是功能的全面,支持不同场景下的需求。
  • 可运营:除平台整体以算法为导向的策略调控,还需要具有完善的以强业务干预为导向的人工运营功能。
  • 可反哺:对于电商,用户检索行为信息可以作为业务人员采用商品的参考;对于内容搜索引擎,可以指导平台的内容生产。

1.3.搜索引擎需要解决的关键问题:

  • 准确识别用户的查询意图:处理大量不规范检索词时如何更好地识别复杂检索词背后的真实意图。
  • 实现查询和物料的匹配:如何从平台上海量的物料中召回相关的物料,物料丰富时择优,物料匮乏时找替代,降低搜索到空结果率。
  • 科学地对返回的物料进行排序:基于用户个性化偏好和物料本身的相关性、权威性、流行性等因素进行科学的排序,此世搜索引擎有了推荐系统的逻辑。
  • 做到有问必答,解决用户大部分查询需求:第五代搜索引擎需要解决的关键问题。

2. 搜索引擎整体架构

以上是一个完整的搜索引擎应该有的功能模块,常见的流程包括建立物料索引、查询语义理解、召回、粗排、过滤、精排、重排,最终在前端为用户返回搜索结果。(比推荐策略多了两个功能模块:查询语音理解与词库),但是单个模块的子功能相对推荐系统更多,且处理逻辑有差异;

2.1 搜索前和搜索中的模块

按照用户搜索的流程可以将用户行为分为搜索前、搜索中、搜索后三个部分。在搜索前、中两个模块,一般设置搜索底纹、搜索排行榜以及搜索联想词等功能,起到降低复杂度、引导的功能,同时也会针对错误检索词自动纠错。

2.2.查询语义理解

该模块主要作用是充分理解用户的检索词,构建查询语法树,输入召回模块中。查询语法树的构建一般需要经历以下几个环节:

  1. 将错误的输入内容纠正为正确的检索词。
  2. 基于词库对原始检索词进行分词,针对每个词打上具体的实体类型,为每种实体类别设置相应的权重分。
  3. 基于切词后的实体构建查询语法树。

查询语法树决定了检索词中哪些实体词参与召回、哪些实体词仅参与排序等。

2.3.词库和实体体系

该体系可以理解为查询语义理解模块的辅助功能模块,分词的基础便是词库。在实际使用中用户需要有针对地构建自己的词库,词库的构建没有捷径。

2.4.召回

查询语法树构建好后的环节就是物料召回,搜索引擎召回和检索词相关的物料,采用多路召回架构(召回路数远小于推荐系统)。目前常见的召回方式有:文本召回、语义相关性召回、个性化召回。

在综合类搜索引擎,召回不会翻页刷新,但是在垂直类搜索引擎内搜索引擎下翻时会进行翻页刷新。

2.5.物料索引

搜索引擎进行召回时还要用到一个辅助模块,即物料索引。因为需要召回和检索词相关度高的物料,所以需要针对物料提前构建倒排索引。搜索引擎中的物料需要基于物料的标题等对物料的信息进行切词处理,针对每一个词构建对应的倒排索引,当用户查询时,可以快速检索到对应的结果。

2.6.过滤

过滤环节在粗排和精排环节前,一方面是避免无效物料进入后续环节,影响后续效果,另一方面是提前过滤无效物料,减少无效环节的计算量。对于垂直类搜索引擎,主要按照SKU的库存、上下架、是否涉及黄赌毒进行过滤;对于综合类搜索引擎,主要针对是否包含黄赌毒或者政治敏感信息等进行过滤。一般来说,对于同一个APP,搜索引擎和推荐系统的过滤逻辑基本一致。

2.7.粗排

粗排的目的是对搜索结果进行初筛,基于召回点击率or召回转化率的逻辑,搜索引擎会有更多的排序因子。

2.8.精排

精排模型的目的是实现单点最优(point wise),主要用于预估单个搜索引擎的CTR和CVR。电商领域以预测CVR为主,综合搜索引擎以预测CTR为主。

2.9.重排

三大重排策略:全局最优、用户体验和流量调控,实际落地要求不一样,需要以“序列最优”为核心目标对搜索结果进行重排。用户体验的关键在于搜索结果的精准性和全面性。搜索结果页的流量调控主要包括对商家、新创作者和新品的一些扶持。重排模块里的物料排序就是最终展示在前端的物料排序。

2.10.搜索后模块

配上搜索结果的样式和创意。

2.11.特征服务

特征服务作为一种公共服务,可以供搜索引擎各个环节进行调用,推荐系统和搜索系统经常共用一个大的特征服务模块。

3. 常见效果指标评估

搜索引擎包括召回和排序两大模块,模型也分为CTR预估模型和CVR预估模型两种。对这两种模型进行离线效果评估时和推荐系统一样使用AUC指标。在实际评估时会拆分得更细,分为离线和在线两个方面。

3.1.离线评估指标

  • 数据标注:搜索引擎初期需要对数据进行人工标注,明确物料库里哪些物料应该召回,哪些物料不应该召回,完善人工标注的数据集才能进行离线效果评估。
  • 召回完整性:核心评估指标是召回率
  • 排序合理性:搜索引擎不仅要将所有商品召回,还应确保排序合理,理论上应该将评分最高的结果排在最前面。评估搜索结果排序的合理性时,一般使用DCG(discounted cumulative gain,折损累计收益)和NDCG指标(normalized discounted cumulative gain,归一化折损累计收益)。

3.2.在线评估指标

离线效果评估主要评估搜索结果的召回完整性和排序合理性,在线效果评估可以通过多方面的指标来评估搜索引擎的结果。

  • 查询无结果率 = 无结果返回的PV数/总搜索PV数,指标越高,搜索引擎召回模块效果越差。
  • 平均点击结果位数 = 总点击结果位数/总搜索PV数,指标越小,排序模块效果越好
  • 跳失率 = 跳失PV数/总搜索PV数,指标越高,搜索引擎效果越差
  • CTR = 点击结果数/曝光结果数,统计口径可以分为UV、PV和曝光件次口径
  • CVR = 订单数/点击数,评估搜索引擎的综合效果,统计口径可以分为UV、PV和曝光件次口径;订单数可以分订单行和订单量两种口径。

对于综合搜索类引擎来说,核心考核指标是CTR;对于电商类搜索引擎来说,核心考核指标是CVR,电商业务以GMV为首页目标,搜索引擎需要尽可能将用户的每一次搜索转化为订单。

4. 搜索策略产品经历画像

搜索策略产品经理是最早的策略产品经理,因为搜索引擎在工业领域最早得到广泛应用。最早一批搜索策略产品经理大多来自Google、Yahoo等知名的搜索引擎平台。

搜索引擎可以分为综合类搜索引擎和垂直类搜索引擎。垂直类搜索引擎可以细分为电商搜索引擎、短视频搜索引擎、内容社区搜索引擎等,虽然搜索引擎的细分方向很多,但搜索策略产品经理的工作主要包括以下3项。

1)召回。和召回有关的策略包括查询语义理解模块策略、召回模块策略。这两个模块细分的功能有检索词解析、纠错、检索词改写、查询语法树构建等,均由此部分的策略产品经理负责。在日常生活中,策略产品经理需要分析大量案例,做大量的案例评估,分析检索词和搜索结果之间的相关性,基于案例评估结果与优化查询语义理解模块和召回模块的策略。部分互联网公司把查询语义理解模块单独剥离出来,由专人负责。

2)排序。策略涉及工作包括整体流量分发策略制定、排序公司的设定、精排模型和重排模型的样本选择、特征工程等。

3)平台生态。配合平台生态相关策略的制定。

本文由 @乾意 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!