大模型掀了传统搜索引擎的饭桌?
随着大模型技术的飞速发展,传统搜索引擎的搜索体验正面临前所未有的挑战。本文深入探讨了传统搜索引擎在搜索前、搜索中和搜索后三个阶段的策略、算法以及潜在问题,并分析了大模型如何通过生成和推理能力优化搜索结果。
不知道是否有人跟我一样有过这样的抓狂时刻?打开搜索引擎输入关键词,广告和标题党扑面而来;搜索长句翻了好几页也找不到想找的内容,好不容易找到一篇攻略,点开是十年前的古早帖……传统搜索引擎消磨着人们的耐心。相比之下DeepSeek好像更能在模糊问题描述中找到要搜索的真实意图,也能条理清晰的给出答案,省去了很多人适应机器去试关键词的过程。也有很多想买搜索广告的商家会担心,未来买不了关键字,是不是也影响了自己的获客?
传统搜索简单介绍
传统搜索引擎为什么“不好用”了?从大多数的搜索产品共性上做简单介绍。
搜索前(还没搜词)
目的:引导用户使用搜索
功能:搜索框,含滚动的底纹词;内容描述标签、话题引导;浏览后推荐关键词;语音搜索;拍照上传搜索
策略:
- 扩大入口,在产品上其他模块增加搜索入口。
- 降低难度,不打字就语音或图片。
- 意图引导,会提炼用户在站内有过交互行为的内容,转成关键词再露给用户。
算法简述
- 热度排行榜,选出普世高热词。按单一或多维度排序,如a*搜次数+b*播放次数+…,并通过牛顿冷却定律等对词热度衰减。
- 关联推荐,选出与用户行为相关的词,比如用户刚看了李诞的视频,搜索底纹会出现“李诞小卖部”。通常会使用同时看了这个视频的人还看了什么视频,或者还搜了什么词等频繁项集来得出。(要举例的话就经典的那个啤酒和尿布湿)
潜在问题:搜索入口很多为 如#边牧#此类标签引导,对应的是一个名词还是一个话题,或倾向于哪个,多是产品规则。
诊断指标:标签引导词对应搜索结果点击量、有点比。
搜索中(正在搜词)
目的:标准化搜索词和挽留用户
功能:搜索联想,热门搜索词推荐,猜你想搜,历史搜索词,分模块搜索词。
策略:
- 标准化。拼音联想、关键词补齐、关联词推荐等,都是为了把用户可能要输入的词转化成可对应产生搜索结果的标准化词;
- 明确意图。比如搜“奥本海默”是想看书还是电影,会引导用户到对应模块,缩小搜索结果范围。同时会根据词本身是名词实词、品牌词、形容词等识别和拆分;
- 留住用户。当用户不知道搜什么的时候,有热词引导用户试一试功能。
算法简述:
- 排行榜和猜你喜欢等原理同前。
- 对搜索词补全、纠错改写、候选词关联,一般使用前缀树、编辑距离、n-gram模型等解决相关语义词。举例来说,当用户输入”googl”,前缀树返回”googlie”, “googler”, “google”,如果输入的是”googel”会由编辑距离更改为”google”,之后会根据常出现的词汇组合关联出”google map”等短语。
潜在问题
- 意图识别困境:比如“蓝海豚”对应的是比亚迪海豚型号车、蓝海豚牌玻璃水、蓝色的海豚动物、蓝色的海豚玩具等等,当有多重含义时会出现理解差别,所对应搜索结果会千差万别。
- 策略不能兼顾:在实词比如“边牧”搜之后,关联搜索词出“萨摩耶”、还是细化搜索词“边牧拆家”,在关联词和词汇补全上需要做平衡。
- 诊断指标:换query率,有点比。
搜索后(搜索结果)
目的:准确命中用户期待搜索结果
功能:搜索结果(多种承载形式混排),搜索导航栏,搜索筛选项,相关搜索词推荐
策略:
- 相关和准确。最基本要求,搜索词和搜索结果是高度相关的;
- 权威性。官方或者质量高内容排在前边;
- 多样化。形式、来源、品牌、封面等等交替出现,避免一眼看去全相同;
- 个性化。根据用户历史偏好展示结果,把用户最可能点击的内容排前面。
算法简述
- 结果页排序算法通常是平衡多目标的加权结果,比如,排序得分=相关性得分×0.5 + 点击率×0.3 + 时效性×0.1+权威性*0.1(示例),但最基本保证是最相关内容排在前边;
- 相关算法包含从TF-IDF到BM25再到PageRank,主要依赖的是搜索词与结果候选集(标题、正文)的词相关性;
- 点击率排序算法如LambdaMART,会根据一个搜索词对应的返回内容的点击反馈找到点击率较高的,同样一个搜索词会根据用户浏览、收藏等内容的不同,给出每个人个性化的排序。
潜在问题
- 多种形式混排:比如“蓝海豚”对应结果是商品、卡通图片、海豚百科等交叉出现;
- 长尾词对应结果偏差大。比如“十和田温泉”出现旅游攻略,但关联搜索词确是“长春温泉排名第一”,“吉林省温泉那里最好”等和地名无关内容;
- 复杂意图难理解:比如搜索“给孩子买既能学编程又能防止沉迷的手机”,其结果会对应“孩子或学生手机”和“防沉迷”和“小孩编程”这些词,从而会有学习机、防沉迷攻略、编程课程等对应结果。
诊断指标:换query率,无结果率,有点比,CTR,CVR,OPMs。
由于搜索引擎基于分词召回排序,有个性化但搜索词和对应内容相关性权重更高。有趣的是,当我问Deep Seek如何搜索才能更准确时,得到反馈:”核心概念 + 对比维度 + 数据载体关键词 + 时效限定”,从另一个角度能解释大模型是如何来思考的,以及为什么它给的反馈会惊艳(大多时候)。
如果更容易被搜到
基于此,传统搜索可以通过优化关键词以及内容对应关键词组的方式优化排名。从两个角度优化搜索:
关键词优化
希望达到:
①用户可以主动去搜;
②关键词完整度优化。
可行方法:
- 垂直。积少成多地将标签、标题、文章段落中都带有关键字,让内容更垂直。由于搜索词是用户主动输入,因此搜索词里存在大量长尾词,若是一个非热门词,不买量情况下很难在底纹或者热搜推荐中出来。(所以才会有买热搜词的操作)
- 关键词细化。上文说过搜索词会根据前缀树联想补齐后边的词,因此可就此优化,比如“酒店” ,就可以补充“地点+酒店+特色”,举例来说:在某书上,搜“三亚酒店推荐”52w+笔记,搜“三亚酒店亲子”39w+笔记,搜“三亚酒店冲浪”8w+笔记,这时根据不同酒店功能和风格来补齐词汇更容易在准确的候选范围内脱颖而出,假如标签都打上“三亚酒店推荐”,就相当于同52w+的候选集竞争,虽然词是个热搜词汇,但能否真的在前几屏出现就不得而知了。
- 关联词汇。在猜你想搜里经常会出现关联词汇,比如搜过“海豚”,那猜你想搜可能出现“海豹”。
- 生成专属词。这里就需要提到互动反馈了。比如“绿恐龙”原本是一个“形容词+名词”的词组,搜索时会语义找到最相近的内容,但如果每次在搜索后该词后,都点“绿色恐龙玩偶”这个商品,再加上有购买,那么该关键词再搜索时会把绿色恐龙玩偶排在前边。这也就可以理解为什么很多护肤品都“黑绷带”,“小白瓶”这类外号,一方面好传播,另外也构建了这个商品的独特性。
优化关键词和正文内容匹配
希望达到:
①尽可能被准确关键词快速搜出来;
②覆盖面更广可获得更多流量。
可行方法:
- 内容优质。不管再怎么对标签标题等优化,最核心的还是内容质量高。一方面权威性考虑品牌词对应的官网内容会排在前边,另一方面要注意内容垂直度和统一性,举例来说,假如一篇亲子教育的文章或视频为了蹭热度打上”山东大雪“这类热词,题文不符是不会被推出来的。
- 有效突出关键词。不管是写笔记还是拍视频都会对内容构思拆解,包括主题词、对主题的界定和描述、要解决的问题、作用功效、优缺点等等。这些就可以简单提炼为”形容词&主题词“、”主题词&作用“,”主题词&目的“,或者上卷一层”大分类&主题词“等。当然这也是基于全文总结的标签,而不是生加上的无关词汇。
- 互动反馈。优质内容通常会获得较好的浏览阅读、点赞、收藏、评论、分享、购买等,搜索排序时会参考ctr、cvr等互动反馈结果。
以上是对搜索引擎有了一定了解后,对哪些内容容易被搜出来做了一些说明(其实也只是皮毛,实际比这复杂得多)。而回到文章最开头,既然有了Deep Seek,且回答的内容完整惊艳,是不是可以解决搜索“不好用”的困境?
那再从大模型的两个核心作用来看:生成和推理
因此可知,当我们想问一个封闭且需要准确逻辑支撑的问题,比如解一道数学题,大模型先推理再生成答案;当我们问一个探索性创意的问题,比如如何生成一段文案,是先生成,再推理验证其品牌调性、侵权风险、调整关键词等;如果更复杂的,进行一个法律合同审核,会是如下过程:
A[原始合同] –生成候选修改–> B{{是否存在条款冲突?}}
B –是–> C[推理冲突来源] –生成修正建议–> D[更新条款]
B –否–> E[生成最终版本]
D –> A
(此处生成和推理的解释由Deep Seek返回内容整理而成)
有大模型加持下的搜索
如果把大模型的生成和推理结合搜索来看(其实大模型在搜索推荐里已有广泛的应用):
- 可为文章、视频、图片等生成标签、标题,可能比自己打的标签更加精准,比如一张猫咪打哈欠的照片,自动匹配的标签为”猫咪日常” “憨憨的小猫咪”,理想情况下都不需要人工去找热词标签,会自动匹配热搜增长快的标签,同样对搜索”猫咪日常“来说,也会计算找到最匹配的内容。
- 多模态搜索结果形式优化。大模型也可帮助解决传统文字、图片、视频、直播不同内容形式定坑位出现在搜索结果。可通过意图识别明确是想搜索科普解释还是购物,对应给出更适合的结果形式。
- 增强实时反馈。过往是基于用户历史浏览收藏等映射到内容的标签,再加上用户自身的人口属性标签进行个性化结果反馈。大模型下可先识别用户历史浏览过的内容,再根据所有内容推断出用户感兴趣主题和形式,可能还会生成用户更期待的新的内容,再去找到对应候选,而这些候选集在传统检索里有可能都不被找回,或者因为别的理由召回排序不能靠前。
如果进一步思考:
- 如果一个人搜索“推荐山西旅游攻略”,之后搜索词可推荐“山西适合亲子游的酒店”,推理和生成用户接下来可能会查找的词。
- 搜索完之后,甚至直接可展现通过机票酒店的API接入的订票功能。
- 在选择酒店有的人喜欢官方视角的视频、有些人喜欢用户视角的体验视频、也有些人不喜欢看视频而习惯看图片,都可根据用户偏好生成。
其实,未来搜索更可能是一个私人助手,够聪明、够高效地解决问题,把人花在检索和选择决策上的无用时间缩短。这时人可能会有更多时间找到真正的生活意义。
作者:小王子和小企鹅,公众号:小王子和小企鹅
本文由@小王子和小企鹅 原创发布于人人都是产品经理。未经作者许可,禁止转载。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
我最近体验了一下pc端豆包,感觉就是在AI下去托管传统搜索引擎,比较方便的功能有一个自动整理网页内容输出,但是目前功能还是比较局限