成为搜索产品经理（2）：认识网络爬虫 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

成为搜索产品经理（2）：认识网络爬虫

策略产品研究院

2020-02-10

9 评论 7852 浏览 62 收藏

产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

在上文中，笔者介绍了互联网的发展、搜索引擎的发展，从目录搜索引擎讲到搜索引擎。本章节，我们来继续聊一聊搜索产品背后的技术。

因为我本身并不从事技术岗位，本篇文章的读者，我也默认是与我一样，不从事技术岗位，但对技术有一定感知的同学，我将尽力将文章写得简单、易懂。

索引引擎系统由多个子模块组成，先来了解第一个模块，网络爬虫。

一、网络爬虫是什么？

用一个程序自动地将所有的网页下载到本地，在本地形成互联网的镜像备份。

二、通用爬虫框架

了解通用爬虫框架之前，让我们再次回顾上个章节讲过的超链接（hyperlinks）。

浏览网页时，点击超链接，浏览器就可跳转到相应的网页。有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问每一个网页并把他们存起来。

（图的遍历算法，在这里不做解释，有兴趣的同学，可以自己查询）

上述说法较为抽象，让我们通过一个实例来了解。

网络爬虫如何下载整个互联网呢？

参考上图，从一家门户网站的首页开始。我们任意选择一家门户网站的首页，将其内容下载下来，并对内容进行分析，于是，我们能获取门户网站首页的所有超链接。接着，我们分别进入不同的超链接，比如，进入超链接一，重复对该网站进行内容下载。

当然，也需要记载哪个网页被下载过了，避免重复。

三、网络爬虫的特性

实用的爬虫系统应该具备如下几种特性：

3.1 高性能

互联网网页浩如烟海，因此爬虫的性能至关重要。性能定义为爬虫下载网页的速度，具体评价指标为爬虫每秒能下载的网页数量。单位时间能够下载网页数量越多，性能越高。

3.2 可扩展性

因为互联网网页数量巨大，即使单个爬虫性能很高，要完成爬虫任务，所耗费的时间也是极长。为了尽可能缩短抓取周期，爬虫系统应该有很好的可扩展性，可以通过增加爬虫数量来达到此目的。

3.3 健壮性

爬虫要访问各种类型的网站服务器，可能会遇到很多种非正常情况，比如网页HTML编码不规范，被抓取服务器突然死机。爬虫对各种异常情况能够正确处理非常重要，否则可能会不定期停止工作。

3.4 友好性

爬虫的友好性包含两方面的含义：
1. 保护网站的部分私密性
2. 减少被抓取网站的网络负载

四、爬虫质量的评价标准

从用户体验角度，我们需要对爬虫质量进行衡量，有以下3个指标：
1. 抓取网页覆盖率
2. 抓取网页时新性
3. 抓取网页重要性

4.1 覆盖率

覆盖率 = 爬虫抓取的网页数量 / 互联网所有网页数量的比例
覆盖率高，等价于搜索引擎的召回率越高。

上图中，互联网有5个网页，爬虫系统抓取了其中3个，因此召回率 = 3 / 5 = 60%

4.2 时效性

对很多抓到本地的网页来说，很多网页可能已经发生变化，或者被删除，爬虫完整抓取一轮需要较长的时间周期，所以抓取到的网页中必有一部分是过期的数据，即不能在网页变化后第一时间反映到网页库中，所以网页库中过期的数据越少，则网页的时效性越好，这对用户体验的作用非常重要。

4.3 重要性

互联网网页众多，但是每个网页重要性差异很大，比如来自雅虎新闻的网页和某个作弊网页相比，重要性有很大差异。如果搜索引擎爬虫抓回来的网页大都是比较重要的网页，则其在抓取网页重要性方面做得很好。

本章介绍了，搜索引擎的第一步，网络爬虫，分别从网络爬虫系统，网络爬虫的性能，以及网络爬虫的评价指标三大模块，对网络爬虫进行了讲解。

下一章，我们讲搜索引擎索引。

参考

数学之美
智能时代
这就是搜索引擎核心技术详解

本文由 @一颗西兰花原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

搜索策略产品经理必读系列

搜索策略产品经理必读系列文章被收录于该专栏

共 13 篇文章13029 人已学习

策略产品研究院

专注推荐&搜索策略产品研究与应用。账号全网同名～微信公众号、小红书，欢迎关注

13篇作品 165484总阅读量

基金投顾如何通过内容与用户建立持续信任关系？

11-011381 浏览

基金投顾如何通过内容与用户建立持续信任关系？

东南亚“支付大战”，打起来了

05-307108 浏览

东南亚“支付大战”，打起来了

破解产品面试高频问题：一套破题思路助你一臂之力！

刚刚

美团能用魔法打败魔法吗？

07-145033 浏览

美团能用魔法打败魔法吗？

组件思考：树结构应该如何设计？

08-074655 浏览

组件思考：树结构应该如何设计？

“出生被抛弃”，如今一场直播带货过亿，这个草根网红“翻身”了？

01-162671 浏览

“出生被抛弃”，如今一场直播带货过亿，这个草根网红“翻身”了？

出海产品本地化最佳实践分享

出海产品本地化最佳实践分享

推荐

评论

Mr.火先生

求更新啊

最近来自北京回复
时光时光慢些吧

您有搜索相关的群之类的吗？想多学习一下呢

最近来自北京回复
朝阳赵大妈

继续啊，老板！小迷哥等你更新呢！

最近来自北京回复
前程往事莫问

这完全是seo的部分知识

最近来自广东回复
1. 策略产品研究院作者回复前程往事莫问
  
  SEO（Search Engine Optimization）：汉译为搜索引擎优化。是一种方式：利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名。目的是让其在行业内占据领先地位，获得品牌收益。——百度百科 >> SEO的目标是提高网站的自然排名，当然是需要了解搜索引擎的规则
  
  最近来自北京回复
随心将夜

个人觉得稍微浅了些，如果深入讲下就好了

最近来自湖南回复
1. 策略产品研究院作者回复随心将夜
  
  好的呀！会深入分析的
  
  最近来自北京回复
n7metal

菜鸟一枚，感谢通俗地分享，学习了

最近来自北京回复
1. 策略产品研究院作者回复n7metal
  
  不客气
  
  最近来自北京回复

小公司成长记：如何自我提升业务理解能力？

Apple Vision Pro 视觉与动效设计原则拆解

08-085446 浏览
我找两个热门行业问现在AI如何取代人，结果被泼了冷水

12-094325 浏览
影响消费者购买的阻力有且只有4种

07-286138 浏览

13471人已学习12篇文章

行业调研指南

如何快速了解一个行业？这需要你对这一行业进行细致的调研，了解当下的整体市场环境与未来的发展趋势，进而为后续的产品规划做好准备。本专题的文章分享了行业调研指南。

19467人已学习13篇文章

中台基础知识了解

什么是中台？为什么要建中台？中台建设的切入点在哪？本专题的文章将提供这些问题的解答。

53351人已学习14篇文章

标题党修炼之道

标题党，又爱又恨。但是如果你是运营，连标题都起不好，那就呵呵哒了。

17881人已学习13篇文章

如何建立用户体验地图？

用户体验地图展示的是用户在体验一款产品和服务时的情感流程。本专题的文章分享了如何建立用户体验地图。

11531人已学习11篇文章

数字未来设计趋势

随着互联互通的发展，虚拟与现实之间的距离在逐渐缩小，未来数字设计也在发生着变化。本专题的文章分享了数字未来设计趋势。

17801人已学习13篇文章

如何搭建用户等级体系？

用户等级体系是产品的底层基础之一，也是用户成长激励体系之一。本专题的文章分享了如何搭建用户等级体系。