免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:12月9日 (新版功能)
免费下载
官方论坛解答
(优先处理)
点击提问
八爪鱼采集器QQ群
6群:453842433 点击加入
21群:451754429 点击加入
13群:471815573 群已满
14群:123134988 群已满
24群:544166822 群已满
23群:534947023 群已满
26群:545719478 群已满
6群:453842433 群已满
25群:545320887 群已满
28群:106739425 群已满
27群:145803152 群已满
22群:519441479 群已满
21群:451754429 群已满
20群:437959025 群已满
19群:553777636 群已满
18群:290699979 群已满
17群:199766880 群已满
16群:254764602 群已满
15群:159956780 群已满
14群:123134988 群已满
13群:471815573 群已满
12群:148686415 群已满
11群:131796370 群已满
10群:333975079 群已满
9群:135632351 群已满
8群:431013573 群已满
7群:498193915 群已满
5群:470619317 群已满
4群:257583266 群已满
1群:61570666 群已满
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 群已满
1群:475423041 限专业版用户
旗舰版QQ群
2群:286777906 限旗舰版用户
1群:130849246 群已满
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

爬虫原理

作者:keven 发布时间:2013/11/10 22:08:34

摘要:搜索引擎爬虫是网页数据采集的一个重要分支,通常指的是通过搜索引擎爬虫根据各个网页上的超链接组成的一个看不见的关联性网络来到达各个网页并索引整个网页,然后将快照及关键信息保存在资料库中,以便在用户搜索时根据关键词匹配及显示相关信息。

广义爬虫和狭义爬虫

搜索引擎爬虫是网页数据采集的一个重要分支,通常指的是通过搜索引擎爬虫根据各个网页上的超链接组成的一个看不见的关联性网络来到达各个网页并索引整个网页,然后将快照及关键信息保存在资料库中,以便在用户搜索时根据关键词匹配及显示相关信息。

一般常说的爬虫也是指搜索引擎这种爬虫,那么爬虫是如何采集网页的呢,百度,google这种巨型爬虫目前都是采用云计算为基础,用成千上万台电脑组成一个巨大的爬虫系统,所以其原理比较复杂,其中有很多技术难点,但是就其基本原理来讲,都是一样的。

上图就是一个最基本的原理图,展示了爬虫是如何从一个网页爬到另一个网页的,一首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址,然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。

 

爬虫策略

在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,主要的采集策略有以下几种:

深度优先的策略

深度优先的遍历策略类似家族继承策略,典型的如封建帝王的继承,通常为长子,如果长子去世,长孙的优先级大于次子的优先级(这点大家多多仔细分析琢磨下),如果长子和长孙都已经去世,那么次子继承,这种继承上的优先关系也称深度优先策略。(从这点上我们可以了解到蜘蛛的抓取栏目页先后顺序),这主要体现在读一个站点的深入采集上。

宽度优先的策略

宽度优先我们又称为广度优先,或者叫层次优先,例如:我们在给祖辈和父辈还有平辈敬茶的时候先给最年长的祖辈,其次为父辈,最后为平辈。这主要体现在对多个不同网站的抓取上。

这两种策略决定了爬虫采集的覆盖面和深入度,一般来说搜索引擎爬虫兼具这两种策略,具体的操作策略则是根据网站的不同而有所不同。

 

 爬虫种类

就像社会上有各种职业和分工一样,大型的爬虫系统,内部也是有不同的分工的,这将爬虫分为几种:

新网页爬虫

这种爬虫专门负责查找还没有采集过的新网页,或者新网站。

定期爬虫

这种爬虫主要负责采集更新比较快,内容比较多的网站,它们会把这些网页的网址保存起来,定期去采集,看看是否有内容更新。

 

后期处理

当然爬虫把网页采集下来之后呢,也需要对网页内容进行复杂的后期整理,这就包括了:网页权重的计算,重复性内容的过滤,甚至网址有效性的更新,实际中,搜索引擎爬虫所使用的技术非常复杂,往往包含很多复杂的数学原理,同时,随着网络的爆发式发展,爬虫技术也在不断进步,变得更加智能,更加强大。

分享到: 更多
立即下载,体验更高效简单的数据收集吧! 免费下载
规则市场
联系 我们
官方联系方式 0755-86522010
商务合作QQ 1982043845
客服咨询QQ群 106739425
点击我加入