商道通企业营销问诊监理平台,帮您找到好专家!
企业网络营销服务
咨询热线: 18954161236

当前位置:首页  >  营销百科  >  营销通  >  有关于一条小虫的传奇故事

有关于一条小虫的传奇故事

投稿人:小商君 2017-02-06 17:30:00 2186

文章摘要: 我们今天来说一条小虫的故事。说来,大家对这条小虫都不陌生,但是很详细了解它的人,估计又没几个了吧。这条小虫,大名叫爬虫,它是搜索引擎中最关键最基本的构件。搜索引擎要处理的网页数量达到百亿计,没有这条小虫是万万不能的。随着

  我们今天来说一条小虫的故事。说来,大家对这条小虫都不陌生,但是很详细了解它的人,估计又没几个了吧。这条小虫,大名叫爬虫,它是搜索引擎中最关键最基本的构件。

有关于一条小虫的传奇故事

  搜索引擎要处理的网页数量达到百亿计,没有这条小虫是万万不能的。随着爬虫技术几十年的发展,这条小虫也越来越强大,但是,也面临着一些挑战。爬虫每天都要抓取无数的页面,主要分为五大部分。

  1、已下载的网页集合:小虫已经从网上下载到本地,可以进行索引的网页集合。

  2、已过期的网页集合:网页的数量是非常庞大的,即使再勤快的小虫全部抓取完也要很久的时间,在抓取的过程中,有的网页就已经过期了。这是因为,互联网本就在不断的变化之中,本地下载的网页和互联网上的页面不同也是很正常的。

  3、不可知网页集合:虽然爬虫的技能越来越强大,但是还是有很多网页是识别不出,无法抓取的,并且,这一类的网页占比还是很高的。

  4、可知网页集合:顾名思义,这就是这些网页是能够被爬虫抓取的。但是,还没有被爬虫下载下来,稍晚会被爬虫抓取和索引。

  5、待下载网页集合:是指即将被爬虫抓到的网页集合。

  爬虫系统还是有很多的差异,爬小虫的种类大体可以分为三种类型。

  第一种批量型爬虫,英文名叫Batch Crawler,它有明显的抓取范围和目标,当达到这个目标后,爬虫自动停止抓取。可以设置的具体目标可以是抓取网页的数量,也可以是抓取所需的时间。

  第二种增量型爬虫,英文名叫Incremental Crawler,与上一只小虫不同的是,它会持续不断的抓取。互联网是动态变化的,增量型爬虫就是在不断抓取的过程中,不断的更新网页,覆盖原来的老网页,现在商用的搜索引擎基本上都使用的这样的爬小虫。

  第三种是垂直型爬虫,英文名叫Focused Crawter,这样的小虫是关注于特定主体或者特定行业的网页,它的最大的特点和难点是如何识别网页内容是否属于指定行业或者主题,这就要求爬虫能够在抓取的过程中识别与主题相关的网页,并尽量不去抓取无关的网页,从而达到节省系统空间和提高效率的目的。

  关于这只神奇小虫先介绍的这里,更多精彩,请继续关注。

分享到:
©2012-2020 商道通在线(北京)科技有限公司 版权所有 京ICP备17039987号-1

京公网安备 11010502030885号

用户登录

Sign in
*
*
  忘记密码?
  如果您是新用户,请点击这里注册
 

友情提示

您的余额不足,请到充值中心充值或选择其他版本

立即充值