百度如何抓取网页,建立索引机制原理

2021-03-27 16:59:32 溧阳建站公司 5

  百度首先要发现并找到网页,通过读取网站内容,建立网页内容“档案”(百度快照)。在用户查询相关内容时,展示出相关的网页索引。这里面,还有几个因素要考虑进去,百度不会为全部的网页建立索引,比如内容重复,内容质量较差等。百度抓取和存储信息也是有成本的,从常理上推断,对于新的高质量的内容进行索引是自然而然的。
  在展示信息上,有两个纬度需要考虑,展示数量及优先次序。一般情况,百度会默认展示前 760 个网页(每页 10个,前 76 页)。如果你发现,百度展示的内容少于 76 页,则表明当前关键词对应的公开内容较少。用户的习惯是从上到下滑动浏览网页,所以前面的网页被打开几率远远大于后面的网页,也就是排名越靠前,价值越大,这就涉及 SEO 中的一个知识点——排名竞争。百度会综合多种因素对索引的网页进行质量评估,质量较高的优先排序,质量差的往后排。随着移动终端的兴起,百度能够获取到更多信息,在个性化搜索展示上越来越智能,排序位置的变化将会越来越频繁。
一、抓取网页,建立索引
(一)Spider 抓取系统的基本框架
如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。Spider 抓取系统是搜索引擎数据来源的重要保证,如果把 web 理解为一个有向图,那么 spider 的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL 开始,通过页面上的超链接关系,不断的发现新 URL 并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型 spider 系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对 spider 过去抓取过的页面保持更新,维护一个 URL 库和页面库。下图为 spider 抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系
统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider 即是通过这种系统的通力合作完成对互联网页面的抓取工作。

 spider 抓取系统的基本框架图


企业建站(PC+手机,提供源码及整站优化技术支持),百度360搜狗首页排名(先上词后收费),百度爱采购、朋友圈广告、抖音头条信息流等渠道开户免开户费、运营费。另接公众号小程序制作,淘宝阿里巴巴店铺装修运营。

本文由常州-金坛-溧阳-镇江中环互联整理发布,如需转载,请注明来源:http://www.czihoee.cn

标签: 网站建设
电话咨询
服务项目
公司地图
QQ客服