搜索引擎索引的基本过程

2021-03-27 17:01:45 常州中环互联 5

搜索引擎索引系统概述:
搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。上一章我们主要介绍了部分抓取存储环节中的内容,此章简要介绍一下索引系统。
在以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?
如果能知道用户查找的关键词(query 切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了 query 中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。
如下为建立倒排索引的基本过程:

倒排索引

页面分析的过程实际上是将原始页面的不同部分进行识别并标记,
例如:
1)title、keywords、content、link、anchor、评论、其他非重要区域等等;
2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面 title 分词为例,得到的将是这样的数据:term 文本、term id、词类、词性等;
3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},下图即是索引系统中的倒排索引过程。

倒排索引过程


倒排索引是搜索引擎实现毫秒级检索非常重要的一个环节。


企业建站(PC+手机,提供源码及整站优化技术支持),百度360搜狗首页排名(先上词后收费),百度爱采购、朋友圈广告、抖音头条信息流等渠道开户免开户费、运营费。另接公众号小程序制作,淘宝阿里巴巴店铺装修运营。

本文由常州-金坛-溧阳-镇江中环互联整理发布,如需转载,请注明来源:http://www.czihoee.cn

标签: 网站优化
电话咨询
服务项目
公司地图
QQ客服