首页 > 代码库 > 2-2 搜索引擎工作原理简介

2-2 搜索引擎工作原理简介

搜索引擎的工作过程大体上可以分成三个阶段:

1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

(1)蜘蛛

(2)跟踪链接

(3)吸引蜘蛛

(4)地址库

(5)文件存储

(6)爬行时的复制内容检测

2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

(1)提取文字

(2)中文分词

(3)去停止词

(4)消除噪声

(5)去重

(6)正向索引

(7)倒排索引

(8)链接关系计算

(9)特殊文件处理

3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

(1)搜索词处理

(2)文件匹配

(3)初始子集的选择

(4)相关性计算

(5)排名过滤及调整

(6)排名显示

(7)搜索缓存

(8)查询及点击日志


本文出自 “11934408” 博客,请务必保留此出处http://11944408.blog.51cto.com/11934408/1940669

2-2 搜索引擎工作原理简介