首页 > 代码库 > 2-2 搜索引擎工作原理简介
2-2 搜索引擎工作原理简介
搜索引擎的工作过程大体上可以分成三个阶段:
1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。
(1)蜘蛛
(2)跟踪链接
(3)吸引蜘蛛
(4)地址库
(5)文件存储
(6)爬行时的复制内容检测
2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
(1)提取文字
(2)中文分词
(3)去停止词
(4)消除噪声
(5)去重
(6)正向索引
(7)倒排索引
(8)链接关系计算
(9)特殊文件处理
3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
(1)搜索词处理
(2)文件匹配
(3)初始子集的选择
(4)相关性计算
(5)排名过滤及调整
(6)排名显示
(7)搜索缓存
(8)查询及点击日志
本文出自 “11934408” 博客,请务必保留此出处http://11944408.blog.51cto.com/11934408/1940669
2-2 搜索引擎工作原理简介
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。