首页 > 代码库 > 搜索引擎原理
搜索引擎原理
一、搜索引擎的分类
获得站点网页资料,能够建立数据库并提供查询的系统,我们都能够把它叫做搜索引擎。依照工作原理的不同,能够把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类文件夹Directory)。
全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自己主动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比較典型的全文搜索引擎系统。
分类文件夹则是通过人工的方式收集整理站点资料形成数据库的,比方雅虎中国以及国内的搜狐、新浪、网易分类文件夹。另外,在网上的一些导航站点,也能够归属为原始的分类文件夹,比方“网址之家”(http://www.hao123.com/)。
全文搜索引擎和分类文件夹在使用上各有长短。全文搜索引擎由于依靠软件进行,所以数据库的容量很庞大,可是,它的查询结果往往不够准确;分类文件夹依靠人工收集和整理站点,可以提供更为准确的查询结果,但收集的内容却很有限。为了取长补短,如今的许多搜索引擎,都同一时候提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有站点”或“所有站点”,比方Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类文件夹的查询称为搜索“分类文件夹”或搜索“分类站点”,比方新浪搜索(http://dir.sina.com.cn/)和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。
在网上,对这两类搜索引擎进行整合,还产生了其他的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:
⒈元搜索引擎(META Search Engine)。
这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其他多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比方“metaFisher元搜索引擎”
(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。
⒉集成搜索引擎(All-in-One Search Page)。
集成搜索引擎是通过网络技术,在一个网页上链接非常多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同一时候查询,搜索结果由各搜索引擎分别以不同页面显示,比方“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。
二、搜索引擎的工作原理
全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,可以扫描一定IP地址范围内的站点,并沿着网络上的链接从一个网页到还有一个网页,从一个站点到还有一个站点採集网页资料。它为保证採集的资料最新,还会回訪已抓取过的网页。网络机器人或网络蜘蛛採集的网页,还要有其他程序进行分析,依据一定的相关度算法进行大量的计算建立网页索引,才干加入?到索引数据库中。我们平时看到的全文搜索引擎,实际上仅仅是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的全部相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽同样,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽同样。
和全文搜索引擎一样,分类文件夹的整个工作过程也相同分为收集信息、分析信息和查询信息三部分,仅仅只是分类文件夹的收集、分析信息两部分主要依靠人工完毕。分类文件夹一般都有专门的编辑人员,负责收集站点的信息。随着收录站点的增多,如今一般都是由站点管理者递交自己的站点信息给分类文件夹,然后由分类文件夹的编辑人员审核递交的站点,以决定是否收录该站点。假设该站点审核通过,分类文件夹的编辑人员还须要分析该站点的内容,并将该站点放在对应的类别和文件夹中。全部这些收录的站点相同被存放在一个“索引数据库”中。用户在查询信息时,能够选择依照关键词搜索,也可按分类文件夹逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是依据信息关联程度排列站点。须要注意的是,分类文件夹的关键词查询仅仅能在站点的名称、网址、简单介绍等内容中进行,它的查询结果也仅仅是被收录站点首页的URL地址,而不是具体的页面。分类文件夹就像一个电话号码薄一样,依照各个站点的性质,把其网址分门别类排在一起,大类以下套着小类,一直到各个站点的具体地址,一般还会提供各个站点的内容简单介绍,用户不使用关键词也可进行查询,仅仅要找到相关文件夹,就全然能够找到相关的站点(注意:是相关的站点,而不是这个站点上某个网页的内容,某一文件夹中站点的排名通常是依照标题字母的先后顺序或者收录的时间顺序决定的)。
三、搜索引擎的发展趋势。
一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,并且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
⒈提高搜索引擎对用户检索提问的理解。
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和文件夹查询的缺点,如今已经出现了自然语言智能答询。用户能够输入简单的疑问句,比方“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的样例来讲,假设用关键词查询,多半人会用“病毒”这个词来检索,结果中必定会包含各类病毒的介绍,病毒是如何产生的等等很多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将如何杀死病毒的信息提供给用户,提高了检索效率。
⒉垂直主题搜索引擎有着极大的发展空间。
网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎非常难收集全全部主题的网络信息,即使信息主题收集得比較全面,因为主题范围太宽,非常难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占领了一席之地。眼下,一些基本的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。
⒊元搜索引擎,可以提供全面且较为准确的查询结果。
如今的很多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不同样,每个搜索引擎平均仅仅能涉及到整个Web资源的30-50%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的反复率不足34%,而每个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比較高。
四、基本的搜索引擎介绍
这里介绍的是在国内外影响比較大的基本的一些搜索引擎和分类文件夹网站,因为如今的网站一般都同一时候提供全文搜索和分类文件夹两种服务,所以我们依照其自有的技术进行分类和介绍。
㈠基本的全文搜索引擎
⒈Google(http://www.google.com/)。Google成立于1997年,几年间迅速发展成为世界范围内规模最大的搜索引擎。Google数据库现存有42.8亿个Web文件,每天处理的搜索请求已达2亿次,并且这一数字还在不断增长。Google借用Dmoz(http://dmoz.org/)的分类文件夹提供“网页文件夹”查询(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默认站点排列顺序并不是依照字母顺序,而是依据站点PageRank的分值高低排列。
⒉百度(http://www.baidu.com/)。百度是国内最早的商业化(早期为其他门户站点提供搜索服务,如今的竞价排名更是日进斗金)全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场,除有网页搜索外,百度还有新闻、MP3、图片等搜索,并在2003年底推出“贴吧”、按地域搜索等功能。
⒊中国搜索(http://www.huicong.com/)。中国搜索的前身是慧聪搜索,原慧聪搜索在联合中国网等30多家知名站点的基础上,2002年9月25日,正式组建了中国搜索联盟,经过一年多的发展,联盟成员就已达630多家,成为中国互联网一支重要的力量。因为发展迅速,慧聪集团借上市之机,将慧聪搜索更名为中国搜索,全力发展其在搜索引擎方面的业务,以打造中文搜索领域的全新品牌。
㈡主要分类文件夹
⒈雅虎中国分类文件夹(http://cn.yahoo.com/)。雅虎中国的分类文件夹是最早的分类文件夹,现有14个主类目,包含“商业与经济”、“艺术与人文”等,能够逐层进入进行检索,也能够利用关键词对“分类站点”进行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中国也能够对“全部站点”进行关键词搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索结果使用Google的数据,2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作。
⒉新浪分类文件夹(http://dir.sina.com.cn/)。新浪的分类文件夹眼下共同拥有18个大类目,用户可按文件夹逐级向下浏览,直到找到所需站点。就好像用户到图书馆找书一样,依照类别大小,层层查找,终于找到须要的站点或内容。通过和其他全文搜索引擎的合作,如今,也能够使用关键词对新浪的“分类站点”或“所有站点”进行搜索。
⒊搜狐分类文件夹(http://dir.sohu.com/)。搜狐分类文件夹把站点作为收录对象,详细的方法就是将每一个站点首页的URL地址提供给搜索用户,而且将站点的题名和整个站点的内容简单描写叙述一下,可是并不揭示站点中每一个网页的信息内容。除此之外,也能够使用关键词对搜狐的“分类文件夹”或全部站点进行搜索。
⒋网易分类文件夹(http://search.163.com/)。网易的分类文件夹採用“开放式文件夹”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士參与可浏览分类文件夹的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。在加强与其他搜索引擎合作的基础上,新版搜索引擎支持使用关键词对全部站点进行检索。