首页 > 代码库 > 搜索引擎与网页文本分词的原理

搜索引擎与网页文本分词的原理

对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和分词技术是非常重要的一环!    
  搜索引擎工作的第一步:提取页面文字
  首先就是抓取页面的文字,一般而言搜索引擎会把相关关键词的对应文字提取出来,还有就是meta标签等等,还有就是关键词和描述以及图片的ATL属性等等,这个ALT属性是需要用户把鼠标对应到图片上才能够看到,另外还有就是网页的相关文本,所以很多FLASH网站在搜索引擎优化方面就会吃很多亏,因为没有很多的文本,而且搜索引擎也不会抓取flash源代码!所以很多做flash网站优化的基本上会再编一套源码程序,让相关的文字和内容对应上,这样才能够被搜索引擎识别!
  搜索引擎工作的第二步:中文分词技术
  当搜索引擎把文字抓取之后,接下来的工作就是将这些文字进行分词,讲一句话分解成一个一个的短语,比如齐天大圣孙悟空这个短语,就会被分成齐天大圣和孙悟空两个单词,还比如:杨柳如是冷月这个词,我们可以通过图示一下看看这百度和谷歌的分词区别!
  这两个搜索结果是不同的,谷歌更倾向于将柳如是当成一个名词,所以在柳如是贴吧变成了第一个匹配的!而对于百度来说,就直接把这个杨柳如是冷月这个词分别变成了杨柳,如是和冷月了,所以有关柳如是贴吧却没有出现在首页上,为什么会出现这么明显的区别呢?关键是谷歌没有一个专有的词典,所以匹配方式会有一些区别,我们要针对不同搜索引擎进行关键词优化,在内容上要尽量的靠近关键词,而不能够让关键词和内容割裂开来,这样关键词的排名就很难上去了!
  搜索引擎工作的第二步:匹配技术
  一:正向匹配,上面的杨柳如是冷月就是正向匹配,这种匹配方式有助于消除歧义,让搜索出来的结果更加准确,而不会将杨柳如是,变成柳如是了!
  二:逆向匹配,这是一种从后往前匹配的方法。
  三:最大化匹配,比如把美利坚合众国是自由的,最大匹配就成了美利坚合众国,自由!
  四:最小化匹配,依然拿美利坚合众国是自由的,最小匹配就成了美,利坚,合众,国,自由了,而在搜索引擎实际分词过程中,会将这几种匹配方式进行综合的运用,不会只会使用其中的一种,搜索引擎的分词技术最终的目的就只有两点,我们要奔着这两点来进行搜索引擎优化就能够有助于提升网站的排名!其一是通过各种匹配的技巧来消除文本中的歧义,让搜索的词出来的内容更加的准确和完整!其二就是通过各种匹配方式将一些人名,地名和机构名以及一些从没有登陆的词比如口头禅,流行语等等进行统计,然后将统计的结果和用户的想要了解的内容进行不同方式的匹配,从而让用户获得自己想要的内容!
 
 

搜索引擎与网页文本分词的原理