首页 > 代码库 > 是不是谷歌的简体中文搜索结果质量被百度赶上了?

是不是谷歌的简体中文搜索结果质量被百度赶上了?

搜索的质量评估通常是看几个指标:

  1. 相关度 -- 请受过训练的人来评估每个引擎的前几个结果是否相关,评估时不参考结果的来源、引擎的品牌等。
  2. 索引规模 -- 每个引擎知道自己的规模,也就是有多少网页(除去重复的),但是不知道对方的规模,可是可以根据两方搜索结果的爬取,得知有多少网页是我有他无,或他有我无,从此得知大约两个引擎的索引规模。比较有挑战的一点是如果索引规模大了可能导致相关度下降(因为有些长尾结果会排序太靠前)。
  3. 速度 -- 就是输入搜索词,得到结果的时间。很多测试告诉我们0.2秒的速度会导致用户满意度的落差,和未来使用的频率。
  4. 新鲜度 -- 就是能爬到多新的内容,而且要有一定规模(只有新闻内容不算够新)。


在2005-2006年我刚加入谷歌时,谷歌和百度的比较:

  1. 相关度领先百度2个点(大约是今天的英语谷歌和微软的差距,就是说不大),但是我的理解是当时百度自认这方面领先谷歌。这是有可能的,因为每个公司内部评估不同,就像今天微软内部自认为英语相关度已经超过谷歌一样。
  2. 谷歌规模较大,但是很多重要的内容都没有(例如论坛)。(这里比较的是中文索引,但是其实谷歌的索引是全球所有语言都储存的,因此任何搜索可能搜出任何语言和国家的结果)
  3. 速度远远慢于百度。
  4. 新鲜度落后百度。


经过两年的努力,在2008年,谷歌和百度的比较:

  1. 相关度远远领先7个点(大约是谷歌英语刚出来时和雅虎的差距)。
  2. 索引规模是百度的10倍左右(当然,对绝大部分常见搜索词是感觉不出差别的),并且弥补了有些爬取的错误和落差。
  3. 速度大约和百度一样,虽然许多服务器不在国内。
  4. 新鲜度达到6分钟之内,也就是说一个网页上线6分钟后就可以被搜到(如果是PR值够高的话)。


发现谷歌的进步后,百度也开始更多的花功夫提升搜索质量,在相关度和索引规模都有进步。当然,谷歌也推出Google Instant、real-time search、universal search。今天,我相信谷歌还是领先的,只是过去一年中国团队不再做中文搜索,差距应该缩小了,领先程度肯定没有2008年多。

最后,除了上面的科学评估,还要考虑一些别的因素:

    1. 以上评估是请有经验和有高教育水平的人。教育水平越高越喜欢谷歌。在博士群体,谷歌远远高于百度,但是随着教育水平下降,分辨能力也下降,在高中水平的人中,就分不出差别(这里没有品牌因素,是无品牌评估),而高教育水平的是占较少比例的。
    2. 如果加上品牌,用户就会认为百度的精确度是超过超过谷歌的,就算是在2008年搜索质量差别最大的时候。也就是说,看不到品牌时,用户70%投谷歌较精确的话,加上品牌,就可能只有45%投谷歌了。
    3. 上述评估没有考虑到贴吧、知道、MP3等的影响。这些功能参杂在搜索结果里,会让百度更被认可,因而提升它的perceived 质量。
    4. 谷歌今天有不少结果出不来,这对一个搜索引擎是致命的,因为大部分用户会把这个现象怪罪到谷歌身上,因而影响谷歌在用户心中的“质量”。

是不是谷歌的简体中文搜索结果质量被百度赶上了?