首页 > 代码库 > 谈《百度搜索引擎网页质量白皮书》
谈《百度搜索引擎网页质量白皮书》
今年上半年,百度发布了《百度搜索引擎网页质量白皮书》,官方给出的发布理由是“此次推出《网页质量白皮书》,目的是开放百度在网页质量方面的判断标准,给站长提供参考,希望有更多、更优质的内容产生,满足搜索引擎用户的需求,同时为站长带来流量,实现共赢。”
几乎可以肯定,用户在浏览网页时,使用最多的网站,绝大多数是搜索引擎,如百度、搜狗、360以及现在几乎没法用的谷歌。用户将自己的需求传递给搜索引擎,搜索引擎帮助用户在整个网页库中搜寻用户希望知道的信息,并将网页链接呈现给用户。这样,用户可以通过搜索引擎确定的结果来获取所需信息。
在这里,很关键的一点就是,如何将与用户输入的关键字最相关的网页反馈给用户,或者说是质量最高的网页反馈给用户。这里,就涉及到网页质量。
白皮书中是这样定义“网页质量”的:网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否友好、来源是否权威专业等因素,共同决定网页质量的高低。
百度的搜索引擎所实现的功能就是将与用户输入关键字最相关的网页质量最高的网页反馈给用户。为此,百度搜索综合用户对不同网页的实际感受,制定了一套评判网页质量的标准,基于这个标准,对百度搜索的收录、排序、展现环境进行调整,给高质量的网页更多的收录、展现机会,同时对一些影响用户体验、欺骗搜索引擎的恶劣低质网页进行打压。
白皮书中对衡量网页质量的维度进行了详细说明。
百度搜索引擎在衡量网页质量时,基于三个维度特征,分别是内容质量、浏览体验、可访问性。
首先是内容质量,其着眼于主体内容的好坏,以及主体内容是否可以让用户满意。另外,在内容质量方面,还分为许多子维度,如内容完整、信息真实以及安全等。
然后是浏览体验,关于浏览体验,白皮书中给出了“对网页主体内容的获取成本”的概念。用户对网页主体内容的获取成本与浏览体验成反比。面对内容质量相近的网页,浏览体验佳者更容易获得更高的排名。浏览体验主要表现在网页内容排版和广告影响上。
最后是可访问性。百度搜索引擎希望尽可能为用户提供能一次性直接获取所有信息的网页结果。因此,当一个网页中的可访问性很差时,搜索引擎会视情况调整其展现几率。百度搜索引擎从正常打开、权限限制、有效性三方面判断网页的可访问性。
另外,对于白皮书中提及的互联网网页资源现状,文章中是这样说的:
为了保证搜索质量、提高用户使用满意度,百度搜索引擎每周都会进行网页质量抽样评估。然而从近一年的评估数据中我们发现,优质网页的绝对数量非常少,且几乎没有增长;普通网页的占比在下降,相应的,质差网页的比例却有明显上涨。截至2014年5月,统计数据显示,在百度网页搜索发现的海量网页中,优质网页仅占7.4%,质差网页高达21%,其余普通网页为71.6%。
从上面的数据我们应该从两个方面去思考:
1、目前互联网的整体网页质量都是很差的,对于整个互联网行业来说,在网页资源的整合和质量提高上任重而道远。
2、对于从事互联网的从业者来说,或者是创业者来说,这种数据后面所蕴含的是巨大的商机和潜力。将网站的网页质量提高,注重内容,优化用户体验,改善网站访问速度,通过这些方法,百度搜索对网页的排位就会上升,而这些带来的不仅仅是广告收入的增加,更有网站的知名度。这些影响,对于互联网从事者和创业者来说是至关重要的。当然,通过商业买卖交易来实现搜索引擎的用户展现优先权也是完全可行的,但那是土豪行为,对于很多小网站来说还是很有压力的。
在上文中,提到了网页排位通过商业买卖交易来提升,以及通过扎扎实实提高网页质量来实现网页排位的提升。个人的看法是,一个网页质量高的网站是前提。当我们在整个行业有一个很好的idea时,将该idea转化为质量高的商业网站是首要的,注重内容的丰富性,注重浏览体验(排版要井井有条,信息层级扁平化),通过改善服务器性能提高网站访问速度,这些是一个好网站的基础。
最后,附上百度搜索引擎给站长的建议:
1、设计网页时主要考虑的是用户,而非搜索引擎;
2、永远将用户体验放在首位;
3、根据用户需求制作内容;
4、多考虑如何让自己的网站具有独特价值;
5、将目光放长远,滥放广告弊大于利;
6、及时删除低质内容;
7、不要企图用任何方式欺骗用户和搜索引擎。
贴上自己觉得很不错的网站的一张图片(快课网):
PS.自己接触互联网的时间很短,也就是从大学以来的三年多时间,对于互联网的认识还比较肤浅,在此仅仅是抛砖引玉。