Hadoop在百度的应用

首页 > 代码库 > Hadoop在百度的应用

2024-07-27 23:21:06 222人阅读

百度作为全球最大的中文搜索引擎公司，提供基于搜索引擎的各种产品，包括以网络搜索为主的功能性搜索；以贴吧为主的社区搜索；针对区域、行业的垂直搜索、MP3音乐搜索，以及百科等，几乎覆盖了中文网络世界中所有的搜索需求。

百度对海量数据处理的要求是比较高的，要在线下对数据进行分析，还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求如下图所示，这里就需要通过性能较好的云平台进行处理了，Hadoop就是很好的选择。

在百度，Hadoop主要应用于以下几个方面：

日志的存储和统计；
网页数据的分析和挖掘；
商业分析，如用户的行为和广告关注度等；
在线数据的反馈，及时得到在线广告的点击情况；
用户网页的聚类，分析用户的推荐度及用户之间的关联度。

MapReduce主要是一种思想，不能解决所有领域内与计算有关的问题，百度的研究人员认为比较好的模型应该如下图所示，HDFS实现共享存储，一些计算使用MapReduce解决，一些计算使用MPI解决，而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据，所以在处理这类数据时就可以用MapReduce做一些过滤，得到基本的向量矩阵，然后通过MPI进一步处理后返回结果，只有整合技术才能更好地解决问题。

Hadoop在百度的应用

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Hadoop在百度的应用

Hadoop在百度的应用

看完仍有疑问？有类似问题直接问程序猿