基于hadoop的社交网络的分析

2024-11-19 05:06:02 203人阅读

昨天终于hadoop的项目验收完成了，终于可以松一口气了，总体还是比较满意的。

首先说一下项目流程，用mapreduce对数据进行预处理，然后用mahout中的聚类算法（kmeans）对数据进行处理，最后用peoplerank对数据进行处理。

根据老师交给我们的数据，包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接

http://snap.stanford.edu/data/egonets-Gplus.html（Google+）

http://snap.stanford.edu/data/egonets-Twitter.html（Twitter）

这里面的Google的人数是大概是100000多，相互之间的映射关系（A->B,就是A关注B，或者A是B的好友）有20W+，Twitter的人数大概是80000多，相互之间的映射关系也有20W+。

对下面的图片做一些解释，横坐标代表拥有好友的数量，纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。

技术分享

我是在本地上实现分布式的，在我的机子上开启了两个虚拟机，和使用了其他两个同学的电脑。

技术分享

然后我们的性能是用ganglia进行检测的，ganglia的安装以及使用我已在之前的一篇博文中已经说过。

技术分享

这只是其中一张性能分析的图片，估计本地上配置除了问题，所以才导致，master做了所有的工作。

如果有想要程序的朋友，可以在下面留言，我会写出全部的过程，和代码。

基于hadoop的社交网络的分析

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们