经典topK问题

首页 > 代码库 > 经典topK问题

2024-08-07 16:23:55 216人阅读

hadoop的入门问题是wordcount，而经典问题是TopK计算，比如热词，搜索链接热度等都是topK问题的变种

TopK问题使用MapReduce解决需要2步，而使用Tez解决可以缩减为一步，使用Tez其实也就是将2步MapReduce转化成DAG，一步完成，Tez大量复用了MapReduce代码。

这里我们讨论使用MapReduce解决问题

第一步wordcount，终于理解“道格”，把wordcount作为MapReduce编程的实例的用心了，哈哈，wordcount这里不再赘述

第二部翻转key和value

自己写一个key的排序编码，一下是代码：

<span style="font-family:Microsoft YaHei;font-size:14px;">/***
 * 按词频降序排序
 * 的类
 * 
 * **/
	public static class DescSort extends  WritableComparator{

		 public DescSort() {
			 super(IntWritable.class,true);//注册排序组件
		}
		 @Override
		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,
				int arg4, int arg5) {
			return -super.compare(arg0, arg1, arg2, arg3, arg4, arg5);//注意使用负号来完成降序
		}
		 
		 @Override
		public int compare(Object a, Object b) {
	 
			return   -super.compare(a, b);//注意使用负号来完成降序
		}
		
	}</span>

这样就可以解决topK这个问题了，这里写的比较简略，理解概念，自行修改

经典topK问题

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 经典topK问题

经典topK问题

看完仍有疑问？有类似问题直接问程序猿