MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

首页 > 代码库 > MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

2024-07-11 13:05:32 215人阅读

前段时间业务系统有个模块数据没有了，在排查问题的时候发现中间处理环节出错了，错误日志为文件格式不正确，将数据导出后发现这个处理逻辑的输入文件中每一行都多了一列，而且是一个空列（列分隔符是\t）。第一次检查代码后没发现代码里多写了一列，第二次排查Reduce代码时，发现在写文件时value为空的Text():

 public void reduce(Text key, Iterator<Text> values,            OutputCollector<Text, Text> output, Reporter reporter)            throws IOException      {        String keyString = key.toString();        Iterator<Text> iterValue =http://www.mamicode.com/ values;        Double totalSize = 0D;        while (iterValue.hasNext())        {            String value = iterValue.next().toString();            totalSize += Double.valueOf(value);        }        keyString += "\t" + totalSize;         //原来是这么写的        // output.collect(new Text(keyString), new Text());        //应当这么写（此处不推荐new Text(keyString)，正确的做法是定义全局的Text,使用的时候用text.Set()）：        output.collect(new Text(keyString), null);    }

参见上面的代码段。

如果在输出reduce结果时这么写：

output.collect(new Text(keyString), new Text());

就会导致结果文件中有三个\t。

将new Text() 改成null就可以解决问题了。

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

看完仍有疑问？有类似问题直接问程序猿