首页 > 代码库 > Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26(续)
Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26(续)
上周以为搞定了Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26的整合,于是这周开始真正执行nutch抓取tieba的数据:
nutch inject /urls -crawlId tieba
谁知道报错:
java.lang.NoSuchMethodError: org.apache.hadoop.net.NetUtils.getInputStream(Ljava/net/Socket;)Ljava/io/InputStream;
at org.apache.hadoop.hbase.ipc.HBaseClient$Connection.setupIOstreams(HBaseClient.java:437)
折腾了一整天,才想清楚这个错误的意思是HBaseClient$Connection类的setupIOstreams方法中需要的是传入参数类型为java.net.Socket,返回类型为java.io.InputStream的getInputStream方法,但是Hadoop 2.5.2版本的NetUtils类的getInputStream方法返回类型为SocketInputWrapper,所以只需要修改一下HBase的源码,做一个强制类型转换即可,如下:
this.in = new DataInputStream(new BufferedInputStream
(new PingInputStream((java.io.InputStream)NetUtils.getInputStream(socket))));
Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26(续)