首页 > 代码库 > Ubuntu环境下nutch集成HBase

Ubuntu环境下nutch集成HBase

nutch集成HBase

(详见:http://duguyiren3476.iteye.com/blog/2085973 )

1. 修改nutch的hbase配置

//将自己的hbase配置copy到nutch配置中cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/  

 

2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)

原因:(我使用的hbase时0.94.25)

nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90

如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:

java.lang.IllegalArgumentException: Not a host:port pair 

 如果直接使用hbase0.94操作自己安装的hbase0.94,报错:

java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V  

 解决办法:

使用0.92.2hbase的jar文件

 

3. 抓取

  (1)设置抓取地址

cd runtime/local/  mkdir -p urls  sudo gedit urls/seed.txt   

 在seed中填入你要抓取的地址:比如:http://www.apache.org/

  (2)将urls放到hdfs系统中

hadoop fs -copyFromLocal urls /home/hadoop/urls  

   (3)运行nutch,并把结果放到hbase

nutch inject /home/hadoop/urls

   (4)查看hbase

hbase shell//进入shell后list

 如果出现 “webpage” 则成功。

  (5)

nutch  generate -topN 3  nutch fetch -all  nutch parse -all  nutch updatedb  

   (6)进入hbase查询

 

Ubuntu环境下nutch集成HBase