首页 > 代码库 > Ubuntu环境下nutch集成HBase
Ubuntu环境下nutch集成HBase
nutch集成HBase
(详见:http://duguyiren3476.iteye.com/blog/2085973 )
1. 修改nutch的hbase配置
//将自己的hbase配置copy到nutch配置中cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/
2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)
原因:(我使用的hbase时0.94.25)
nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90
如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:
java.lang.IllegalArgumentException: Not a host:port pair
如果直接使用hbase0.94操作自己安装的hbase0.94,报错:
java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V
解决办法:
使用0.92.2hbase的jar文件
3. 抓取
(1)设置抓取地址
cd runtime/local/ mkdir -p urls sudo gedit urls/seed.txt
在seed中填入你要抓取的地址:比如:http://www.apache.org/
(2)将urls放到hdfs系统中
hadoop fs -copyFromLocal urls /home/hadoop/urls
(3)运行nutch,并把结果放到hbase
nutch inject /home/hadoop/urls
(4)查看hbase
hbase shell//进入shell后list
如果出现 “webpage” 则成功。
(5)
nutch generate -topN 3 nutch fetch -all nutch parse -all nutch updatedb
(6)进入hbase查询
Ubuntu环境下nutch集成HBase
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。