首页 > 代码库 > Nutch

Nutch

Nutch 

介绍

Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。

Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要从这里下载一个二进制的发行版即可。

 

步骤

  • 这篇教程描述了Nutch 1.x(当前版本是1.6)的安装和使用。关于如何编译和安装Nutch 2.x,请查看Nutch2Tutorial。

1.从二进制发行包安装Nutch

  • 从这里下载二进制包(apache-nutch-1.X-bin.zip)。
  • 解压缩您的Nutch包。那应该会有一个新文件夹apache-nutch-1.X
  • cd apache-nutch-1.X/

从现在开始,我们将会使用${NUTCH_RUNTIME_HOME}来代替当前目录(apache-nutch-1.X/)。

从源代码安装Nutch

高级用户也可能会使用源代码发行包:

  • 下载一个源代码包(apache-nutch-1.X-src.tar.gz
  • 解压缩
  • cd apache-nutch-1.X/
  • 在这个目录里运行ant(参见:RunNutchInEclipse)
  • 现在那会有一个目录runtime/local,它包含了准备使用的Nutch安装

当使用源代码包时,我们会用${NUTCH_RUNTIME_HOME}代替目录apache-nutch-1.X/runtime/local/。记住这些:

  • 配置文件在apache-nutch-1.X/runtime/local/conf/目录里面
  • ant clean将会移除这个目录(并保留被更改的配置文件的备份)

2.检验您的Nutch安装

  • 运行”bin/nutch“。如果您能看见下列内容说明您的安装是正确的:

Usage: nutch [-core] COMMAND

一些解决问题的提示:

  • 如果您看见”Permission denied”那么请运行下列命令:

chmod +x bin/nutch

  • 如果您看见JAVA_HOME没有设置那么请设置JAVA_HOME环境变量。在Mac上,您可以运行下述命令或者把它添加到~/.bashrc里面去:

export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Home

Nutch