首页 > 代码库 > Lucene+网络爬虫

Lucene+网络爬虫

近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一下这个吧,也期望我们今后做了啥小比如也能互相共享,一同前进嘛~

附件为工程,导入到MyEclipse下,按下面的装备弄一下就OK了!

查找页:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp

爬虫办理页面 :http://www.metabase.cn http://www.jinanwuliangye.com http://www.tongxinglong.com http://www.qclchina.com http://www.vipfuxin.com http://www.minnan888.net http://www.lcsyt.com http://lf.yunnanw.cn/ http://www.ceocbs.com http://www.yzbljp.com http://www.hyyfscl.com

运用过程:

第一步:1、挑选指定种类;2、输入从第几页到第几页;3、点击“运转爬虫”按钮 (因为爬多了iteye会封你IP,所以建议你爬两页就进入验证码页面输入一次验证码再持续)

第二步:树立索引,你可以对指定种类树立索引,也可以将一切种类的数据一致树立索引,建议你全都树立一遍,便利查询。

第三步:回到查找页,输入你要查询的东西,点击查找(此刻查询的是Lucene索引库,现已不需求查数据库了)。

本工程选用UTF-8编码格局

运转环境:Jdk1.5

Web容器:Tomcat6.0

-------------------------

Tomcat6.0需求装备虚拟目录:

修改文件:D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml

在标签中参加:

docBase的途径需与path.properties装备文件中的iteye.path一样

-------------------------

将厨子分词器解压到一个不含空格和中文字符的目录下:

装备厨子分词器的环境变量:

变量名:PAODING_DIC_HOME

变量值:G:/paoding-analysis-2.0.4-beta/dic(变量值是厨子分词器解压后的途径的dic词库文件夹)

-------------------------

path.properties 里装备途径

log4j.properties 里装备日志途径 

-------------------------