首页 > 代码库 > Lucene+网络爬虫
Lucene+网络爬虫
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一下这个吧,也期望我们今后做了啥小比如也能互相共享,一同前进嘛~
附件为工程,导入到MyEclipse下,按下面的装备弄一下就OK了!
查找页:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp
爬虫办理页面 :http://www.metabase.cn http://www.jinanwuliangye.com http://www.tongxinglong.com http://www.qclchina.com http://www.vipfuxin.com http://www.minnan888.net http://www.lcsyt.com http://lf.yunnanw.cn/ http://www.ceocbs.com http://www.yzbljp.com http://www.hyyfscl.com
运用过程:
第一步:1、挑选指定种类;2、输入从第几页到第几页;3、点击“运转爬虫”按钮 (因为爬多了iteye会封你IP,所以建议你爬两页就进入验证码页面输入一次验证码再持续)
第二步:树立索引,你可以对指定种类树立索引,也可以将一切种类的数据一致树立索引,建议你全都树立一遍,便利查询。
第三步:回到查找页,输入你要查询的东西,点击查找(此刻查询的是Lucene索引库,现已不需求查数据库了)。
本工程选用UTF-8编码格局
运转环境:Jdk1.5
Web容器:Tomcat6.0
-------------------------
Tomcat6.0需求装备虚拟目录:
修改文件:D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml
在标签中参加:
docBase的途径需与path.properties装备文件中的iteye.path一样
-------------------------
将厨子分词器解压到一个不含空格和中文字符的目录下:
装备厨子分词器的环境变量:
变量名:PAODING_DIC_HOME
变量值:G:/paoding-analysis-2.0.4-beta/dic(变量值是厨子分词器解压后的途径的dic词库文件夹)
-------------------------
path.properties 里装备途径
log4j.properties 里装备日志途径
-------------------------