Lucene+网络爬虫

首页 > 代码库 > Lucene+网络爬虫

2024-07-08 11:46:10 226人阅读

近来方案做个爬虫的小比如，后来想想干脆运用的全部一点，今后就作为是个工程笔记，忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西，直接用就OK。下一方案方案看看compass，是一个封装了LuceneAPI的一个结构，用起来有点类似Hibernate，值得学习一下~ 好了，先个我们共享一下这个吧，也期望我们今后做了啥小比如也能互相共享，一同前进嘛~

附件为工程，导入到MyEclipse下，按下面的装备弄一下就OK了！

查找页：D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp

爬虫办理页面：http://www.metabase.cn http://www.jinanwuliangye.com http://www.tongxinglong.com http://www.qclchina.com http://www.vipfuxin.com http://www.minnan888.net http://www.lcsyt.com http://lf.yunnanw.cn/ http://www.ceocbs.com http://www.yzbljp.com http://www.hyyfscl.com

运用过程：

第一步：1、挑选指定种类；2、输入从第几页到第几页；3、点击“运转爬虫”按钮（因为爬多了iteye会封你IP，所以建议你爬两页就进入验证码页面输入一次验证码再持续）

第二步：树立索引，你可以对指定种类树立索引，也可以将一切种类的数据一致树立索引，建议你全都树立一遍，便利查询。

第三步：回到查找页，输入你要查询的东西，点击查找（此刻查询的是Lucene索引库，现已不需求查数据库了）。

本工程选用UTF-8编码格局

运转环境：Jdk1.5

Web容器：Tomcat6.0

-------------------------

Tomcat6.0需求装备虚拟目录：

修改文件：D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml

在标签中参加：

docBase的途径需与path.properties装备文件中的iteye.path一样

-------------------------

将厨子分词器解压到一个不含空格和中文字符的目录下:

装备厨子分词器的环境变量：

变量名：PAODING_DIC_HOME

变量值：G:/paoding-analysis-2.0.4-beta/dic（变量值是厨子分词器解压后的途径的dic词库文件夹）

-------------------------

path.properties 里装备途径

log4j.properties 里装备日志途径

-------------------------

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Lucene+网络爬虫

Lucene+网络爬虫

看完仍有疑问？有类似问题直接问程序猿