首页 > 代码库 > 搜索学习内容

搜索学习内容

1、Lucene

(1)书籍:Lucene in Action(基于3.0版本,有点旧)、解密搜索引擎技术(Lucene & Java精华版)

(2)官方材料:http://lucene.apache.org/core/

(3)视频:孔浩老师lucene视频教程(基于3.5版本,讲得还不错,有部分Tika, Solr等内容)

2、Solr

(1)官方材料

快速入门:http://lucene.apache.org/solr/4_9_0/tutorial.html,以自带的example项目快速介绍发Solr的基础使用。

API:http://lucene.apache.org/solr/4_9_0/index.html

reference:PDF格式,apache-solr-ref-guide-4.9.pdf

(2)书籍

Solr in Action,基于4.7版本,极力推荐,此书适合用于学习,而官方的ref文档适合于作为参考手册。

Apache Solr 4 Cookbook.pdf,基于4.0版本

(3)视频

孔浩老师lucene视频教程中有入门内容,另有Solr视频,比较杂乱

3、Hadoop

(1)书籍:

(2)官方API:

(3)论坛:

4、Nutch

(1)书籍:Web Crawling and Data Mining with Apache Nutch

(2)官方资料:http://nutch.apache.org/                      http://wiki.apache.org/nutch/大量的官方资料,如eclipse的安装,如何Index等

(3)视频:Nutch相关框架视频教程_杨尚川

5、Tika

(1)书籍:Tika.in.Action(基于1.0版本,目前版本为1.5)

(2)官方材料:http://tika.apache.org/

(3)视频:孔浩老师lucene视频教程中有入门内容

6、Heritrix

(1)书籍:开发自己的搜索引擎——Lucene+Heritrix(第2版)

(2)官方材料:Heritrix developer_manual.pdf  Heritrix user_manual.pdf  E:\0S 搜索引擎\0 重要资料\1 官方文档\Heritrix\Heritrix1.14.4\heritrix-1.14.4\docs  https://webarchive.jira.com/wiki/display/Heritrix/Heritrix【墙外,无法访问】


搜索学习内容