首页 > 代码库 > 搜索学习内容
搜索学习内容
1、Lucene
(1)书籍:Lucene in Action(基于3.0版本,有点旧)、解密搜索引擎技术(Lucene & Java精华版)
(2)官方材料:http://lucene.apache.org/core/
(3)视频:孔浩老师lucene视频教程(基于3.5版本,讲得还不错,有部分Tika, Solr等内容)
2、Solr
(1)官方材料
快速入门:http://lucene.apache.org/solr/4_9_0/tutorial.html,以自带的example项目快速介绍发Solr的基础使用。
API:http://lucene.apache.org/solr/4_9_0/index.html
reference:PDF格式,apache-solr-ref-guide-4.9.pdf
(2)书籍
Solr in Action,基于4.7版本,极力推荐,此书适合用于学习,而官方的ref文档适合于作为参考手册。
Apache Solr 4 Cookbook.pdf,基于4.0版本
(3)视频
孔浩老师lucene视频教程中有入门内容,另有Solr视频,比较杂乱
3、Hadoop
(1)书籍:
(2)官方API:
(3)论坛:
4、Nutch
(1)书籍:Web Crawling and Data Mining with Apache Nutch
(2)官方资料:http://nutch.apache.org/ http://wiki.apache.org/nutch/大量的官方资料,如eclipse的安装,如何Index等
(3)视频:Nutch相关框架视频教程_杨尚川
5、Tika
(1)书籍:Tika.in.Action(基于1.0版本,目前版本为1.5)
(2)官方材料:http://tika.apache.org/
(3)视频:孔浩老师lucene视频教程中有入门内容
6、Heritrix
(1)书籍:开发自己的搜索引擎——Lucene+Heritrix(第2版)
(2)官方材料:Heritrix developer_manual.pdf Heritrix user_manual.pdf E:\0S 搜索引擎\0 重要资料\1 官方文档\Heritrix\Heritrix1.14.4\heritrix-1.14.4\docs https://webarchive.jira.com/wiki/display/Heritrix/Heritrix【墙外,无法访问】
搜索学习内容