nutch与起点R3集成之笔记(一)
百度、google帮我们找Internet的信息,但对于一个行业内部网(intranet)来说,百度、google就无法帮忙了。并且,对一个行业来说,更多的信息都是放在行业内部网上,并且采用网页、office文档、图片、视频、音频等格式存放。如何方便,快捷,安全地获取行业内部的信息内容,建立一个行业内部网的搜索引擎就显得尤为重要。 佛山起点软件( http://www.rivues.com )推出了起点R3软件,是一个开箱即用的企业级搜索引擎产品,并且已开源,下载地址 http://sourceforge.net/projects/rivues/files/ ,最新版本是5.3,安装后,试了一下,非常不错,很快可以建一个桌面搜索(对本地文件建一个搜索引擎),但没有看到对网站内容采集界面。 nutch是apache项目的一个开源软件,最新版本是1.3,是一个强大的网页、索引工具,1.3版本好像只对solr建立索引,去掉了lucene索引(bin/nutch index 命令不能使用)。solr也是apache项目的一个开源软件,主要是基于lucene的一个索引工具,但搜索结果返回的是xml、json等格式,需要用户开发html展示模块。 其实,起点R3软件也是基于solr建立的索引,有非常完善展示界面。笔者通过对起点R3源码进行分析后,实现了用nutch来采集网站信息