SOLR4.2+NUTCH1.6
1、SOLR4.2集成NUTCH1.6 wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz tar -xzvf solr-4.2.0.tgz cd solr-4.2.0/example 复制 nutch 的 conf 目录中的 schema-solr4.xml 文件到 solr/collection1/conf 目录,改名为 schema.xml ,覆盖原来文件 修改 solr/collection1/conf/schema.xml ,在 <fields> 下增加: <field name="_version_" type="long" indexed="true" stored="true"/> 2、给SOLR4.2配置中文分词器word分词 参考 https://github.com/ysc/word 的 Solr插件 部分 3、运行SOLR4.2 启动 SOLR4.2 服务器: java -jar start.jar & SOLR4.2 Web 界面: http://host2:8983 4、运行NUTCH提交索引 运行 solrindex命令 : bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data