solr-4.7

《Nutch笔记》Nutch-1.7+solr-4.7集成

為{幸葍}努か 提交于 2019-12-03 23:06:05
一、 下载安装nutch 下载地址 http://apache.fayea.com/apache-mirror/nutch/1.7/apache-nutch-1.7-bin.tar.gz 安装 [root@centos data]# cd /data/ [root@centos data]# mkdir nutch [root@centos data]# tar -zxvf apache-nutch-1.7-bin.tar.gz 我的是root用户,如果不是的话 [root@centos nutch]# chmod +x apache-nutch-1.7 将nutch加入PATH环境变量中。 [root@centos nutch]# vim /etc/profile export NUTCH_HOME=/data/nutch/apache-nutch-1.7 export PATH=$PATH:$NUTCH_HOME/bin 执行 [root@centos nutch]# nutch Usage: nutch COMMAND where COMMAND is one of: 二、 抓取网站 假如我想抓取 http://www.amazon.cn/ 修改抓取url正则,仅允许抓 amazon.cn 上的内容。 [root@centos apache-nutch-1.7]# vim