nutch | 易学教程

Nutch搜索引擎（第4期）_ Eclipse开发配置

阅读更多关于 Nutch搜索引擎（第4期）_ Eclipse开发配置

下面是Nutch搜索系列目录，希望对研究Nutch的同学有所帮助。　　目录安排：　　1 ） Nutch搜索引擎（第1期）_ Nutch简介及安装 [ 下载 ] 　　2） Nutch搜索引擎（第2期）_ Solr简介及安装 [ 下载 ] 　　3） Nutch搜索引擎（第3期）_ Nutch简单应用　　4） Nutch搜索引擎（第4期）_ Eclipse开发配置 1） Nutch1.2二次开发详细攻略　　（1）Windows平台下Cygwin环境的搭建　　地址： http://www.cnblogs.com/streamhope/archive/2011/07/27/2118397.html 　　（2）Windows平台下Nutch1.2的搭建　　地址： http://www.cnblogs.com/streamhope/archive/2011/07/27/2118408.html 　　（3）Nutch1.2二次开发(关于界面修改) 　　地址： http://www.cnblogs.com/streamhope/archive/2011/07/27/2118564.html 　　（4）Nutch1.2二次开发(关于中文分词) 　　地址： http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html 2）

Mac自己搭建爬虫搜索引擎（nutch+elasticsearch是失败的尝试，改用scrapy+elasticsearch）

阅读更多关于 Mac自己搭建爬虫搜索引擎（nutch+elasticsearch是失败的尝试，改用scrapy+elasticsearch）

1.引言项目需要做爬虫并能提供个性化信息检索及推送，发现各种爬虫框架。其中比较吸引的是这个： Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎 E文原文在：http://www.aossama.com/search-engine-with-apache-nutch-mongodb-and-elasticsearch/ 考虑用docker把系统搭建起来测试： docker来源如下： https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html https://store.docker.com/community/images/pure/nutch-mongo 然而，docker下载image时实在是太慢，放弃docker！ Mac 设置JAVA_HOME： vi ~/.bash_profile export JAVA_HOME=$(/usr/libexec/java_home) export PATH=$JAVA_HOME/bin:$PATH export CLASS_PATH=$JAVA_HOME/lib 2.安装Mongo Mac下直接用brew安装，此时最新版本是3.4.7。安装好后建/data/db目录，mongod启动服务。

Lucene简单介绍

阅读更多关于 Lucene简单介绍

【2016.6.11】以前写的笔记，拿出来放到博客里面~ 相关软件： Solr, IK Analyzer, Luke, Nutch;Tomcat; 1.是什么： Lucene是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包；为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎； 2.主要应用：对句子进行分词，从而实现自然语言分词后提取关键词并且进行拓展，再送入搜索引擎进行查询，提高精准度；对数据库中的文档简历索引，实现快速的查找； 3.环境：用java开发，很方便调用jar包； 4.具体类： org.apache.lucene.analysis；语言分析器，主要用于分词； 5.相关的开源类库： IK Analyzer 6.Lucene的开源企业搜索平台： Solr: Solr是用Java编写、运行在Servlet容器（如Apache Tomcat或Jetty）的一个独立的全文搜索服务器; Solr是高度可扩展的，并提供了分布式搜索和索引复制; 7.Nutch: 是一个开源的java实现的web 爬虫；主要用于收集网页数据然后进行分析，建立索引等，底层使用Hadoop进行分布式计算与存储，索引使用Solr分布式索引框架；依赖Hadoop的数据结构，适合批处理

Nutch - does not crawl, says “Stopping at depth=1 - no more URLs to fetch”

阅读更多关于 Nutch - does not crawl, says “Stopping at depth=1 - no more URLs to fetch”

问题 It's been long since I've been trying to crawl using Nutch but it just doesn't seem to run. I'm trying to build a SOLR search for a website and using Nutch for crawling and indexing in Solr. There have been some permission problems originally but they have been fixed now. The URL I'm trying to crawl is http://172.30.162.202:10200/ , which is not publicly accessible. It is an internal URL that can be reached from the Solr server. I tried browsing it using Lynx. Given below is the output from

Nutch在Windows中安装之细解

阅读更多关于 Nutch在Windows中安装之细解

Nutch在Windows中安装之细解　　近来Nutch一词在网络中时有所见，但囿于平常工作繁忙而未能潜心细读与研究，只知道Nutch是Apache组织的一个开源项目，利用它用户可以建立自己内部网的搜索引擎，也可以建立针对整个网络的搜索引擎。好在春节假日期间，终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前，当然是需要先对其进行安装了。用搜索引擎查找了一下相关内容，发现大部分关于Nutch如何安装的文章都是基于Linux的，而基于Windows安装的文章虽有，但非常简略。由于运行Nutch自带的脚本命令需要Linux的环境，所以必须首先安装Cygwin来模拟这种环境，而Cygwin本身的安装与使用也不是一件简单的事。下面，就让笔者对Nutch在Windows系统中的安装进行一番细解吧！　　1、安装Cygwin 　　首先，我们去 http://www-inst.eecs.berkeley.edu/~instcd/iso/ 下载到Cygwin软件的ISO文件，用Daemon软件将其设为虚拟光驱后，双击其中的Setup文件，出现程序安装的向导界面（如图1所示）。　　点击“下一步”后，安装向导要求选择Cygwin的安装方式，如图2所示：　　图示中共有三种安装方式：　　（1）Install from Internet：从Internet上下载并安装软件；　　（2

Apache nutch fetching but not saving file content

阅读更多关于 Apache nutch fetching but not saving file content

问题 I asked nutch to crawl a local file: http://localhost:8080/a.txt. I am running the HTTP server and I can see nutch trying to access the file (and before it, /robots.txt). I am using cassandra as backend. However, I cannot see any data from the crawl. When I do ./bin/nutch readdb -dump data ..., I get the following output. Can someone help me with a sane answer to this question? Where is the webpage data? $ cat data/part-r-00000 http://localhost:8000/a.html key: localhost:http:8000/a.html

网络爬虫技术总结

阅读更多关于网络爬虫技术总结

网络爬虫技术总结 http://mp.weixin.qq.com/s?__biz=MzI3MTI2NzkxMA==&mid=2247484132&idx=1&sn=8db587fabc3c630decf0419b6130770e&scene=23&srcid=0720ZByjAlOM9YC5c76N9uKU#rd 　　对于大数据行业，数据的价值不言而喻，在这个信息爆炸的年代，互联网上有太多的信息数据，对于中小微公司，合理利用爬虫爬取有价值的数据，是弥补自身先天数据短板的不二选择，本文主要从爬虫原理、架构、分类以及反爬虫技术来对爬虫技术进行了总结。 1、爬虫技术概述网络爬虫(Web crawler)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL

could to find or load main class org.apache.nutch.crawl.InjectorJob

阅读更多关于 could to find or load main class org.apache.nutch.crawl.InjectorJob

问题 I'm using Linux with Hadoop, Cloudera and HBase. Could you tell me how to correct this error? Error: could to find or load main class org.apache.nutch.crawl.InjectorJob The following command gave me the error: src/bin/nutch inject crawl/crawldb dmoz/ if you need any other information ask for me. 回答1: I think you probably missed a step or two. Please confirm: Did you install Apache ANT and then navigate to the nutch folder and type in "ant"? Did you set the environment variables: NUTCH_JAVA

Nutch 2.3 and HBase 1.0.0

阅读更多关于 Nutch 2.3 and HBase 1.0.0

问题 I try to implement nutch for a projet that will crawl millions urls and actually it seems to work with HBase 0.94 locally. But the cluster in place is installed with HBase 1.0.0 and we didn't manage to make it works. Is it actually possible to use nutch 2.3 with HBase 1.0.0 ? Thanks for the answers. 回答1: HBase0.94 and HBase1.0.0 are not backward compatible. So, if you have code compiled with HBase0.94 then it wont work out of box with HBase1.0.0 cluster. Just recompile your code with HBase1.0

爬虫技术

阅读更多关于爬虫技术

爬虫原理：每个网页页面返回到客户端的都是 html，你需要的内容就在这html里面，这个html你可以用一个字符串去保存到java变量里，你要做的工作就是截取字符串相应位置的内容并保存起来，你给的这个网站每个商品的网页有个特殊的地方爬虫分为两类：聚集爬虫：聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。通用爬虫：　网络爬虫的组成　　在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如 Oracle数据库，并对其建立索引。控制器: 　　控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。　　解析器: 　　解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能

订阅 nutch