全文索引

Sphinx全文索引安装教程

巧了我就是萌 提交于 2020-04-04 06:47:02
首先了解一下sphinx全文索引的相关知识 官方网站: http://www.sphinxsearch.com/ 官方文档: http://www.sphinxsearch.com/docs/ 中文支持: http://www.coreseek.cn/ 中文使用手册下载: http://www.coreseek.cn/uploads/pdf/sphinx_doc_zhcn_0.9.pdf 基 本上看看上面的官方教程和中文使用手册,你应该会安装和使用Sphix全文索引,当然,还有一些细节,需要不断的google和baidu,那为了节省大 家的时间,就出一个完整的Sphinx安装教程和结合PHPWIND程序的使用教程(PHPWIND7.5版本支持)。 接下来开始Sphinx的技术之旅吧! 考虑到Sphinx全文索引使用的实际需要,主要介绍Sphinx全文索引中文方面的支持。 这里需要感谢 李沫南 同学对Sphinx全文索引中文支持的贡献! 一,Windows下安装Sphinx 1,开始前的准备工作 来源: http://www.coreseek.cn/products/ft_down/ 下载csft3.1: http://www.coreseek.cn/uploads/csft/3.1/win32/csft3.1.bin.zip 下载标准词库: http://www.coreseek

Sphinx全文索引安装教程

为君一笑 提交于 2020-04-04 06:46:21
关键字: sphinx, 全文索引, 安装 首先了解一下sphinx全文索引的相关知识 官方 网站 : http://www.sphinxsearch.com/ 官方文档: http://www.sphinxsearch.com/docs/ 中文支持: http://www.coreseek.cn/ 中文使用手册 下载 : http://www.coreseek.cn/uploads/pdf/sphinx_doc_zhcn_0.9.pdf 基本上看看上面的官方教程和中文使用手册,你应该会安装和使用Sphix全文索引,当然,还有一些细节,需要不断的google和baidu,那为了节省大家的时间,就出一个完整的Sphinx安装教程和结合 PHPWIND 程序的使用教程(PHPWIND7.5版本支持)。 接下来开始Sphinx的技术之旅吧! 考虑到Sphinx全文索引使用的实际需要,主要介绍Sphinx全文索引中文方面的支持。 这里需要感谢 李沫南 同学对Sphinx全文索引中文支持的贡献! 一,Windows下安装Sphinx 1,开始前的准备工作 来源: http://www.coreseek.cn/products/ft_down/ 下载csft3.1: http://www.coreseek.cn/uploads/csft/3.1/win32/csft3.1.bin.zip

全文索引xunsearch的详细讲解及sphinx的比较

时间秒杀一切 提交于 2020-04-04 06:45:36
一、获取: xunsearch下载地址: http://www.xunsearch.com/site/download。 linux命令行下载:wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2 解压:tar -xjf xunsearch-full-latest.tar.bz2 二、安装: 根据提示进行操作,输入 xunsearch 软件包的安装目录,这里最好把xunsearch单独放在一个目录下。 cd xunsearch-full/ sh setup.sh 三、启动 启动/重新启动 xunsearch 的后台服务$prefix 替换为你的xunsearch安装目录 cd $prefix; bin/xs-ctl.sh restart 添加到开机启动脚本,在 Linux 系统中将脚本指令$prefix/bin/xs-ctl.sh restart写进 /etc/rc.local 即可 四、xunsearch项目配置文件详解 项目名称 project.name = AppName 默认字符集 project.default_charset = UTF-8 定义字段[field_name] type 字段类型 string 字符型,适用多数情况,也是默认值 numeric 数值型,包含整型和浮点数

Sphinx以及coreseek的安装及使用 .No1

和自甴很熟 提交于 2020-04-04 06:39:31
检索结构 php -> sphinx -> mysql 非结构化数据又叫全文数据,非固定长度字段例如文章标题搜索这类适用sphinx 全文数据搜索: 顺序扫描 : 如like查找 索引扫描 : 把非结构化数据中的内容提取出来一部分重新组织,这部分数据就叫做索引 全文检索分为两个过程 1.创建索引 2.搜索索引 创建索引: sphinx通过语言处理组件会把搜索语句中的标点符号,语气助词给过滤掉,然后处理完毕后会 分析出一些词语,传给索引组件,然后排序去除重复词语. 搜索索引: 搜索关键字 提交 -> sphinx 分析出文档ID -> mysql通过ID查询数据并返回 中文分词需要coreseek coreseek 支持中文的全文检索引擎 sphinx的安装 下载源码包 进行源码安装 ./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql make && make install sphinx 中重要的三个命令(bin目录下) Indexer 创建索引命令 Searchd 启动进程命令 Search 命令行搜索命令 配置sphinx cd /usr/local/sphinx/etc cp sphinx.conf.dist sphinx.conf vi sphinx.conf 配置文件

sphinx安装(转自:minglin)

回眸只為那壹抹淺笑 提交于 2020-04-04 06:36:08
KM 原来是使用solr做全文搜索,但搜索结果一直不太令人满意,最近决定转成使用sphinx 试用了sphinx的几个不同版本 sphinx0.9.10, sphinx的最新版本, 可以对中文进行搜索,但默认安装没有对中文分词,需要打patch, 没找到这个版本的patch, 放弃 coreseek 3.1 rc1, coreseek是基于sphinx, 并对中文分词做了加强, 这个版本安装完之后,使用SPH_MATCH_ALL 模式进行查询的时候,没有返回任何结果,也没有出错信息,本着拿来即用的原则,放弃 最后安装的是coreseek 3.1 beta3, 以下是简要的安装步骤: 1. 下载mmseg3.1 http://www.coreseek.cn/uploads/csft/3.1/Source/mmseg-3.1.tar.gz mmseg 是sphinx 的中文分词软件包,编译,安装 ./configure --prefix=/usr/local/mmseg make make install 2. 下载安装 coreseek 3.1b3 http://www.coreseek.cn/uploads/sources/csft3.1b3.tar.gz ./configure --prefix=/usr/local/sphinx --with-mysql --with

Lucene全文检索-从零开始(1)

这一生的挚爱 提交于 2020-04-04 06:34:28
1.Lucene简介 Lucene是一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,是一款高性能、可扩展的信息检索工具库。 2.全文检索 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 3.为什么要用Lucene 也许有人会说我经常都是用like、Match、contain来做基本查询的。当你只有几百行几千行数据时,查询速度很快,但是如果有几十万几百万条数据呢。下面我们对用like关键字查询和使用Lucene查询的时间进行比较。 3.1 Lucene和like的效率比较 数据表中共有数据146450条。 首先我们用like来查询 接着我们使用Lucene检索 通过比较,两者有着明显的差别,lucene几乎是like的40倍。 4.全文检索中分词器的使用 4.1 盘古分词 1 class Program 2 { 3 /// <summary> 4 /// 盘古分词器 5 /// </summary> 6 public Analyzer panGuAnalyzer 7 { 8 get { return new PanGuAnalyzer(); } 9 } 10 11

Lucene配置步骤详解

白昼怎懂夜的黑 提交于 2020-04-02 06:26:20
Lucene配置步骤说明:   1.搭建环境;   2.创建索引库;   3搜索索引库。 Lucene配置步骤:    第一部分:搭建环境(创建环境导入jar包)     前提:已经创建好了数据库(直接导入book.sql文件)       第一步:下载Lucene:         Lucene是全文检索功能的工具包,使用时从官方网站下载,并解压         下载版本:4.10.3(要求:jdk1.7以上)       第二步:创建项目导入包,项目结构如下:       第二部分:创建索引         步骤说明:           1.采集数据           2.将数据转换成Lucene文档           3.将文档写入索引库,创建索引        第一步:采集数据           Lucene全文检索不是直接查询数据库,所以需要先将数据采集出来           1.创建Book类         2.创建一个BookDao类         3.创建一个测试类BookDaoTest         4.测试结果,采集数据成功     第二步:将数据转换成Lecene文档         Lucene是使用文档类型来封装数据的,所以需要先将采集的数据转换成文档类型。其格式为:       修改book类,新增一个方法转换数据         第三步

MySQL4:索引

百般思念 提交于 2020-03-28 04:26:55
什么是索引 索引是对数据库表中一列或者多列的值进行排序的一种结构,所引用于快速找出在某个 列中有一特定值的行。不使用索引,MySQL必须从第一条记录开始读完整个表,直到找出相关的行。表越大,查询数据所花费的时间越多,如果表中查询的列有 一个索引,MySQL能快速到达一个位置去搜索数据文件,而不必查看所有数据。 索引的含义和特点 索引是一个单独的、存储在磁盘上的数据库结构,它们包含着对数据表里所有记录的引用指针。使用索引用于快速找出在某个或多个列中有一特定值的行,所有MySQL列类型都可以被索引,对相关列使用索引是提高查询操作速度的最佳途径。 例如,数据库里面有20000条记录,现在要执行这么一个查询:SELECT * FROM table where num = 10000。如果没有索引,必须遍历整个表,直到num等于10000的这一行被找到为止;如果在num列上创建索引,MySQL不需要任何扫描,直接在 索引中找10000,就可以得知值这一行的位置。可见,索引的建立可以提高数据库的查询速度。 索引是在存储引擎中实现的,因此,每种存储引擎的索引都不一定完全相同,并且每种 存储引擎也不一定支持所有索引类型。所有存储引擎支持每个表至少16个索引,总索引长度至少为256字节。大多数存储引擎有更高的额限制,MySQL中索 引的存储类型有两种:BTREE和HASH,具体和表的存储引擎相关

Elasticsearch浅析

两盒软妹~` 提交于 2020-03-28 01:18:17
目录 Elasticsearch简介 基本概念 Elasticsearch特点 Elasticsearch节点类型 Elasticsearch集群状态 Elasticsearch集群选举 Elasticsearch写操作 Elasticsearch更新和删除操作 Elasticsearch读操作 Elasticsearch故障转移 Elasticsearch优化点 问题 Elasticsearch主要特性 参考文档 Elasticsearch简介 Elasticsearch是一个近实时的分布式搜索分析引擎,常被用作全文搜索,结构化搜索,分析等。它使用 Java 编写的且开源,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单,通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。 Lucene 是一个基于Java的全文信息检索工具库,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是Apache Jakarta家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具库。 然而,Elasticsearch 不仅仅是 Lucene,并且也不仅仅只是一个全文搜索引擎。 它可以被下面这样准确的形容: 一个分布式的实时文档存储,每个字段可以被索引与搜索 一个分布式近实时分析搜索引擎

Lucene 初识

柔情痞子 提交于 2020-03-24 14:20:45
因为业务需要,虽然自己不是专门写搜索的,但是需要自己拼一些搜索条件去调用搜索的接口,而之前看的JVM crash里也涉及到了Lucene,所以大概了解一下。 参考文档: http://www.iteye.com/topic/839504 http://www.cnblogs.com/xing901022/p/3933675.html 一、Lucene简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。