数据检索

MySQL检索数据-SELECT查询语句

不羁的心 提交于 2019-11-28 10:36:16
students表 1. 检索单个列 SELECT name FROM students 返回结果: 2. 检索多个列 --用逗号分隔列名 SELECT name,age,class FROM students 返回结果: 3. 检索所有列 --使用星号*通配符 SELECT * FROM students 返回结果: 4. 检索不同的行(返回结果去重) --使用DISTINCT SELECT DISTINCT class FROM students 返回结果: 5. 限制结果 --使用LIMIT子句,限制结果显示从第0行开始的1条数据 SELECT * FROM students LIMIT 0,1 --也可以写作LIMIT 1或LIMIT 1 OFFSET 0 来源: https://www.cnblogs.com/evenstudy/p/11405187.html

Solr简介

独自空忆成欢 提交于 2019-11-27 12:45:02
# 搜索引擎 搜索引擎,Search Engine是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎和免费链接列表等。 一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成: 1. **搜索器** 的功能是在互联网中漫游,发现和搜集信息。 2. **索引器**的功能是理解搜索器搜索到的信息,从中抽取出索引项,用过表示文档以及生成文档库的索引表。 3. **检索器**的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 4. **用户接口**的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 搜索引擎现在主要为全文索引和目录索引,垂直搜索引擎由于其在特定领域的更高的用户体验,以及更小的硬件成本,也开始逐渐兴起。 ## 分类 ### 全文搜索引擎 搜索引擎的自动信息搜集功能分两种。 一种是*定期搜索*,即每隔一段时间搜索引擎主动派出爬虫程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是*提交网站搜索*,即网站拥有者主动向搜索引擎提交网址

关于Lucene的概念

妖精的绣舞 提交于 2019-11-27 03:36:18
1、Lucene是什么? 答:是一个 全文检索 的工具包。这是为了解决数据库 模糊查询的缺陷 而生的。 2、数据库模糊查询的缺陷是什么? 答:用户只能通过 精准的关键字 , 模糊首尾 在数据库搜索数据。一旦关键字 输入错误 一个,搜索出来的 结果差强人意 。 3、Lucene的检索方案或者方法是什么? 答:Lucene,全文检索是先 分词 , 创建索引 ,再执行 搜索 。   分词:将一段文字分成一个个单词。如 iloveyou ,分为 i、love、you 三个单词再进一步搜索 4、全文检索的应用场景。   答:电商网站中,使用模糊查询来匹配数据,会导致很多数据匹配不到。所以要用到全文检索来解决。    来源: https://www.cnblogs.com/luojack/p/11342169.html

hadoop的起源——Lucene

一笑奈何 提交于 2019-11-27 03:12:54
用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的 查询引擎 和 索引引擎 Doug Cutting 写的一个开源软件,借鉴了Google的 GFS和MapReduce思想,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。 实现大数据、云存储、云计算,首选hadoop。 PB级以上 TB是一个计算机存储容量的单位,它等于2的40次方,或者接近一万亿个字节(即,一千千兆字节) TechTarget自己的百科网站Whatis有关于PB大小的定义:“PB是 数据存储 容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB chukwa--数据集成工具,抓取信息。 pig--可以用shell轻量级语言进行数据处理或数据分析,     将shell命令-->mapreduce 再返回结果。 Hive--相当于sql语言到reduce的映射器将sql-->mapreduce, 再返回结果。复杂的sql语句不支持。 HBase--Nosql数据库,链式数据库,链式存储。面向数据分析,    提高响应速度,减少Io。本身也可以做成分布式集群。 MapReduce和HDFS(分布式文件系统)两大支柱 ZooKeeper-

sql必知必会的简单总结

送分小仙女□ 提交于 2019-11-26 22:43:59
看了sql必知必会,简单总结一下 一基本概念 数据库database:保存有组织数据的一组文件或一个文件 数据库管理系统dbms:有mysql,sql server,access等 表Table:同一类型数据的结构化清单 模式:描述数据在表中如何存储,包含怎样的信息等内容 列:表的一个字段,表由一个和多个字段组成。列都有自己的数据类型,定义了该列可以存储哪些数据种类。 行:表中数据是按行存储的,每一行是一个记录 主键:每一行都应该有一列可以唯一的标识自己。任意两行的主键值不相同,每一行至少有一个主键。主键的值不允许修改更新。 注释语句: --:--之后的文本就是注释,可以嵌在语句内 #:#之后的一行都是注释 / 注释 /:多行注释 二检索数据 检索单个列: select 关键字 from 表名; 检索多个列: select 关键字,关键字,关键字 from 表名; 检索所有列: select * from 表名; 检索不同的值: select distinct 关键字 from 表名; 只返回有不同值的列 限制结果: (1)sql server和access数据库: select top 数字 关键字 from 表名; 返回前数字行数据 (2)mysql和sqlite数据库: select 关键字 from 表名 limit 数字; 返回不超过数字行数据 select 关键字

Apache Solr 介绍

拟墨画扇 提交于 2019-11-26 20:13:44
Apache Solr 介绍 Solr 是什么?   Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的Java 来实现。服务器通信使用标准的HTTP 和XML,所以如果使用Solr 了解Java 技术会有用却不是必须的要求。 Solr 主要特性有:强大的全文检索功能,高亮显示检索结果,动态集群,数据库接口和电子文档(Word ,PDF 等)的处理。而且Solr 具有高度的可扩展,支持分布搜索和索引的复制。 Lucene 是什么?   Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。   目前已经有很多应用程序的搜索功能是基于 Lucene ,比如 Eclipse 帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要把你要索引的数据格式转化的文本格式,Lucene 就能对你的文档进行索引和搜索。 Solr VS Lucene   Solr 与Lucene 并不是竞争对立关系,恰恰相反Solr 依存于Lucene ,因为Solr 底层的核心技术是使用Apache Lucene 来实现的,简单的说Solr 是Lucene 的服务器化

lucene入门&Solr

自闭症网瘾萝莉.ら 提交于 2019-11-26 14:53:33
LUCENE 1. 学习计划 1、案例分析:什么是全文检索,如何实现全文检索 2、Lucene实现全文检索的流程 a) 创建索引 b) 查询索引 3、配置开发环境 4、创建索引库 5、查询索引库 6、分析器的分析过程 a) 测试分析器的分词效果 b) 第三方中文分析器 7、索引库的维护 a) 添加文档 b) 删除文档 c) 修改文档 8、Lucene的高级查询Lucene的查询 a) 使用Query的子类查询 MatchAllDocsQuery TermQuery NumericRangeQuery BooleanQuery b) 使用QueryParser QueryParser MulitFieldQueryParser 2. 案例 实现一个文件的搜索功能,通过关键字搜索文件,凡是文件名或文件内容包括关键字的文件都需要找出来。还可以根据中文词语进行查询,并且需要支持多个条件查询。 本案例中的原始内容就是磁盘上的文件,如下图: 3. 需求分析 3.1. 数据库搜索 数据库中的搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结果。 为什么数据库搜索很容易? 因为数据库中的数据存储是有规律的,有行有列而且数据格式、数据长度都是固定的。 3.2. 数据分类 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库

Lucene介绍与入门使用

跟風遠走 提交于 2019-11-26 03:14:12
Lucene介绍与入门使用   Lucene简介   Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。   那么先来说一说什么是全文搜索   说之前先说一说 数据的分类 :      我们生活中的数据总体分为两种:结构化数据和非结构化数据。     (1) 结构化数据 :指具有固定格式或有限长度的数据,如数据库,元数据等。     (2) 非结构化数据 :指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件   结构化数据查询方法   数据库搜索  

Lucene01

左心房为你撑大大i 提交于 2019-11-25 23:04:51
数据分类 结构化数据和非结构化数据 结构化数据搜索 sql 非结构化数据查询方法 顺序扫描法 全文检索 lucene实现全文检索的流程 创建索引   对文档索引的过程,将用户要搜索的文档内容进行索引,索引存在索引库中, 获取原始文档 创建文档对象,文档中包括一个一个的域(Field),域中存储内容,可以将磁盘上的一个文件当成一个document,     Document中包括一些Field(file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容)     每个Document可以有多个Field,不同的Document可以有不同的Field,同一个Document可以有相同的Field(域名和 域值都相同)     每个文档都有一个唯一的编号,就是文档id。 分析文档     将原始内容创建为包含域(Field)的文档(document),需要再对域中的内容进行分析,分析的过程是经过对原始文 档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元,可以将语汇单元理解为一个 一个的单词 创建索引     对所有文档分析得出的语汇单元进行索引,索引的目的是为了搜索,最终要实现只搜索被索引的语汇单元从而找到 Document(文档) 创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫