分词

solr安装记录

匿名 (未验证) 提交于 2019-12-02 23:05:13
[root@localhost bin]# ./solr start -force Started Solr server on port 8983 (pid=22343). Happy searching! [root@localhost bin]# cd .. 一、准备环境 1、一台linux服务器(Centos7) 2、安装jdk8环境 3、准备solr7.8安装包 二、安装(我这里使用的是solr自带的应用容器,也可以集成到tomcat) 1)从官网下载最新solr wget http://mirrors.shuosc.org/apache/lucene/solr/7.4.0/solr-7.4.0.tgz 2)解压,安装 tar -zxvf solr-7.2.0.tgz 3)相关命令 三、使用solr 1、点击Core Admin 这里写图片描述 2、按照步骤去创建,然后点击确认会出现 这里写图片描述 3、这个错误是因为找不到对应的配置文件,进入server/solr/configsets/_default/直接把里面的conf 复制到 你新建的core中 你新建的core在server/solr目录下 命令如下: 1、进入到server/solr/configsets/_default下 cd /usr/local/install/solr7.4.0/server

elasticsearch安装中文分词插件

匿名 (未验证) 提交于 2019-12-02 23:03:14
下载 下载和elaticsearch对应版本的ik分词 https://github.com/medcl/elasticsearch-analysis-ik/releases 安装 elasticsearch-plugin install -b file:///elasticsearch-analysis-ik-5.6.8.zip 重启elasticsearch 测试 查看插件是否安装 get http://localhost:9200/_cat/plugins elasticsearch-plugin list 参考: https://github.com/medcl/elasticsearch-analysis-ik

Lucene-Lucene的Field及其分页查询

匿名 (未验证) 提交于 2019-12-02 22:56:40
Document(文档)是Field(域)的承载体, 一个Document由多个Field组成. Field由名称和值两部分组成, Field的值是要索引的内容, 也是要搜索的内容. 是否分词(tokenized) 是: 将Field的值进行分词处理, 分词的目的是为了索引 . 如: 商品名称, 商品描述. 这些内容用户会通过输入关键词进行查询, 由于内容多样, 需要进行分词处理建立索引. 否: 不做分词处理. 如: 订单编号, 身份证号, 是一个整体, 分词以后就失去了意义, 故不需要分词. 是否索引(indexed) 是: 将Field内容进行分词处理后得到的词(或整体Field内容)建立索引, 存储到索引域. 索引的目的是为了搜索. 如: 商品名称, 商品描述需要分词建立索引. 订单编号, 身份证号作为整体建立索引. 只要可能作为用户查询条件的词, 都需要索引. 否: 不索引. 如: 商品图片路径, 不会作为查询条件, 不需要建立索引. 是否存储(stored) 是: 将Field值保存到Document中. 如: 商品名称, 商品价格. 凡是将来在搜索结果页面展现给用户的内容, 都需要存储. 否: 不存储. 如: 商品描述. 内容多格式大, 不需要直接在搜索结果页面展现, 不做存储. 需要的时候可以从关系数据库取. 以下是企业项目开发中常用的Field类型: Field类型

python实例:三国演义TXT文本词频分析

匿名 (未验证) 提交于 2019-12-02 22:56:40
0x00 前言 效果演示 安装jieba库 pip install jieba jieba三种模式:   1.精准模式 lcut函数,返回一个分词列表   2.全模式   3.搜索引擎模式 词频:   <单词>:<出现次数>的键值对   IPO描述 imput output process   输入 :从文件读取三国演义的内容   处理 :采用jiedb进行分词,字典数据结构统计词语出现的频率   输出 :文章中出现最对的前10个词 代码:   第一步:读取文件   第二步:分词   第三步:统计   第四步:排序 介绍完毕了!那么进入实战吧! 0x02 ʵս 完整代码如下: 1 import jieba 2 3 content = open( ‘ 三国演义.txt ‘ , ‘ r ‘ ,encoding= ‘ utf-8 ‘ ).read() 4 words =jieba.lcut(content) # 分词 5 excludes={ " 将军 " , " ȴ˵ " , " 二人 " , " 后主 " , " 上马 " , " 不知 " , " 天子 " , " 大叫 " , " 众将 " , " 不可 " , " 主公 " , " 蜀兵 " , " 只见 " , " 如何 " , " 商议 " , " 都督 " , " 一人 " , " 汉中 " , " 不敢 " , " 人马

Python第三方库jieba(结巴-中文分词)入门与进阶(官方文档)

匿名 (未验证) 提交于 2019-12-02 22:56:40
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址: https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba pip3 install jieba http://pypi.python.org/pypi/jieba/ python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut jieba.cut_for_search 待分词的字符串可以是

python+gensim|jieba分词、词袋doc2bow、TFIDF文本挖掘

匿名 (未验证) 提交于 2019-12-02 22:54:36
转载:https://cloud.tencent.com/developer/article/1010859 分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言|文本挖掘之中文分词包――Rwordseg包(原理、功能、详解) R语言|文本挖掘――jiabaR包与分词向量化的simhash算法(与word2vec简单比较) . 一、jieba分词功能 来源github: https://github.com/fxsjy/jieba 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 . 2、算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 . 3、主要功能 jieba.cut 方法接受三个输入参数 : 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM

用Python进行简单的文本相似度分析(重要)

匿名 (未验证) 提交于 2019-12-02 22:54:36
转载:https://blog.csdn.net/xiexf189/article/details/79092629 学习目标: 利用gensim包分析文档相似度 使用jieba进行中文分词 了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。 首先引入分词API库jieba、文本相似度库gensim import jieba from gensim import corpora , models , similarities 1 2 以下doc0-doc7是几个最简单的文档,我们可以称之为目标文档,本文就是分析doc_test(测试文档)与以上8个文档的相似度。 doc0 = "我不喜欢上海" doc1 = "上海是一个好地方" doc2 = "北京是一个好地方" doc3 = "上海好吃的在哪里" doc4 = "上海好玩的在哪里" doc5 = "上海是好地方" doc6 = "上海路和上海人" doc7 = "喜欢小吃" doc_test = "我喜欢上海的小吃" 1 2 3 4 5 6 7 8 9 分词 首先,为了简化操作,把目标文档放到一个列表all_doc中。 all_doc = []

用Python词云展示周董唱过的歌,发现内含秘密

匿名 (未验证) 提交于 2019-12-02 22:51:30
马上开始了,你准备好了么 准备工作 环境: Windows + Python3.6 IDE: 根据个人喜好,自行选择 模块: Matplotlib是一个 Python 的 2D数学绘图库 1 pip install matplotlib 2 import matplotlib . pyplot as plt jieba中文分词库 1 pip install jieba 2 import jieba wordcloud词云库 1 pip install wordcloud 2 from wordcloud import WordCloud 实战具体步骤: 1、读入txt文本数据。 2、结巴中文分词,生成字符串默认精确模式,如果不通过分词,无法直接生成正确的中文词云。 3、生成词云图,这里需要注意的是WordCloud默认不支持中文,所以这里需已下载好的中文字库。 (无自定义背景图:需要指定生成词云图的像素大小,默认背景颜色为黑色,统一文字颜色:mode='RGBA'和colormap='pink') 4、显示图片。 总体而言只有四个步骤还是比较简单的那咱们先看一下实现的效果图吧! 看到效果图后发现里面的秘密没? 完整代码 1 # Matplotlib是一个 Python 的 2D数学绘图库 2 # 安装:pip install matplotlib 3 import

Python jieba库的使用

匿名 (未验证) 提交于 2019-12-02 22:51:30
1、jieba库基本介绍 jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 2、jieba库使用说明 jieba分词的三种模式 精确模式、全模式、搜索引擎模式 - 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 函数 描述 jieba.lcut(s) 精确模式,返回一个列表类型的分词结果 >>> jieba.lcut( " 中国是一个伟大的国家 " ) [' 中国 ', ' 是 ', ' 一个 ', ' 伟大 ', ' 的 ', ' 国家 '] jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余 >>> jieba.lcut( " 中国是一个伟大的国家 " ,cut_all=True) [' 中国 ', ' 国是 ', ' 一个 ', ' 伟大 ', ' 的 ', ' 国家 '] 函数 描述 jieba.lcut_for_sear ch(s)

python读取txt, jieba分词并统计词频后输出结果到Excel和txt文档

匿名 (未验证) 提交于 2019-12-02 22:51:30
1 2 3 4 5 open ( '1.txt' 'r' ) as fp: = fp.readlines() = [line.split()[ 1 ][ 9 for in lines] open ( 'out.txt' 'w+' ) as out: out.write( '\n' .join(res)) #encoding=utf-8 import jieba import jieba.posseg as pseg import re filename='result.txt' fileneedCut='test.txt' fn=open(fileneedCut,"r") f=open(filename,"w+") for line in fn.readlines(): f.close() fn.close() import sys.setdefaultencoding( 'utf-8' import import import #写入Excel表的库 if "__main__" 'ascii' "wordCount" ) #Excel单元格名字 for in '1.txt' ): #1.txt是需要分词统计的文档 '\n\r' ).split( '\t' #制表格切分 0 #jieba分词 for in "wordCount.txt" , 'w' #打开文件 for in if