分词

linux安装elasticsearch

醉酒当歌 提交于 2019-12-03 03:58:35
上传安装包到linux,并解压 进入config目录,有个elasticsearch.yml 还有些端口什么的,在之前的一篇博客中有关于elasticsearch.yml的详细解释 进入bin目录。 ./elasticsearch -d 启动 如果是root启动会报错,前面的博客中有说到 切换到elasearch 用户启动 执行命令:curl 'http://localhost:9200/?pretty' 或者 curl localhost:9200 ,如果出现以下结果,则ok 启动成功后, curl -XGET -H "Content-Type: application/json" "http://localhost:9200/_analyze?pretty=true" -d'{"text":"公安部各地校车将享最高路权"}'; 以上结果是没用有分词(默认分词器)的,所以需要安装ik分词器 下载与你的es版本相对应的版本 wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.1/elasticsearch-analysis-ik-6.4.1.zip #解压 unzip elasticsearch-analysis-ik-6.4.1.zip 完成后重启es ik_max_word

es

こ雲淡風輕ζ 提交于 2019-12-03 02:35:50
1、为什么要用es 我们的要求:(1)搜索解决方案要 快 (2)最好是有一个 零配置 和一个完全免费的搜索模式(3)我们希望能够简单地 使用JSON/XML通过HTTP的 索引数据 (4)我们希望我们的搜索服务器始终可用,并能够从一台开始并在需要 扩容时方便 地扩展到数百(5)我们要 实时搜索 ,我们要简单的多租户,我们希望建立一个云的解决方案 2、es的优点(lucene的缺点es都已解决)   Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene只是一个库,使用非常复杂。   lucene缺点:    1)只能在JAVA项目中使用,并且要以jar包的方式直接集成项目中.   2)配置及使用非常复杂-创建索引和搜索索引代码多    3)不支持集群环境-索引数据不同步(不支持大型项目)    4 )索引数据如果太多就不行。 索引库和应用所在同一个服务器 , 共同占用硬盘 . 共用空间少 . 3、es解决了lucene的那些缺点:   (1) 优化 Lucene 的调用方式, 通过简单的 RESTful API 来隐藏 Lucene 的复杂性(调用简单)  (2)并实现了高可用的分布式集群的搜索方案( 高可用,分布式 )   (3) 分布式的实时分析搜索引擎(实时)   (4) 可以扩展到上百台服务器,处理 PB 级结构化或非结构化数据

jieba分词wordcloud词云

回眸只為那壹抹淺笑 提交于 2019-12-03 02:13:13
1.jieba库的基本介绍 (1)、jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba 分词依靠中文词库 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 2.jieba库使用说明 (1)、 jieba 分词的三种模式 精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 3、wordcloud wordcloud 是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本。 基本使用 wordcloud 库把词云当作一个WordCloud对象 wordcloud.WordCloud()代表一个文本对应的词云 可以根据文本中词语出现的频率等参数绘制词云 绘制词云的形状、尺寸和颜色均可设定 以WordCloud对象为基础,配置参数、加载文本、输出文件 常规方法 方法 描述 w.generate ('分割后的分词') 向 WordCloud 对象中加载文本txt。 w.generate('python

基于IKAnalyzer搭建分词服务

匿名 (未验证) 提交于 2019-12-03 00:41:02
前端高亮需要分词服务,nlp团队提供的分词服务需要跨域调用,而且后台数据索引使用的IK分词。综合评价,前端分词也需要基于IK分词器。 IKAnalyzer服务已经停止更新,且对Lucene支持仅测试到4.x.x版本(6.x.x会出现异常),因此使用IK分词器时需要解决一些异常。 项目以及maven构建,需要指定IK依赖以及Lucene依赖如下: <dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artifactId> <version>2012_u6</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>4.10.4</version> </dependency> import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea

NLP自然语言基础(一)

匿名 (未验证) 提交于 2019-12-03 00:33:02
本文是基于寒小阳博主中的NLP系列所记录下的笔记,非常感谢有那么优质的博客,很受用! 1.NLP的 常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答…… 如果对自然语言处理的应用场景不太了解,可以去腾讯的 中文语义平台 简单玩几个例子就熟悉了。 2.NLP的发展现状 根据stafford教授Dan Jurafsky的介绍: 有些问题得到了基本解决 ,如:词性标注、命名实体识别、垃圾邮件识别。 有些问题取得长足进展 ,如:情感分析、共指消解、词义消歧、句法分析、机器翻译、信息抽取。 有些问题依然充满挑战 ,如:自动问答、复述、文摘提取、会话机器人等。 3.NLP与算法类型问题 比如, 词性标注,垃圾邮件识别,褒贬分析,拼写纠错等问题都可以归结成简单的分类问题 。这就好用我们之前掌握的机器学习分类方法去很好地处理。 又比如,对于 机器翻译,语音识别,音字转换等等领域,都可以抽象成运用隐马尔科夫模型去处理,而这本身是一个更加复杂的分类问题。 4.NLP分词,编辑距离 中文分词比英文分词难的多, 对于英文,分词比较直观。 一般被空格区分开来的就是不同的词。 编辑距离(Minimum Edit Distance,MED),又称Levenshtein距离,是 指两个字符串之间

xunsearch 实践步骤

匿名 (未验证) 提交于 2019-12-03 00:30:01
cd ~/downloads/ wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2 tar -xvf xunsearch-full-latest.tar.bz2 cd xunsearch-full- 1.4 . 11 / ./setup.sh +=================================================+ | Installation completed successfully, Thanks you | | 安装成功,感谢选择和使用 xunsearch | +-------------------------------------------------+ | 说明和注意事项: | | 1. 开启/重新开启 xunsearch 服务程序,命令如下: | | /usr/local/xunsearch/bin/xs-ctl.sh restart | 强烈建议将此命令写入服务器开机脚本中 | | | | 2. 所有的索引数据将被保存在下面这个目录中: | | /usr/local/xunsearch/data | 如需要转移到其它目录,请使用软链接。 | | | | 3. 您现在就可以在我们提供的开发包(SDK)基础上 | | 开发您自己的搜索了。 | |

Rwordseg中文分词 画词云图

匿名 (未验证) 提交于 2019-12-03 00:28:02
1. 下载jre最新版 2. 打开环境变量:控制面板―系统―环境变量 or 我的电脑―属性 a 新增变量“JAVA”,变量值=C:\Program Files\Java\jre6\bin 加载rJava包和Rwordseg包 代码: >install.packages(“rJava”) >library(rJava) >install.packages("Rwordseg",repos= "http://R-Forge.R-project.org", type = "source") >library(Rwordseg) --可以测试了: >teststring1 <- "李建督促你将R语言学习到底。" >word1 <- segmentCN(teststring1) 二、 导入文本、清理文本、词频统计、词云图 library(Rwordseg) #分词的包 #导入数据 sale<-read.csv(file.choose()) neg <- readLines(file.choose(), encoding = 'UTF-8') data = read.csv("E:/111/wuli.csv",stringsAsFactors=F) data<-read.csv(file.choose(),stringsAsFactors=F) #去除数字,英文字符 data = gsub("

Lucence-IKAnalyzer中文分词器

匿名 (未验证) 提交于 2019-12-03 00:26:01
Lucence IKAnalyzer中文分词器 文 | 分词 | 工具包 | : 导入包和相关配置文件 配置文件IKAnalyzer.cfg.xml <? xml version = "1.0" encoding = "UTF-8" ?> <! DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd" > < properties > < comment > 扩展配置 </ comment > <!-- 用户可以在这里配置自己的扩展字典 <!-- 用户可以在这里配置自己的扩展停止词字典 </ properties > 修改配置类Configuration 修改配置类Configuration的分词器,使用IKAnalyzer分词器,主要参看红色部分代码 class Configuration { private Configuration(){} public final Version LOCAL_VERSION =Version. LUCENE_30 ; // 使用 IKAnalyzer, 当参数为 true 时,表示使用最大词长分词, false 表示使用细粒度分词 public staticfinal Analyzer ANALYZER = new IKAnalyzer( true );

结巴分词

匿名 (未验证) 提交于 2019-12-03 00:25:02
python结巴分词、jieba加载停用词表 2017年09月03日 21:50:19 阅读数:32332 python结巴分词 python结巴分词 jieba中文分词简介 中文分词的原理 1 基于规则 2 基于统计 3 jieba的原理 安装结巴jieba jieba三种分词模式以及其应用 jieba增强功能-加载自定义词典 1 载入新自定义词典 2 载入停用词表 jieba分词的其他应用 1 关键词提取 2 词性标注 用jieba分词实战含文件的读取与存储 1 jieba中文分词简介 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统。 这里推荐的是一款完全开源、简单易用的分词工具,jieba中文分词。官网在这里, https://github.com/fxsjy/jieba 2 中文分词的原理 中文分词的模型实现主要分类两大类:基于规则和基于统计。 2.1 基于规则 基于规则是指根据一个已有的词典,采用前向最大匹配、后向最大匹配、双向最大匹配等人工设定的规则来进行分词。 例如对于“上海自来水来自海上”这句话,使用前向最大匹配,即从前向后扫描,使分出来的词存在于词典中并且尽可能长,则可以得到“上海/自来水/来自/海上”。这类方法思想简单且易于实现,对数据量的要求也不高。 当然

文本关键词提取小结

匿名 (未验证) 提交于 2019-12-03 00:22:01
网上看到一篇文章总结了几个关键词抽取的算法( 如何做好文本关键词提取?从达观数据应用的三种算法说起 ),想到这是一个很重要的课题还是有必要小结一下的,有不足之处大家可以讨论讨论 还有几个比较好的链接供大家参考 中文分词原理及工具 中文分词工具测评 自然语言处理入门(4)――中文分词原理及分词工具介绍 大体上关键词抽取算法分三种:有监督(二分类问题,需提供大量标注好的训练数据),半监督(提供少量的有标注的训练数据作为种子数据构建模型),无监督(一些方法自动发现关键词) 有监督的方法需要大量的标注数据,这一点比较耗费人工,所以还是能无监督就无监督 对英语来说可以直接考虑以词语为单位,但是汉语处理还需要先经过分词处理,分词的准确率影响后来的算法准确率,分词的package包括jieba(github上有很多),NLTK,standford的分词器,清华大学,哈尔滨工业大学,中科院计算所都有各自的分词工具等等,不一而足,当然也可以自己尝试使用HMM,CRF等模型自己写一个分词工具 基于统计的关键词抽取 利用文档中的词语统计信息抽取,比如基于词性,词频,逆文本频率等,还可以依据词在文档中出现的位置提取 词性:现在的关键词绝大多数为名词或动名词,因为这些结构有比较大的,不容易产生歧义的信息量,可与其他指标结合 词频:一般来说一个词在文档中出现的次数越多越重要