分词

docker 安装ES和分词插件详细版教程

时间秒杀一切 提交于 2019-12-17 02:06:59
一、安装ElasticSearch 1、下载镜像 docker pull docker.elastic.co/elasticsearch/elasticsearch:6.3.2 用docker images查看已下载的镜像 (可选)对镜像命名:docker tag IMAGEID(镜像id) REPOSITORY:TAG(仓库:标签),以新的名字复制一份。 2、运行容器 docker run -d --name es -e ES_JAVA_OPTS="-Xms256m -Xmx256m" -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:6.3.2 因为我的是云服务器内存比较小,所以指定了JVM的堆内存大小。 3、修改配置 要想允许跨域访问,需要修改一些参数。 1)使用命令docker exec -it es /bin/bash(es是运行容器时指定的name,也可以用CONTAINER ID)进入容器内部。 2)在文件config/elasticsearch.yml后面添加以下内容 http.cors.enabled: true http.cors.allow-origin: "*" 3)使用docker restart

盘古分词--功能简介

两盒软妹~` 提交于 2019-12-16 23:00:37
盘古分词--功能简介 作者:eaglet 两年前我开发了一个KTDictSeg 中文分词组件,这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促,底子没有打好,而且当时对分词的理解也比较肤浅,所以KTDictSeg组件存在很多问题,我一直想重新开放一个更好的开源分词组件,但一直没有抽出时间。上周我终于下定决心开始做这个事情,经过两周的开发(业余时间),今天终于完成了盘古分词的V1.0版本。盘古分词和KTDictSeg完全不同,几乎所有的算法我全部都推倒重写了,其分词速度大概比KTDictSeg快5倍左右(多线程下快10倍以上),内存占用只有KTDictSeg的一半,分词的准确度方面也比 KTDictSeg 有显著提高,功能也增加了很多。下面我就简单介绍一下盘古分词组件的基本功能,希望能对有这方面需求的朋友有所帮助。 盘古分词 英文名 PanGuSegment 项目 Logo: 项目首页 盘古分词项目首页 开源协议 : Apache License 2.0 商业应用:免费 商业应用授权 下载地址 同项目首页 功能 中文分词功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 详见 盘古分词版本功能介绍 - 多元分词

盘古分词

℡╲_俬逩灬. 提交于 2019-12-16 20:18:24
盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/的/确实/在理/ 输入 “李三买了一张三角桌子” 分词结果:李三/买/了/一张/三角/桌子/ 强制一元分词 输入 “张三说的确实在理” 分词结果: 张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在 (6,1)/在理(6,5)/理(7,1)/ 繁体中文分词 输入"我的選擇" 分词结果: 我/的/選擇/ 同时输出简体和繁体 输入"我的選擇" 分词结果:我(0,5)/的(1,5)/选择(2,1)/選擇(2,5)/ 中文词性输出 盘古分词可以将以登录词的中文词性输出给用户,以方便用户做进一步处理。 全角字符支持 盘古分词可以识别全角的字母和数字 英文分词 英文分词 英文单词通常都是靠空格等符号分割,这个比较简单,盘古分词分英文自然也没有什么问题。 英文专用词识别 一些英文简写是字母符号混合,或者是字母数字混合,这个分词起来就不能按照空格符号这样分割了,对于字母符号混合的如 U.S.A

自然语言处理库—Gensim之Word2vec

倖福魔咒の 提交于 2019-12-15 10:09:12
1. gensim概述 Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 主要用于主题建模和文档相似性处理,它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。 使用Gensim训练Word2vec十分方便,训练步骤如下: 1)将语料库预处理:一行一个文档或句子,将文档或句子分词(以空格分割,英文可以不用分词,英文单词之间已经由空格分割,中文预料需要使用分词工具进行分词,常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等); 2)将原始的训练语料转化成一个sentence的迭代器,每一次迭代返回的sentence是一个word(utf8格式)的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现; 3)将上面处理的结果输入Gensim内建的word2vec对象进行训练即可: from gensim . models import Word2Vec sentences = word2vec . LineSentence ( './in_the_name_of_people

中文文本分类

喜夏-厌秋 提交于 2019-12-14 21:33:19
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 中文分词算法:基于概率图模型的条件机场(CRF) 文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示 分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分 分词的目的:文本实现了最基础的结构化 存储分词利用的数据结构:Bunch 机器学习算法库:Scikit-Learn //可以学习各种算法:http://scikit-learn.org/stable/ 停用词 //下载 http://www.threedweb.cn/thread-1294-1-1.html 权重策略:TF-IDF 词频逆文档频率 词频(Term Frequency):某个给定的词语在该文件中出现的频率 逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量 算法参见书: 常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法 训练步骤:分词-》生成文件词向量文件-》词向量模型 分来结果评估 三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure 朴素贝叶斯算法的基本原理和简单的Python实现 朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每个维度都是相互独立的) 朴素贝叶斯分类的正式定义: 书 kNN

python词云图与中文分词

谁都会走 提交于 2019-12-12 22:39:24
2019-12-12中文文本分词和词云图具体功能介绍与学习代码: import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是最常用的中文分词函数,用于精准模式,即将字符串分割为等量的中文词组,返回结果是列表类型print(jieba.lcut(a))#jieba.lcut(s,cut_all=True):用于全模式,即将字符串所有分词可能均列出来,返回结果是列表类型,冗余性较大,速度很快,但是不能解决歧义的问题print(jieba.lcut(a,cut_all=True))#jieba.lcut_for_search函数主要是返回搜索引擎模式,该模式首先精准执行精确模式,然后再对其中的长词进行进一步的切片获得最终结果print(jieba.lcut_for_search(a))#jieba.add_word()函数主要用来增加jieba库中的内容新的单词jieba.add_word("燕江依")#词云图的绘制import wordcloudimport jieba#英文的词云图生成比较简单,直接可以使用Wordcloud。generate()函数来进行,因为它是按照空格或者标点符号来进行划分t="i like Python,i am studying python"wd=wordcloud.WordCloud()

jieba 中文分词介绍及使用

拜拜、爱过 提交于 2019-12-12 14:27:57
目录 基本介绍 功能及使用 1. 分词 2. 添加自定义词典 2.1 载入词典 2.2 调整词典 3. 关键词提取 3.1 基于 TF-IDF 算法的关键词抽取 3.2 基于 TextRank 算法的关键词抽取 4. 词性标注 5. 并行分词 6. kenize:返回词语在原文的起止位置 基本介绍 支持 3 种分词模式 1)精确模式:将句子最精确的分开,适合文本分析; 2)全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义; 3)搜索引擎模式:在精确的基础上,对长词再次切分,提高召回; ​​​​ 支持繁体分词 支持自定义词典 功能及使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型; ​​ jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细; ​​​​​待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意: 不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8; jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个 可迭代的 generator ,可以使用 for

aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件

谁都会走 提交于 2019-12-12 10:16:47
文章大纲 Elastic search & kibana & 分词器 安装 版本控制 下载地址 Elastic search安装 kibana 安装 分词器配置 作者:season Elastic search & kibana & 分词器 安装 版本控制 ES版本:7.2.0 分词器版本: kibana 版本:7.2.0 下载地址 ES 下载地址: https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-2-0 kibana 下载地址: https://www.elastic.co/cn/downloads/past-releases/kibana-7-2-0 hanlp 分词器下载地址: https://github.com/KennFalcon/elasticsearch-analysis-hanlp Elastic search安装 0.添加es 用户,并新建目录 不能以root 方式运行elasticSearch groupadd elasticsearch useradd elasticsearch -g elasticsearch chown -R elasticsearch:elasticsearch /home/elasticsearch 1.修改 配置文件 elasticsearch

代码补全快餐教程(3) - 分词

感情迁移 提交于 2019-12-10 18:29:24
代码补全快餐教程(3) - 分词 上一讲我们介绍了预训练模型的输入和输出。 下面我们从最初始的从输入文本到token的转换说起。 分词器的基类是PreTrainedTokenizer。 分词器的创建 分词器可以通过预训练好的模型中加载,这是最简单的一种方式。就像我们在前两节中使用的一样: tokenizer = GPT2Tokenizer . from_pretrained ( 'gpt2' ) 也可以通过读取本地保存的模型来创建: tokenizer = GPT2Tokenizer . from_pretrained ( './test/saved_model/' ) 还可以更进一步地,指定加载的本地文件名: tokenizer = GPT2Tokenizer . from_pretrained ( './test/saved_model/my_vocab.txt' ) 最后,加载的同时还可以指定一些token的特殊参数,如: tokenizer = BertTokenizer . from_pretrained ( 'bert-base-uncased' , unk_token = '<unk>' ) 分词器的三大核心操作:tokenize, encode, decode 分词器的核心操作只有三个:tokenize, encode, decode。 tokenize负责分词

sphinx全文检索之PHP使用教程

☆樱花仙子☆ 提交于 2019-12-10 13:57:41
这是半年前没有对外写的文章,现在拿出来分享下。可能会有一些不正确或不严谨的地方,某些语言可能比较轻浮,请见谅。 上一篇[ 查看 ]介绍了sphinx的基本安装、配置和使用,现在来看看如何应用在PHP上。 基础 以上一篇的email数据表为例: 数据结构: CREATE TABLE email ( emailid mediumint( 8 ) unsigned NOT NULL auto_increment COMMENT ' 邮件id ' , fromid int ( 10 ) unsigned NOT NULL default ' 0 ' COMMENT ' 发送人ID ' , toid int ( 10 ) unsigned NOT NULL default ' 0 ' COMMENT ' 收件人ID ' , content text unsigned NOT NULL COMMENT ' 邮件内容 ' , subject varchar ( 100 ) unsigned NOT NULL COMMENT ' 邮件标题 ' , sendtime int ( 10 ) NOT NULL COMMENT ' 发送时间 ' , attachment varchar ( 100 ) NOT NULL COMMENT ' 附件ID,以逗号分割 ' , PRIMARY KEY