分词 | 易学教程

docker 安装ES和分词插件详细版教程

阅读更多关于 docker 安装ES和分词插件详细版教程

一、安装ElasticSearch 1、下载镜像 docker pull docker.elastic.co/elasticsearch/elasticsearch:6.3.2 用docker images查看已下载的镜像 (可选)对镜像命名：docker tag IMAGEID(镜像id) REPOSITORY:TAG（仓库：标签），以新的名字复制一份。 2、运行容器 docker run -d --name es -e ES_JAVA_OPTS="-Xms256m -Xmx256m" -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:6.3.2 因为我的是云服务器内存比较小，所以指定了JVM的堆内存大小。 3、修改配置要想允许跨域访问，需要修改一些参数。 1）使用命令docker exec -it es /bin/bash(es是运行容器时指定的name，也可以用CONTAINER ID)进入容器内部。 2）在文件config/elasticsearch.yml后面添加以下内容 http.cors.enabled: true http.cors.allow-origin: "*" 3）使用docker restart

盘古分词--功能简介

阅读更多关于盘古分词--功能简介

盘古分词--功能简介作者:eaglet 两年前我开发了一个KTDictSeg 中文分词组件，这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促，底子没有打好，而且当时对分词的理解也比较肤浅，所以KTDictSeg组件存在很多问题，我一直想重新开放一个更好的开源分词组件，但一直没有抽出时间。上周我终于下定决心开始做这个事情，经过两周的开发（业余时间），今天终于完成了盘古分词的V1.0版本。盘古分词和KTDictSeg完全不同，几乎所有的算法我全部都推倒重写了，其分词速度大概比KTDictSeg快5倍左右（多线程下快10倍以上），内存占用只有KTDictSeg的一半，分词的准确度方面也比 KTDictSeg 有显著提高，功能也增加了很多。下面我就简单介绍一下盘古分词组件的基本功能，希望能对有这方面需求的朋友有所帮助。盘古分词英文名 PanGuSegment 项目 Logo: 项目首页盘古分词项目首页开源协议： Apache License 2.0 商业应用：免费商业应用授权下载地址同项目首页功能中文分词功能中文未登录词识别盘古分词可以对一些不在字典中的未登录词自动识别词频优先盘古分词可以根据词频来解决分词的歧义问题多元分词盘古分词提供多重输出解决分词粒度和分词精度权衡的问题详见盘古分词版本功能介绍 - 多元分词

盘古分词

阅读更多关于盘古分词

盘古分词是一个基于 .net framework 的中英文分词组件。主要功能中文未登录词识别盘古分词可以对一些不在字典中的未登录词自动识别词频优先盘古分词可以根据词频来解决分词的歧义问题多元分词盘古分词提供多重输出解决分词粒度和分词精度权衡的问题中文人名识别输入： “张三说的确实在理” 分词结果：张三/说/的/确实/在理/ 输入 “李三买了一张三角桌子” 分词结果：李三/买/了/一张/三角/桌子/ 强制一元分词输入 “张三说的确实在理” 分词结果：张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5,1)/在 (6,1)/在理(6,5)/理(7,1)/ 繁体中文分词输入"我的選擇" 分词结果：我/的/選擇/ 同时输出简体和繁体输入"我的選擇" 分词结果：我(0,5)/的(1,5)/选择(2,1)/選擇(2,5)/ 中文词性输出盘古分词可以将以登录词的中文词性输出给用户，以方便用户做进一步处理。全角字符支持盘古分词可以识别全角的字母和数字英文分词英文分词英文单词通常都是靠空格等符号分割，这个比较简单，盘古分词分英文自然也没有什么问题。英文专用词识别一些英文简写是字母符号混合，或者是字母数字混合，这个分词起来就不能按照空格符号这样分割了，对于字母符号混合的如 U.S.A

自然语言处理库—Gensim之Word2vec

阅读更多关于自然语言处理库—Gensim之Word2vec

1. gensim概述 Gensim（http://pypi.python.org/pypi/gensim）是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。主要用于主题建模和文档相似性处理，它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。使用Gensim训练Word2vec十分方便，训练步骤如下： 1）将语料库预处理：一行一个文档或句子，将文档或句子分词（以空格分割，英文可以不用分词，英文单词之间已经由空格分割，中文预料需要使用分词工具进行分词，常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等）； 2）将原始的训练语料转化成一个sentence的迭代器，每一次迭代返回的sentence是一个word（utf8格式）的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现； 3）将上面处理的结果输入Gensim内建的word2vec对象进行训练即可： from gensim . models import Word2Vec sentences = word2vec . LineSentence ( './in_the_name_of_people

中文文本分类

阅读更多关于中文文本分类

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 中文分词算法：基于概率图模型的条件机场（CRF）文本或句子的结构化可分为：词向量空间模型、主题模型、依存句法的树表示、RDF的图表示分词器 jieba 分词模式：默认切分、全切分、搜索引擎切分分词的目的：文本实现了最基础的结构化存储分词利用的数据结构：Bunch 机器学习算法库:Scikit-Learn //可以学习各种算法：http://scikit-learn.org/stable/ 停用词 //下载 http://www.threedweb.cn/thread-1294-1-1.html 权重策略：TF-IDF 词频逆文档频率词频(Term Frequency):某个给定的词语在该文件中出现的频率逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量算法参见书：常见文本分类算法：kNN最近邻算法、朴素贝叶斯算法、向量机算法训练步骤：分词-》生成文件词向量文件-》词向量模型分来结果评估三个基本指标：①召回率（也叫查全率）②准确率 ③F-Measure 朴素贝叶斯算法的基本原理和简单的Python实现朴素贝叶斯分类：一种简单的分类算法（思想基础简单：即一个对象中特征向量种每个维度都是相互独立的）朴素贝叶斯分类的正式定义：书 kNN

python词云图与中文分词

阅读更多关于 python词云图与中文分词

2019-12-12中文文本分词和词云图具体功能介绍与学习代码： import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是最常用的中文分词函数，用于精准模式，即将字符串分割为等量的中文词组，返回结果是列表类型print(jieba.lcut(a))#jieba.lcut(s,cut_all=True):用于全模式，即将字符串所有分词可能均列出来，返回结果是列表类型，冗余性较大,速度很快，但是不能解决歧义的问题print(jieba.lcut(a,cut_all=True))#jieba.lcut_for_search函数主要是返回搜索引擎模式，该模式首先精准执行精确模式，然后再对其中的长词进行进一步的切片获得最终结果print(jieba.lcut_for_search(a))#jieba.add_word()函数主要用来增加jieba库中的内容新的单词jieba.add_word("燕江依")#词云图的绘制import wordcloudimport jieba#英文的词云图生成比较简单，直接可以使用Wordcloud。generate()函数来进行，因为它是按照空格或者标点符号来进行划分t="i like Python，i am studying python"wd=wordcloud.WordCloud()

jieba 中文分词介绍及使用

阅读更多关于 jieba 中文分词介绍及使用

目录基本介绍功能及使用 1. 分词 2. 添加自定义词典 2.1 载入词典 2.2 调整词典 3. 关键词提取 3.1 基于 TF-IDF 算法的关键词抽取 3.2 基于 TextRank 算法的关键词抽取 4. 词性标注 5. 并行分词 6. kenize：返回词语在原文的起止位置基本介绍支持 3 种分词模式 1）精确模式：将句子最精确的分开，适合文本分析； 2）全模式：句子中所有可以成词的词语都扫描出来，速度快，不能解决歧义； 3）搜索引擎模式：在精确的基础上，对长词再次切分，提高召回；支持繁体分词支持自定义词典功能及使用 1. 分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型； jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细；待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8； jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator ，可以使用 for

aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件

阅读更多关于 aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件

文章大纲 Elastic search & kibana & 分词器安装版本控制下载地址 Elastic search安装 kibana 安装分词器配置作者：season Elastic search & kibana & 分词器安装版本控制 ES版本：7.2.0 分词器版本： kibana 版本：7.2.0 下载地址 ES 下载地址： https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-2-0 kibana 下载地址： https://www.elastic.co/cn/downloads/past-releases/kibana-7-2-0 hanlp 分词器下载地址： https://github.com/KennFalcon/elasticsearch-analysis-hanlp Elastic search安装 0.添加es 用户，并新建目录不能以root 方式运行elasticSearch groupadd elasticsearch useradd elasticsearch -g elasticsearch chown -R elasticsearch:elasticsearch /home/elasticsearch 1.修改配置文件 elasticsearch

代码补全快餐教程(3) - 分词

阅读更多关于代码补全快餐教程(3) - 分词

代码补全快餐教程(3) - 分词上一讲我们介绍了预训练模型的输入和输出。下面我们从最初始的从输入文本到token的转换说起。分词器的基类是PreTrainedTokenizer。分词器的创建分词器可以通过预训练好的模型中加载，这是最简单的一种方式。就像我们在前两节中使用的一样： tokenizer = GPT2Tokenizer . from_pretrained ( 'gpt2' ) 也可以通过读取本地保存的模型来创建： tokenizer = GPT2Tokenizer . from_pretrained ( './test/saved_model/' ) 还可以更进一步地，指定加载的本地文件名： tokenizer = GPT2Tokenizer . from_pretrained ( './test/saved_model/my_vocab.txt' ) 最后，加载的同时还可以指定一些token的特殊参数，如： tokenizer = BertTokenizer . from_pretrained ( 'bert-base-uncased' , unk_token = '<unk>' ) 分词器的三大核心操作：tokenize, encode, decode 分词器的核心操作只有三个：tokenize, encode, decode。 tokenize负责分词

sphinx全文检索之PHP使用教程

阅读更多关于 sphinx全文检索之PHP使用教程

这是半年前没有对外写的文章，现在拿出来分享下。可能会有一些不正确或不严谨的地方，某些语言可能比较轻浮，请见谅。上一篇[ 查看 ]介绍了sphinx的基本安装、配置和使用，现在来看看如何应用在PHP上。基础以上一篇的email数据表为例：数据结构： CREATE TABLE email ( emailid mediumint( 8 ) unsigned NOT NULL auto_increment COMMENT ' 邮件id ' , fromid int ( 10 ) unsigned NOT NULL default ' 0 ' COMMENT ' 发送人ID ' , toid int ( 10 ) unsigned NOT NULL default ' 0 ' COMMENT ' 收件人ID ' , content text unsigned NOT NULL COMMENT ' 邮件内容 ' , subject varchar ( 100 ) unsigned NOT NULL COMMENT ' 邮件标题 ' , sendtime int ( 10 ) NOT NULL COMMENT ' 发送时间 ' , attachment varchar ( 100 ) NOT NULL COMMENT ' 附件ID，以逗号分割 ' , PRIMARY KEY

订阅分词