分词

jieba分词 简单实现步骤

匿名 (未验证) 提交于 2019-12-03 00:21:02
jieba分词在处理中文文本分析是比较常用的工具,这里主要是基于自学后得到的实现文本jieba分词的常用流程: 加载自定义词典――>获取关键词――>去除停用词――>数据处理 1、加载自定义词典 jieba分词自带词典,可能不能包括一些专业词汇,会造成分词结果不准确,可以通过自定义词典解决这一问题。 # 加载自定义词典 jieba.load_userdict( "newdic.txt" ) 其中“newdic.txt”是自定义词典的路径。其中自定义词典的格式:一个词占一行;每一行分三部分,一部分为词语,另一部分为词频(可省略),最后为词性(可省略),用空格隔开 2、获取关键词 主要借助jieba.cut()和jieba.lcut()两个函数完成,两个函数生成的对象不同,要注意后续操作。 # jieba.cut 生成generator # 全模式分词 seg_list = jieba.cut( "我来北京上学" , cut_all=True) print( "Full Model " + '/' .join(seg_list)) # 精确模式 (默认) seg_list = jieba.cut( "我来北京上学" , cut_all=False) # jieba.lcut 生成List tags = jieba.lcut(text) tags_df = pd.DataFrame({

jieba分词wordcloud词云

匿名 (未验证) 提交于 2019-12-03 00:15:02
(1)、jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba 分词依靠中文词库 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 (1)、 jieba 分词的三种模式 精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 3、wordcloud wordcloud 是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本。 基本使用 wordcloud 库把词云当作一个WordCloud对象 wordcloud.WordCloud()代表一个文本对应的词云 可以根据文本中词语出现的频率等参数绘制词云 绘制词云的形状、尺寸和颜色均可设定 以WordCloud对象为基础,配置参数、加载文本、输出文件 方法 描述 w.generate ('分割后的分词') 向 WordCloud 对象中加载文本txt。 w.generate('python and WordCloud') w.to_file

elasticsearch安装ik分词

匿名 (未验证) 提交于 2019-12-03 00:11:01
参考 https://blog.csdn.net/wwd0501/article/details/78258274 1.下载地址 ik分词地址 ( https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.5.1 ) 2.查询 curl localhost:9200/_cat/plugins 查询安装的分词 3.使用 3.1 创建索引 查询已有索引 curl localhost:9200/_cat/indices?v 创建索引 curl -XPUT localhost:9200/knowledge 创建映射 curl -XPOST localhost:9022/konwledge/student/_mapping -d "{"student":{"properties":{"name":{"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_smart"},"age":{"type": "long"}}}}" 来源:博客园 作者: bob_coder 链接:https://www.cnblogs.com/bob-coder/p/11569922.html

第一次个人编程作业

匿名 (未验证) 提交于 2019-12-03 00:08:02
仓库地址 PSP PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) ・ Planning ・ 计划 120 130 ・ Estimate ・ 估计这个任务需要多少时间 1750 2010 ・ Development ・ 开发 60 60 ・ Analysis ・ 需求分析 (包括学习新技术) 300 320 ・ Design Spec ・ 生成设计文档 120 150 ・ Design Review ・ 设计复审 90 100 ・ Coding Standard ・ 代码规范 (为目前的开发制定合适的规范) 60 80 Design ・ 具体设计 100 120 ・ Coding ・ 具体编码 360 500 ・ Code Review ・ 代码复审 60 90 ・ Test ・ 测试(自我测试,修改代码,提交修改) 180 200 ・ Reporting Standard ・ 报告 120 100 ・ Test Repor ・ 测试报告 60 70 ・ Size Measurement ・ 计算工作量 60 50 ・ Postmortem & Process Improvement Plan ・ 事后总结, 并提出过程改进计划 60 40 ・ ・ 合计 1750 2010 import re import

IKAnalyzer中文分词器,兼容solr6.6.0,优化英文数字细粒度搜索

匿名 (未验证) 提交于 2019-12-02 23:59:01
IKAnalyzer2017_6_6_0 码云: https://git.oschina.net/iicode/IKAnalyzer2017_6_6_0 Github: https://github.com/ittalks/IKAnalyzer2017_6_6_0 IKAnalyzer2017_6_6_0.jar下载: https://github.com/ittalks/IKAnalyzer2017_6_6_0/releases/download/v1.0.0/IKAnalyzer2017_6_6_0.jar Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索。 以下介绍solr的 第三方分词器IKAnalyzer 。 注:下面操作在Linux下执行,所添加的配置在windonws下依然有效。 运行环境 Solr:6.6.0 ϵͳ : Linux 以下是设置solr中文分词器的方法。 注:开始之前,假定你已经成功登录solr的界面,并创建了core。 新特性 在使用 IKAnalyzer 分词器之前,先说明由于作者在12年之后没有更新,导致旧版本的分词器和新版本的solr6.6.0无法匹配。 因此在源码的基础上做些改动,以兼容新版的solr。 兼容新版的solr6.6.0; 英文和数据支持单字分词; IK中文分词对于数字和英文的分词方式是:

NLP―三种中文分词工具

匿名 (未验证) 提交于 2019-12-02 23:57:01
  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。 cws.model 。在用户字典中添加以下5个词语: 经 少安 贺凤英 F-35战斗机 埃达尔・阿勒坎 # -*- coding: utf-8 -*- import os import jieba import pkuseg from pyltp import Segmentor lexicon = ['经', '少安', '贺凤英', 'F-35战斗机', '埃达尔・阿勒坎'] # 自定义词典 # 哈工大LTP分词 def ltp_segment(sent): # 加载文件 cws_model_path = os.path.join('data/cws.model') # 分词模型路径,模型名称为`cws.model` lexicon_path = os.path.join('data/lexicon.txt') # 参数lexicon是自定义词典的文件路径 segmentor = Segmentor() segmentor.load_with_lexicon(cws_model_path, lexicon_path) words = list(segmentor.segment(sent)) segmentor.release() return words # 结巴分词

centos7安装elasticsearch

匿名 (未验证) 提交于 2019-12-02 23:41:02
摘自腾讯云实验室 https://cloud.tencent.com/developer/labs/search?keyword=elastics 安装java lasticsearch 需要 java8 以上; 这里安装最新版的 java10 ; 下载 jdk wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http:%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://download.oracle.com/otn-pub/java/jdk/10.0.2+13/19aef61b38124481863b1413dce1855f/jdk-10.0.2_linux-x64_bin.rpm" 因为版本会一直升级; 如果执行上面这段代码返回了 ERROR 404: Not Found ; 那说明有新版本了; 那就自己去官网复制最新的下载链接; http://www.oracle.com/technetwork/java/javase/downloads/jdk10-downloads-4416644.html   选中 Accept License Agreement 然后在 jdk-10.0.2_linux

4.elasticseach7.0.1安装ik分词插件(2019-05-13)

匿名 (未验证) 提交于 2019-12-02 23:40:02
elasticseach默认所有分词解析器对中文都不友好,我们开发建议使用Ik分词。 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 首先要安装下elasticseach (安装的版本有要求): ik主页: https://github.com/medcl/elasticsearch-analysis-ik 这里就有要求了,ik对应了es版本,我们要整合ik,要用对应的es版本,否则可能会有问题。 最近我的项目里,用的是es7.0.1,Ik对应的版本是7.0.1. Versions IK version ES version master 7.x -> master 7.0.1 7.0.1 6.3.0 6.3.0 6.2.4 6.2.4 6.1.3 6.1.3 5.6.8 5.6.8 5.5.3 5.5.3 5.4.3 5.4.3 1.安装: [root@bogon root]$ su elastic [root@bogon root]$ ES

Lucene的基本使用之创建索引的流程

匿名 (未验证) 提交于 2019-12-02 23:35:02
@Test public void indexCreate() throws IOException { // 创建文档对象 Document document = new Document(); // 添加字段,参数Field是一个接口,要new实现类的对象(StringField, TextField) // StringField的实例化需要3个参数:1-字段名,2-字段值,3-是否保存到文档,Store.YES存储,NO不存储 document.add(new StringField("id", "1", Store.YES)); // TextField:创建索引并提供分词,StringField创建索引但不分词 document.add(new TextField("title", "谷歌地图之父跳槽FaceBook", Store.YES)); // 创建目录对象,指定索引库的存放位置;FSDirectory文件系统;RAMDirectory内存 Directory directory = FSDirectory.open(new File("C:\\tmp\\indexDir")); // 创建分词器对象 Analyzer analyzer = new StandardAnalyzer(); // 创建索引写入器配置对象,第一个参数版本VerSion.LATEST

文件读写,jieba分词

匿名 (未验证) 提交于 2019-12-02 23:32:01
功能描述:从new_4.txt中读取出数据,然后用jieba分词,最后保存到new_5.txt中. 实验环境:Python3.7 代码实现: import jieba f_out = open('./new_5.txt','wb+') with open('./new_4.txt','r',encoding = 'utf-8') as f: f.close() f_out.close() 文章来源: https://blog.csdn.net/u012297539/article/details/90245925