jieba

【Python jieba】

…衆ロ難τιáo~ 提交于 2019-11-28 17:44:38
原文: http://blog.gqylpy.com/gqy/356 安装: pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例: import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组: jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果: # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词,力度比较细 s = '人如果没有梦想,那跟咸鱼有什么区别呢?' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后,使用cut_for_search的结果: # ['人', '如果', '没有', '梦想', ',', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '?'] 原文: http://blog.gqylpy.com/gqy/356 来源: https://www.cnblogs

day04

岁酱吖の 提交于 2019-11-28 15:57:50
目录 一.数据类型(对数据进行分类) a.整型(int) b.浮点型(float) c.字符串(string) d.列表类型(list) e.字典(dict) f.补充 二.jieba模块 三.构建词云图 代码 一.数据类型(对数据进行分类) a.整型(int) 作用 (身份证/电话号码/各种级别) 定义方式 a=10 b=int(18) age=18 print ("age",type(age)) 使用方法(+-*/%//) a=3 b=3 print (a+b)#加法 print (a-b)#减法 print (a*b)#乘法 print (a/b)#除法 print (a%b)#取余 print (a//b)#取整 print (a>b)#判断大小 print (a<b)#判断大小 b.浮点型(float) 作用(工资/体重/身高) 定义方式 salary=2.3 print (salary,type(salary),id(salary)) 使用方法 加减乘除逻辑判断 c.字符串(string) 作用(名字/性别) 定义方式 name='liuyouqiang' name="liuyouqiang" name=``` liuyouqiang, liuyouqiang1, liuyouqiang2 ​``` 使用方法 name[0:6] name[0:7:2] name

jieba分词/jieba-analysis(java版)

北战南征 提交于 2019-11-28 15:45:05
简介 支持分词模式 Search模式,用于对用户查询词分词 Index模式,用于对索引文档分词 特性 支持多种分词模式 全角统一转成半角 用户词典功能 conf 目录有整理的搜狗细胞词库 因为性能原因,最新的快照版本去除词性标注,也希望有更好的 Pull Request 可以提供该功能。 简单使用 获取jieba-analysis <dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version> </dependency> 案例 @Test public void testDemo() { JiebaSegmenter segmenter = new JiebaSegmenter(); String[] sentences = new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。", "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"}; for (String sentence : sentences) { System.out.println(segmenter

day04整理

Deadly 提交于 2019-11-28 15:39:43
内容回顾 变量 什么是变量 描述世间万物的状态 变量的组成 变量名 (描述意义;接受变量) 赋值符号(=) 变量值(具体的值) 变量名的命名规范 具有实际的某种意义 由字母/数字/下划线组成,不能以数字开头 不能用关键字命名 注释 单行注释 后面的字符失效 解释某一行代码 pycharm中快捷键:ctrl + / 多行注释 '''多行注释''' turtle库的使用 pencolor 画笔颜色 pensize 画笔大小 penmode 画笔颜色控制 goto 到达某一点 seth 绝对方向 left 相对向左 right 相对向右 fd 前进 bk 后退 circle 画圆 pu 抬起画笔 pd 落下画笔 fillcolor 填充颜色 begin_fill 开始填充 end_结束填充 30-60分钟耍不来跳过(或者参看答案,) 安排下午的时间: 14:20起来-14:30洗把脸(无论困不困都去做,养成习惯) 14:30-16:00 复习上午的内容,没复习完不继续(),复习完了-休息,时间过多,可 机器人,到点就干事情---养成习惯/老师敲代码的方式思路/思想(敲的某一行代码)--》上午听懂了,作业写不出来 原封不动(对的一模一样)的敲 --》 首先是要有基本功(苦学) --》 创新 一、数据类型基础 为了描述世间万物的状态,因此有了数据类型(python创始人规定) 一、数字类型

判断文本中字符串是否在字典中 判断一个元素是否存在一个集合中

扶醉桌前 提交于 2019-11-28 14:48:39
判断一段文本中是否包含一个字典中的某个词 布隆算法 什么情况下需要布隆过滤器?--避免高内存 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共同的特点: 如何判断一个元素是否存在一个集合中? 常规思路 数组 链表 树、平衡二叉树、Trie Map (红黑树) 哈希表 对于低内存的字典,方法如下: 1 import jieba 2 def check(s): 3 huangfan_path = 'path/to/dict.txt' 4 jieba.load_userdict(huangfan_path) 5 huangfan_words_dict = set() 6 with open(huangfan_path, 'rb') as fr: 7 for line in fr.readlines(): 8 huangfan_words_dict.add(line.strip().decode('utf-8')) 9 return set(jieba.lcut(s)) & self.huangfan_words_dict 来源: https://www.cnblogs.com/cupleo/p/11410564

Wiki语料处理

前提是你 提交于 2019-11-28 11:18:50
最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。 1. 中文维基数据下载 下载dump: https://dumps.wikimedia.org/zhwiki/latest/ ,维基数据主要包含以下几部分 zhwiki-latest-pages-articles.xml.bz2      词条正文 zhwiki-latest-redirect.sql 词条重定向(同义词) zhwiki-latest-pagelinks.sql 词条页面内容外链 zhwiki-latest-page.sql 词条标题及摘要 zhwiki-latest-categorylinks.sql 词条开放分类链接 本文处理的数据是: zhwiki-latest-pages-articles.xml.bz2 2. 数据的抽取 Gensim是一个相当专业的主题模型Python工具包,提供了wiki数据的抽取处理类 WikiCorpus ,能对下载的数据(*articles.xml.bz2)进行抽取处理,得到纯净的文本语料。 class WikiCorpus(TextCorpus): """ Treat a wikipedia articles dump (\*articles.xml.bz2) as a (read

【Python jieba】

梦想的初衷 提交于 2019-11-28 10:24:36
原文: http://blog.gqylpy.com/gqy/356 安装: pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例: import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组: jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果: # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词,力度比较细 s = '人如果没有梦想,那跟咸鱼有什么区别呢?' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后,使用cut_for_search的结果: # ['人', '如果', '没有', '梦想', ',', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '?'] 原文: http://blog.gqylpy.com/gqy/356 来源: https://www.cnblogs

Python中文分词组件 jieba

我与影子孤独终老i 提交于 2019-11-28 05:46:30
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 在线演示 http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) Python 2.x 下的安装 全自动安装:easy_install jieba 或者 pip install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py install 手动安装:将jieba目录放置于当前目录或者site-packages目录 通过import jieba 来引用 (第一次import时需要构建Trie树,需要几秒时间) Python 3.x 下的安装 目前master分支是只支持Python2.x 的 Python3.x 版本的分支也已经基本可用: https://github.com/fxsjy/jieba/tree/jieba3k git clone https://github

jieba分词与HMM学习

好久不见. 提交于 2019-11-28 04:18:29
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的 算法 有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了 动态规划查找最大概率路径 , 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型 ,使用了 Viterbi 算法 功能解析: 主要功能包括:1、分词;2、添加自定义词典:字典的载入与调整;3、关键词抽取:IT-IDF算法、TextRank算法;4、词性标注;5、并行分词;6、ToKenize;7、chineseAnalyzer for Whoosh 搜索引擎;8、命令行分词 1.分词 #主要涉及函数包括有jieba.cut()、jieba.cut_for_search() #jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 #jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 #待分词的字符串可以是