jieba | 易学教程

【Python jieba】

阅读更多关于【Python jieba】

原文: http://blog.gqylpy.com/gqy/356 安装： pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例： import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组： jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果： # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词，力度比较细 s = '人如果没有梦想，那跟咸鱼有什么区别呢？' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后，使用cut_for_search的结果： # ['人', '如果', '没有', '梦想', '，', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '？'] 原文: http://blog.gqylpy.com/gqy/356 来源： https://www.cnblogs

day04

阅读更多关于 day04

目录一.数据类型（对数据进行分类） a.整型(int) b.浮点型（float） c.字符串（string) d.列表类型（list） e.字典（dict） f.补充二.jieba模块三.构建词云图代码一.数据类型（对数据进行分类） a.整型(int) 作用（身份证/电话号码/各种级别）定义方式 a=10 b=int(18) age=18 print ("age",type(age)) 使用方法（+-*/%//） a=3 b=3 print (a+b)#加法 print (a-b)#减法 print (a*b)#乘法 print (a/b)#除法 print (a%b)#取余 print (a//b)#取整 print (a>b)#判断大小 print (a<b)#判断大小 b.浮点型（float）作用(工资/体重/身高) 定义方式 salary=2.3 print (salary,type(salary),id(salary)) 使用方法加减乘除逻辑判断 c.字符串（string) 作用（名字/性别）定义方式 name='liuyouqiang' name="liuyouqiang" name=``` liuyouqiang, liuyouqiang1, liuyouqiang2 ``` 使用方法 name[0:6] name[0:7:2] name

jieba分词/jieba-analysis（java版）

阅读更多关于 jieba分词/jieba-analysis（java版）

简介支持分词模式 Search模式，用于对用户查询词分词 Index模式，用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能 conf 目录有整理的搜狗细胞词库因为性能原因，最新的快照版本去除词性标注，也希望有更好的 Pull Request 可以提供该功能。简单使用获取jieba-analysis <dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version> </dependency> 案例 @Test public void testDemo() { JiebaSegmenter segmenter = new JiebaSegmenter(); String[] sentences = new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。", "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"}; for (String sentence : sentences) { System.out.println(segmenter

day04整理

阅读更多关于 day04整理

内容回顾变量什么是变量描述世间万物的状态变量的组成变量名（描述意义；接受变量）赋值符号（=）变量值（具体的值）变量名的命名规范具有实际的某种意义由字母/数字/下划线组成，不能以数字开头不能用关键字命名注释单行注释后面的字符失效解释某一行代码 pycharm中快捷键：ctrl + / 多行注释 '''多行注释''' turtle库的使用 pencolor 画笔颜色 pensize 画笔大小 penmode 画笔颜色控制 goto 到达某一点 seth 绝对方向 left 相对向左 right 相对向右 fd 前进 bk 后退 circle 画圆 pu 抬起画笔 pd 落下画笔 fillcolor 填充颜色 begin_fill 开始填充 end_结束填充 30-60分钟耍不来跳过（或者参看答案，）安排下午的时间： 14：20起来-14：30洗把脸（无论困不困都去做，养成习惯） 14：30-16：00 复习上午的内容，没复习完不继续（），复习完了-休息，时间过多，可机器人，到点就干事情---养成习惯/老师敲代码的方式思路/思想（敲的某一行代码）--》上午听懂了，作业写不出来原封不动（对的一模一样）的敲 --》首先是要有基本功（苦学） --》创新一、数据类型基础为了描述世间万物的状态，因此有了数据类型（python创始人规定）一、数字类型

判断文本中字符串是否在字典中判断一个元素是否存在一个集合中

阅读更多关于判断文本中字符串是否在字典中判断一个元素是否存在一个集合中

判断一段文本中是否包含一个字典中的某个词布隆算法什么情况下需要布隆过滤器？--避免高内存先来看几个比较常见的例子字处理软件中，需要检查一个英语单词是否拼写正确在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上在网络爬虫里，一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能这几个例子有一个共同的特点：如何判断一个元素是否存在一个集合中？常规思路数组链表树、平衡二叉树、Trie Map (红黑树) 哈希表对于低内存的字典，方法如下： 1 import jieba 2 def check(s): 3 huangfan_path = 'path/to/dict.txt' 4 jieba.load_userdict(huangfan_path) 5 huangfan_words_dict = set() 6 with open(huangfan_path, 'rb') as fr: 7 for line in fr.readlines(): 8 huangfan_words_dict.add(line.strip().decode('utf-8')) 9 return set(jieba.lcut(s)) & self.huangfan_words_dict 来源： https://www.cnblogs.com/cupleo/p/11410564

Day10---Python的jieba库

阅读更多关于 Day10---Python的jieba库

jieba库:中文分词第三方库 jieba.lcut(s) jieba.lcut(s,cut_all=true) jieba.lcut_for_search(s) 来源： https://www.cnblogs.com/love-coding/p/11409534.html

Wiki语料处理

阅读更多关于 Wiki语料处理

最近在做知识图谱相关工作，源数据主要来自百度百科，互动百科，中文维基百科等。其中中文维基百科提供数据库下载，下文主要讨论如何处理Wiki数据。 1. 中文维基数据下载下载dump： https://dumps.wikimedia.org/zhwiki/latest/ ，维基数据主要包含以下几部分 zhwiki-latest-pages-articles.xml.bz2 　　　　词条正文 zhwiki-latest-redirect.sql 词条重定向（同义词） zhwiki-latest-pagelinks.sql 词条页面内容外链 zhwiki-latest-page.sql 词条标题及摘要 zhwiki-latest-categorylinks.sql 词条开放分类链接本文处理的数据是： zhwiki-latest-pages-articles.xml.bz2 2. 数据的抽取 Gensim是一个相当专业的主题模型Python工具包，提供了wiki数据的抽取处理类 WikiCorpus ，能对下载的数据（*articles.xml.bz2）进行抽取处理，得到纯净的文本语料。 class WikiCorpus(TextCorpus): """ Treat a wikipedia articles dump (\*articles.xml.bz2) as a (read

【Python jieba】

阅读更多关于【Python jieba】

Python中文分词组件 jieba

阅读更多关于 Python中文分词组件 jieba

jieba "结巴"中文分词：做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典在线演示 http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) Python 2.x 下的安装全自动安装：easy_install jieba 或者 pip install jieba 半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行python setup.py install 手动安装：将jieba目录放置于当前目录或者site-packages目录通过import jieba 来引用（第一次import时需要构建Trie树，需要几秒时间） Python 3.x 下的安装目前master分支是只支持Python2.x 的 Python3.x 版本的分支也已经基本可用： https://github.com/fxsjy/jieba/tree/jieba3k git clone https://github

jieba分词与HMM学习

阅读更多关于 jieba分词与HMM学习

问题1：jieba中文分词的原理？问题2：HMM在jieba中的应用？问题3：HMM在其他行业内有何应用？首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有：基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径 , 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法功能解析：主要功能包括：1、分词；2、添加自定义词典：字典的载入与调整；3、关键词抽取：IT-IDF算法、TextRank算法；4、词性标注；5、并行分词；6、ToKenize；7、chineseAnalyzer for Whoosh 搜索引擎；8、命令行分词 1.分词 #主要涉及函数包括有jieba.cut()、jieba.cut_for_search() #jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 #jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细 #待分词的字符串可以是

订阅 jieba