jieba

word2vec 构建中文词向量

若如初见. 提交于 2019-11-27 19:47:23
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz 二、数据预处理 2.1 解压并查看原始数据 cd 到原始文件目录下,执行解压命令: tar -zvxf news_sohusite_xml.full. tar .gz 得到文件 news_sohusite_xml.dat, 用vim打开该文件, vim news_sohusite_xml.dat 得到如下结果: 2.2 取出内容 取出<content> </content> 中的内容,执行如下命令: cat news_tensite_xml.dat | iconv -f gbk -t utf- 8 -c | grep " <content> " > corpus.txt 得到文件名为corpus.txt的文件,可以通过vim 打开 vim corpus.txt 得到如下效果: 2.3 分词 注意

【Python jieba】

戏子无情 提交于 2019-11-27 19:04:25
原文: http://blog.gqylpy.com/gqy/356 "安装: pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例: import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组: jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果: # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词,力度比较细 s = '人如果没有梦想,那跟咸鱼有什么区别呢?' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后,使用cut_for_search的结果: # ['人', '如果', '没有', '梦想', ',', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '?'] " 原文: http://blog.gqylpy.com/gqy/356 来源: https://www

自然语言处理工具python调用hanlp中文实体识别

。_饼干妹妹 提交于 2019-11-27 18:13:45
Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。 想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境 1.安装jpype1,在cmd窗口输入 pip install jpype1 2.下载hanlp的安装包 在https://github.com/hankcs/HanLP/releases (1)下载新的 hanlp-1.7.1-release.zip文件,里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties (2)点击data-for-1.7.1.zip下载。(底下第8条) 注:如果你在http://hanlp.linrunsoft.com/services.html点击下载hanlp.jar,下载下来的是hanlp-1.2.8.jar。之后在使用过程中可能会出现“字符类型对应表加载失败”的错误,查看相应路径下也没有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本过低,使用新版本应该不会出现这个问题。 3.新建一个文件夹Hanlp,放文件hanlp-1.7.1

用python写一个简单的中文搜索引擎

不想你离开。 提交于 2019-11-27 16:31:40
搜索引擎可以用Nutch等工具来配置,也可以自己写代码实现,作为一个小练习。 要做的搜索引擎搜索范围限定在某个新闻网站内部,和百度site:(指定网址)的功能类似。把爬虫和解析的代码改改,也可以用于其他的搜索场合。 使用的编程语言为python。 这篇文章把搜索引擎需要的步骤都讲的很清楚了: http://073palmer.blogspot.com/2012/06/python.html 打不开的朋友可以看这个: http://blog.sina.com.cn/s/blog_6f97247e0102vuyo.html (转载来转载去,也不知道到底哪个才是原作者链接) 不过这篇文章里的搜索引擎是基于英文单词的,而我写的主要是中文文本。 首先放个github链接。 https://github.com/RyinSummers/AVerySimpleSearchEngine 总的来说,要达成目标,一共有如下几个步骤: 爬取这个网站,得到所有网页链接。 得到网页的源代码,解析剥离出想要的内容。 把内容做成词条索引,保存起来。我使用的是最简陋的倒排表。 搜索时,根据搜索词在词条索引里查询,按顺序返回相关的搜索结果。我使用的评价方式是最简陋的tfidf,而且tfidf值并非在建表时保存,而是在每次查询时再计算。 步骤3和4使用的方式性能有待提升,不过,因为要爬的这个网站网页数量不过万

关于python pip安装第三方库 jieba 中文分词工具后提示\"ImportError: cannot import name 'Random'\"报错问题

落爺英雄遲暮 提交于 2019-11-27 04:44:15
具体错误提示如下: >>> import jieba Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Users\王益夫\AppData\Local\Programs\Python\Python36-32\lib\site-packages\jieba\__init__.py", line 11, in <module> import tempfile File "C:\Users\王益夫\AppData\Local\Programs\Python\Python36-32\lib\tempfile.py", line 45, in <module> from random import Random as _Random ImportError: cannot import name 'Random' 后来发现,当我切换至C盘的python安装目录时,能够正常import jieba库,但是在我的个人的目录里面就会报错,所以怀疑是否存在同名文件导致报错。 结果发现:果然存在一个random的文件,导致文件名冲突. 由此可见,python引用第三方库的时候,是先从你的当前目录查找对应的库文件,然后再去python的地址查找. 将对应的random.py文件修改成其他名字之后

【Python jieba】

我们两清 提交于 2019-11-27 02:49:54
原文: http://106.13.73.98/__/131/ 安装: pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例: import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组: jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果: # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词,力度比较细 s = '人如果没有梦想,那跟咸鱼有什么区别呢?' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后,使用cut_for_search的结果: # ['人', '如果', '没有', '梦想', ',', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '?'] 原文: http://106.13.73.98/__/131/ 来源: https://www.cnblogs.com

jieba分词(标注词性)

余生颓废 提交于 2019-11-27 00:44:22
本人初学python代码不够规范 望见谅 本段代码可以完成对文本信息的分词(标注词性)、去停用词、以及存储到本地TXT文件中 1 # coding:utf-8 2 import re 3 import json 4 import jieba.posseg as pseg 5 import string 6 import datetime 7 import zhon.hanzi 8 import get_comment.SQL 9 10 # 要清洗掉的中文标点 11 ignoring_words = list(zhon.hanzi.punctuation)+list(string.punctuation) 12 # 数据库表中没有存储评论的表名称 13 ignoring_table = ['phone_info', 'phone_url', 'error_table'] 14 15 16 # 将分词后的数据储存到本地 17 def text_save(content, filename, mode='a'): 18 file = open(filename, mode) 19 file.write(str(content)) # 存储为str格式 20 # 此处为存储为json格式 21 # js = json.dumps(content) 22 # file.write(js)

【Python jieba】 -- 2019-08-11 18:43:19

戏子无情 提交于 2019-11-27 00:05:51
原文: http://106.13.73.98/__/131/ 安装: pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例: import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组: jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果: # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词,力度比较细 s = '人如果没有梦想,那跟咸鱼有什么区别呢?' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后,使用cut_for_search的结果: # ['人', '如果', '没有', '梦想', ',', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '?'] 原文: http://106.13.73.98/__/131/ 来源: https://www.cnblogs.com

中文分词工具——jieba

删除回忆录丶 提交于 2019-11-26 23:40:27
汉字是智慧和想象力的宝库。 ——索尼公司创始人井深大 简介 在英语中,单词就是“词”的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定。例如:南京市长江大桥,可以分词为:“南京市/长江/大桥”和“南京市长/江大桥”,这个是人为判断的,机器很难界定。在此介绍中文分词工具jieba,其特点为: 社区活跃、目前github上有19670的star数目 功能丰富,支持关键词提取、词性标注等 多语言支持(Python、C++、Go、R等) 使用简单 Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列,例如词典中出现了“买”,之后以“买”开头的词都会出现在这一部分,例如“买水”,进而“买水果”,从而形成一种层级包含结构。若将词看成节点,词与词之间的分词符看成边,则一种分词方案对应着从第一个字到最后一个字的一条分词路径,形成全部可能分词结果的有向无环图。 jieba安装 安装很简单,先创建一个python3.6的虚拟环境,再激活环境,最后安装命令如下: conda create -n nlp_py3 python=3.6 source activate nlp_py3 pip install jieba jieba的三种分词模式

python 安装第三方包

大兔子大兔子 提交于 2019-11-26 16:18:09
python环境是Anaconda3安装的,由于项目需要用到git的第三方包,但是在conda自带的环境中没有。 例如使用jieba分词库。 安装三种三方式 代码对 Python 2/3 均兼容 * 全自动安装:`easy_install jieba` 或者 `pip install jieba` / `pip3 install jieba` * 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 `python setup.py install` * 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 * 通过 `import jieba` 来引用 我使用了第二种方法。   首先上githup下载jieba分词库   然后加压到任意目录   打开cmd命令行窗口并切换到jieba目录下   运行python setup.py install完成安装   在项目中使用import jieba使用jieba分词库 来源: https://www.cnblogs.com/wqbin/p/11326330.html