jieba | 易学教程

word2vec 构建中文词向量

阅读更多关于 word2vec 构建中文词向量

词向量作为文本的基本结构——词的模型，以其优越的性能，受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起，这对后续的文本分类，文本聚类等等操作提供了便利，本文将详细介绍如何使用word2vec构建中文词向量。一、中文语料库本文采用的是搜狗实验室的搜狗新闻语料库，数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为： news_sohusite_xml.full.tar.gz 二、数据预处理 2.1 解压并查看原始数据 cd 到原始文件目录下，执行解压命令： tar -zvxf news_sohusite_xml.full. tar .gz 得到文件 news_sohusite_xml.dat, 用vim打开该文件， vim news_sohusite_xml.dat 得到如下结果： 2.2 取出内容取出<content> </content> 中的内容,执行如下命令： cat news_tensite_xml.dat | iconv -f gbk -t utf- 8 -c | grep " <content> " > corpus.txt 得到文件名为corpus.txt的文件，可以通过vim 打开 vim corpus.txt 得到如下效果： 2.3 分词注意

【Python jieba】

阅读更多关于【Python jieba】

原文: http://blog.gqylpy.com/gqy/356 "安装： pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例： import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组： jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果： # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词，力度比较细 s = '人如果没有梦想，那跟咸鱼有什么区别呢？' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后，使用cut_for_search的结果： # ['人', '如果', '没有', '梦想', '，', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '？'] " 原文: http://blog.gqylpy.com/gqy/356 来源： https://www

自然语言处理工具python调用hanlp中文实体识别

阅读更多关于自然语言处理工具python调用hanlp中文实体识别

Hanlp作为一款重要的中文分词工具，在GitHub的用户量已经非常之高，应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。想要在python中调用hanlp进行中文实体识别，Ubuntu 16.04的系统环境 1.安装jpype1，在cmd窗口输入 pip install jpype1 2.下载hanlp的安装包在https://github.com/hankcs/HanLP/releases （1）下载新的 hanlp-1.7.1-release.zip文件，里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties （2）点击data-for-1.7.1.zip下载。（底下第8条）注：如果你在http://hanlp.linrunsoft.com/services.html点击下载hanlp.jar，下载下来的是hanlp-1.2.8.jar。之后在使用过程中可能会出现“字符类型对应表加载失败”的错误，查看相应路径下也没有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本过低，使用新版本应该不会出现这个问题。 3.新建一个文件夹Hanlp，放文件hanlp-1.7.1

用python写一个简单的中文搜索引擎

阅读更多关于用python写一个简单的中文搜索引擎

搜索引擎可以用Nutch等工具来配置，也可以自己写代码实现，作为一个小练习。要做的搜索引擎搜索范围限定在某个新闻网站内部，和百度site:(指定网址)的功能类似。把爬虫和解析的代码改改，也可以用于其他的搜索场合。使用的编程语言为python。这篇文章把搜索引擎需要的步骤都讲的很清楚了： http://073palmer.blogspot.com/2012/06/python.html 打不开的朋友可以看这个： http://blog.sina.com.cn/s/blog_6f97247e0102vuyo.html （转载来转载去，也不知道到底哪个才是原作者链接）不过这篇文章里的搜索引擎是基于英文单词的，而我写的主要是中文文本。首先放个github链接。 https://github.com/RyinSummers/AVerySimpleSearchEngine 总的来说，要达成目标，一共有如下几个步骤：爬取这个网站，得到所有网页链接。得到网页的源代码，解析剥离出想要的内容。把内容做成词条索引，保存起来。我使用的是最简陋的倒排表。搜索时，根据搜索词在词条索引里查询，按顺序返回相关的搜索结果。我使用的评价方式是最简陋的tfidf，而且tfidf值并非在建表时保存，而是在每次查询时再计算。步骤3和4使用的方式性能有待提升，不过，因为要爬的这个网站网页数量不过万

关于python pip安装第三方库 jieba 中文分词工具后提示\"ImportError: cannot import name 'Random'\"报错问题

阅读更多关于关于python pip安装第三方库 jieba 中文分词工具后提示\"ImportError: cannot import name 'Random'\"报错问题

具体错误提示如下： >>> import jieba Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Users\王益夫\AppData\Local\Programs\Python\Python36-32\lib\site-packages\jieba\__init__.py", line 11, in <module> import tempfile File "C:\Users\王益夫\AppData\Local\Programs\Python\Python36-32\lib\tempfile.py", line 45, in <module> from random import Random as _Random ImportError: cannot import name 'Random' 后来发现，当我切换至C盘的python安装目录时，能够正常import jieba库，但是在我的个人的目录里面就会报错，所以怀疑是否存在同名文件导致报错。结果发现：果然存在一个random的文件,导致文件名冲突. 由此可见,python引用第三方库的时候,是先从你的当前目录查找对应的库文件,然后再去python的地址查找. 将对应的random.py文件修改成其他名字之后

【Python jieba】

阅读更多关于【Python jieba】

原文: http://106.13.73.98/__/131/ 安装： pip install jieba jieba 模块用于将一句或多句话按词组分割为列表. 如下示例： import jieba """cut""" s = '我就喜欢写代码' res01 = list(jieba.cut(s)) # ['我', '就', '喜欢', '写', '代码'] # 还可以添加词组： jieba.add_word('写代码') res02 = list(jieba.cut(s)) # 添加词组后的结果： # ['我', '就', '喜欢', '写代码'] """cut_for_search""" # cut_for_search方法适用于搜索引擎构建倒排索引的分词，力度比较细 s = '人如果没有梦想，那跟咸鱼有什么区别呢？' # 添加词组 jieba.add_word('有什么') res03 = list(jieba.cut_for_search(s)) # 添加词组后，使用cut_for_search的结果： # ['人', '如果', '没有', '梦想', '，', '那', '跟', '咸鱼', '什么', '有什么', '区别', '呢', '？'] 原文: http://106.13.73.98/__/131/ 来源： https://www.cnblogs.com

jieba分词（标注词性）

阅读更多关于 jieba分词（标注词性）

本人初学python代码不够规范望见谅本段代码可以完成对文本信息的分词（标注词性）、去停用词、以及存储到本地TXT文件中 1 # coding:utf-8 2 import re 3 import json 4 import jieba.posseg as pseg 5 import string 6 import datetime 7 import zhon.hanzi 8 import get_comment.SQL 9 10 # 要清洗掉的中文标点 11 ignoring_words = list(zhon.hanzi.punctuation)+list(string.punctuation) 12 # 数据库表中没有存储评论的表名称 13 ignoring_table = ['phone_info', 'phone_url', 'error_table'] 14 15 16 # 将分词后的数据储存到本地 17 def text_save(content, filename, mode='a'): 18 file = open(filename, mode) 19 file.write(str(content)) # 存储为str格式 20 # 此处为存储为json格式 21 # js = json.dumps(content) 22 # file.write(js)

【Python jieba】 -- 2019-08-11 18:43:19

阅读更多关于【Python jieba】 -- 2019-08-11 18:43:19

中文分词工具——jieba

阅读更多关于中文分词工具——jieba

汉字是智慧和想象力的宝库。 ——索尼公司创始人井深大简介在英语中，单词就是“词”的表达，一个句子是由空格来分隔的，而在汉语中，词以字为基本单位，但是一篇文章的表达是以词来划分的，汉语句子对词构成边界方面很难界定。例如：南京市长江大桥，可以分词为：“南京市/长江/大桥”和“南京市长/江大桥”，这个是人为判断的，机器很难界定。在此介绍中文分词工具jieba，其特点为：社区活跃、目前github上有19670的star数目功能丰富，支持关键词提取、词性标注等多语言支持（Python、C++、Go、R等）使用简单 Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描，前缀词典是指词典中的词按照前缀包含的顺序排列，例如词典中出现了“买”，之后以“买”开头的词都会出现在这一部分，例如“买水”，进而“买水果”，从而形成一种层级包含结构。若将词看成节点，词与词之间的分词符看成边，则一种分词方案对应着从第一个字到最后一个字的一条分词路径，形成全部可能分词结果的有向无环图。 jieba安装安装很简单，先创建一个python3.6的虚拟环境，再激活环境，最后安装命令如下： conda create -n nlp_py3 python=3.6 source activate nlp_py3 pip install jieba jieba的三种分词模式

python 安装第三方包

阅读更多关于 python 安装第三方包

python环境是Anaconda3安装的，由于项目需要用到git的第三方包，但是在conda自带的环境中没有。例如使用jieba分词库。安装三种三方式代码对 Python 2/3 均兼容 * 全自动安装：`easy_install jieba` 或者 `pip install jieba` / `pip3 install jieba` * 半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 `python setup.py install` * 手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录 * 通过 `import jieba` 来引用我使用了第二种方法。　　首先上githup下载jieba分词库　　然后加压到任意目录　　打开cmd命令行窗口并切换到jieba目录下　　运行python setup.py install完成安装　　在项目中使用import jieba使用jieba分词库来源： https://www.cnblogs.com/wqbin/p/11326330.html

订阅 jieba