jieba

机器学习与数据挖掘之旅

↘锁芯ラ 提交于 2020-12-04 03:08:20
NLP java版JieBa分词源码走读 HMM(隐马尔科夫模型)与维特比算法 模式识别 模式识别中的Apriori算法和FPGrowth算法 文本获取与搜索引擎 文本获取和搜索引擎简介 文本获取与搜索引擎中的TF,TF-IDF 文本获取和搜索引擎如何评估一个算法是否有效 文本获取和搜索引擎的概率模型 文本获取和搜索引擎中的反馈模型 文本获取和搜索引擎之推荐系统 来源: oschina 链接: https://my.oschina.net/u/3946590/blog/2995671

jieba分词的简单上手教程

喜你入骨 提交于 2020-11-25 11:20:30
简介 jiaba分词是目前最好的Python中文分词组件。支持3种分词模式:精确模式、全模式、搜索引擎模式。 jieba的安装 在Pycharm中, File -> Setting -> Project interpreter -> Add 。搜索 jieba 关键字,点击安装即可。前提是已经配置好了好用的软件源。 三种模式的简单示例 # -*- coding: utf-8 -*- import jieba seg_str = "好好学习,天天向上。" print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果 print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定 print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式 分词效果如下: Building prefix dict from the default dictionary ... Loading model from cache C:\Users\j00347382\AppData\Local\Temp\jieba.cache 好好学习/,/天天向上/。 好好/好好学/好好学习/好学/学习/,/天天/天天向上/向上

2020-11-19

青春壹個敷衍的年華 提交于 2020-11-21 11:12:24
## python-Wordcloud,wrapt安装教程 首先打开jupyter点击new,然后点击Terminal 点开之后会出现这个界面 然后输入python查看你的python版本,如 知道版本后打开这个网址 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 找到相应的Wordcloud和Wrapt文件下载 下载完之后找到文档所在位置,右键单击,打开属性 在重新打开jupyter页面,输入pip install +Wordcloud位置+文件名 enter后会出现 同样的操作输入pip install +wrapt文件位置+文件名,然后enter 接着输入ipython 然后 接着输入pip install numpy 再输入pip install matplotlib 最后输入pip install jieba(不行就输入pip3 install jieba),然后就会进入一个下载页面(我的已经下载过所以没显示) 到这里所有过程就完成了(若还是不行,私聊!) 来源: oschina 链接: https://my.oschina.net/u/4303238/blog/4731961

机器学习实战-朴素贝叶斯垃圾邮件分类

佐手、 提交于 2020-11-15 04:58:36
朴素贝叶斯 概念 对朴素贝叶斯的概念存在疑惑的,可以依此理解条件概率,全概率公式和贝叶斯公式。 附链接帮助理解: 链接1 https://blog.csdn.net/Hearthougan/article/details/75174210 链接2 https://www.cnblogs.com/hellcat/p/7195843.html 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。 实战 此实例为"朴素贝叶斯实现垃圾邮件分类"。 数据集样例: Data->normal文件夹下数据样例: 200.txt: Return-Path: <cai@tsinghua.edu.cn> Received: from mail.tsinghua.edu.cn (mail.tsinghua.edu.cn [166.111.8.18]) by home.ccert.edu.cn (8.13.1/8.13.1) with SMTP id i9S1aCPt007420 for <jiang@ccert.edu.cn>; Thu, 28 Oct 2004 09:36:12 +0800 Received: (eyou send

keras 文本分类 LSTM

随声附和 提交于 2020-11-13 06:27:35
首先,对需要导入的库进行导入,读入数据后,用jieba来进行中文分词 # encoding: utf-8 #载入接下来分析用的库 import pandas as pd import numpy as np import xgboost as xgb from tqdm import tqdm from sklearn.svm import SVC from keras.models import Sequential from keras.layers.recurrent import LSTM, GRU from keras.layers.core import Dense, Activation, Dropout from keras.layers.embeddings import Embedding from keras.layers.normalization import BatchNormalization from keras.utils import np_utils from sklearn import preprocessing, decomposition, model_selection, metrics, pipeline from sklearn.model_selection import GridSearchCV from sklearn

[python基础] python生成wordcloud并保存

纵然是瞬间 提交于 2020-11-07 12:58:56
1.核心包 #jieba、pandas用来处理数据,数据源以xls格式存储的,这里用pandas进行处理 import jieba from jieba import analyse import pandas as pd #scipy、wordcloud创建词云 from scipy.misc import imread from wordcloud import WordCloud from wordcloud import ImageColorGenerator #matpoltlib展示、保存生成的词云图 import matplotlib.pyplot as plt 2.过程 import jieba from jieba import analyse import pandas as pd import sys reload(sys) sys.setdefaultencoding( ' utf-8 ' ) # 1.stopwords def stop_words(): stop_dict = set() with open(u ' ./百度停用词列表.txt ' , ' r ' )as f: words = f.readlines() for word in words: stop_dict.add(word.strip().decode( ' utf-8 ' ))

手把手教你使用Python抓取QQ音乐数据(第三弹)

本小妞迷上赌 提交于 2020-10-30 08:03:59
点击上方“ IT共享之家 ”,进行关注 回复“ 资料 ”可获赠Python学习福利 【一、项目目标】 通过 手把手教你使用Python抓取QQ音乐数据(第一弹) 我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。 通过 手把手教你使用Python抓取QQ音乐数据(第二弹) 我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。 此次我们在项目(二)的基础上获取更多评论并生成词云图,形成手把手教你使用Python抓取QQ音乐数据(第三弹)。 【二、需要的库】 主要 涉及的库有:requests、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow) 【三、项目实现】 1.首先回顾一下,下面是项目(二)获取指定歌曲首页热评的代码; def get_comment ( i ): url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' headers = { 'user-agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari

手把手教你使用Python抓取QQ音乐数据(第三弹)

别等时光非礼了梦想. 提交于 2020-10-25 04:03:23
【一、项目目标】 通过 手把手教你使用Python抓取QQ音乐数据(第一弹) 我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。 通过 手把手教你使用Python抓取QQ音乐数据(第二弹) 我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。 此次我们在项目(二)的基础上获取更多评论并生成词云图,形成手把手教你使用Python抓取QQ音乐数据(第三弹)。 【二、需要的库】 主要涉及的库有:requests、json、wordcloud、jieba 如需更换词云图背景图片还需要numpy库和PIL库(pipinstall pillow) 【三、项目实现】 1.首先回顾一下,下面是项目(二)获取指定歌曲首页热评的代码; def get_comment(i): url_3 = ' https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg ' headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', /# 标记了请求从什么设备,什么浏览器上发出 } params = {'g

【转】PostgreSQL 文本数据分析实践之

吃可爱长大的小学妹 提交于 2020-10-14 05:38:45
背景 在日常的生活中,我们可能会经常需要一些像相近、相仿、距离接近、性格接近等等类似这样的需求,对数据进行筛选。 这些需求PostgreSQL居然都支持,是不是很变态。 变态的例子 这些场景都支持索引排序和检索,否则怎么叫变态呢。 按长相相似度排序 比如最近的王宝强和马蓉的事件,估计很多人会拿宋喆的照片进行相似度的搜索,八卦八卦。 说起图像搜索,我前几天才写了一篇这样的文章,是关于在PG数据库中使用图像搜索插件的文章。 《弱水三千,只取一瓢,当图像搜索遇见PostgreSQL(Haar wavelet)》 https://yq.aliyun.com/articles/58246 按喜好重合度排序 比如收集了人群的各种喜好的数据,按喜好进行聚类,或者按喜好的重叠度进行排序,找出目标人群。 按年龄相近程度排序 这个相对简单,比如输入23岁,按接近23岁的输出即可。 例子 https://www.postgresql.org/docs/9.5/static/btree-gist.html 输出与100最接近的10条数据。 postgres= # create extension btree_gist; CREATE EXTENSION postgres =# create table test12( id int ); CREATE TABLE postgres =# insert

Python爬虫爬取哈利波特小说,并用数据可视化分析出场人物

谁说我不能喝 提交于 2020-10-12 05:01:52
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式: 精确模式:默认情况下是精确模式,精确地分词,适合文本分析; 全模式:把所有能成词的词语都分出来, 但是词语会存在歧义; 搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。 jieba 包常用的语句: 精确模式分词:jieba.cut(text,cut_all = False),当cut_all = True时为全模式 自定义词典:jieba.load_userdict(file_name) 增加词语:jieba.add_word(seg,freq,flag) 删除词语:jieba.del_word(seg) 《哈利·波特》是英国作家J·K·罗琳的奇幻文学系列小说,描写主角哈利·波特在霍格沃茨魔法学校7年学习生活中的冒险故事。下面将以《哈利波特》错综复杂的人物关系为例,实践一下jieba包。 #加载所需包 import numpy as np import pandas as pd import jieba,codecs import jieba.posseg as pseg #标注词性模块 from pyecharts import Bar,WordCloud