jieba

机器学习经典算法之朴素贝叶斯分类

北城余情 提交于 2020-05-06 01:25:57
很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的。有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解。 /*请尊重作者劳动成果,转载请标明原文链接:*/ /* https://www.cnblogs.com/jpcflyer/p/11069659.html * / 贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。 贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个有钱人。当然这也不是绝对,也就是说,当你不能准确预知一个事物本质的时候,你可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在。 一、 贝叶斯原理 贝叶斯原理是怎么来的呢?贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。 什么是“逆向概率”呢? 所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球

用Python来揭秘吃瓜群众是如何看待罗志祥事件的

六月ゝ 毕业季﹏ 提交于 2020-05-05 16:53:36
前言 最近娱乐圈可以说得上是热闹非凡,前有霸道总裁爱小三,正宫撕逼网红女,后有阳光大男孩罗志祥,被周扬青扒的名声扫地。贵圈的爱情故事,常人是难以理解的,正如贾旭明张康这段相声所说的这样,娱乐圈的爱情总是分分合合,成为老百姓茶余饭后的谈资,城外的人想进去,城里的人真会玩。 各种版本的洗白、谣言遍地乱飞,吃瓜网友们是如何看待的呢? 用数据说话,是数据工作者的意义所在,整个数据分析的过程分为三步: 数据获取 数据预处理 数据可视化及数据分析 以下是具体步骤和代码实现: 数据获取 数据获取地址: 'http: //ent.163.com/20/0423/09/FASTLQ7I00038FO9.html' 在爬取评论数据之前,我们需要按F12对评论数据网页进行分析,可以发现共计172页,offset从0开始,每增加一页offset增加30,可以使用get方法获取。 核心代码: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'} # 评论地址 url= "http://comment.api.163.com/api/v1/products

Python基础库之jieba库的使用(第三方中文词汇函数库)

て烟熏妆下的殇ゞ 提交于 2020-05-05 01:20:31
各位学python的朋友,是否也曾遇到过这样的问题,举个例子如下: “ I am proud of my motherland ” 如果我们需要提取中间的单词要走如何做? 自然是调用string中的split()函数即可 那么将这转换成中文呢,“我为我的祖国感到骄傲”再分词会怎样? 中国词汇并不像是英文文本那样可以通过空格又或是标点符号来区分, 这将会导致比如“骄傲”拆开成“骄”、“傲”,又或者将“为”“我的”组合成“为我的”等等 那如何避免这些问题呢? 这就用到了今天介绍的python基础库——jieba库 一、什么是jieba库? jieba库 是优秀的中文分词第三方库 ,它可以 利用一个中文词库,确定汉字之间的关联概率 , 将汉字间概率大的组成词组,形成分词结果, 将 中文文本通过分词获得单个的词语。 jieba分词的三种模式 :精确模式、全模式、搜索引擎模式 - 精确模式:把文本精确的切分开,不存在冗余单词 - 全模式:把文本中所有可能的词语都扫描出来,有冗余 - 搜索引擎模式:在精确模式基础上,对长词再次切分 二、安装jieba库 安装jieba库还是比较简单的,我介绍几种简单的方法 1.全自动安装 打开cmd命令提示符然后输入代码 easy_install jieba pip install jieba pip3 install jieba

python爬取并分析淘宝商品信息

ⅰ亾dé卋堺 提交于 2020-05-03 16:37:06
python爬取并分析淘宝商品信息 背景介绍 一、模拟登陆 二、爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取 三、简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分析价格分布 5.分析销售地分布 6.词云分析 写在最后 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:“XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计”。于是乎,闲来无事的我,又开始琢磨起这事… 俗话说,实践出真知~ 小的在这给大家安利一套《2020最新企业Pyhon项目实战》视频教程, 点击此处 即可获取,希望大家一起进步哦。 一、模拟登陆 兴致勃勃的我,冲进淘宝就准备一顿乱搜: 在搜索栏里填好关键词:“显卡”,小手轻快敲击着回车键(小样~看我的) 心情愉悦的我等待着返回满满的商品信息,结果苦苦的等待换了的却是 302 ,于是我意外地来到了登陆界面。 情况基本就是这么个情况了… 然后我查了一下,随着淘宝反爬手段的不断加强,很多小伙伴应该已经发现,淘宝搜索功能是需要 用户登陆 的! 关于淘宝模拟登陆,有大大已经利用requests成功模拟登陆(感兴趣的小伙伴请往这边>>> requests登陆淘宝 <<<) 这个方法得先分析淘宝登陆的各种请求,并模拟生成相应的参数,相对来说有一定的难度。于是我决定换一种思路,通过 selenium + 二维码

python通过人脸识别全面分析好友,一起看透你的“朋友圈”

落爺英雄遲暮 提交于 2020-05-02 11:53:16
微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流。 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友的动态,而朋友圈中或虚或实的状态更新,似乎都在证明自己的“有趣”,寻找那份或有或无的存在感。 ​ ​ 有人选择在朋友圈记录生活的点滴,有人选择在朋友圈展示自己的观点。有时我们想去展示自己,有时又想去窥探着别人的生活,而有时又不想别人过多的了解自己的生活,或是屏蔽对方,或是不给对方看朋友圈,又或是不想看对方的朋友圈。 ​ 作者本人也是微信的重度依赖者,每天的工作生活都离不开它,也会关注朋友圈里好友的动态,我个人认为微信朋友圈是一种文化的体现,诸如:发圈、点赞、留言等,都能侧面的反应一个人的生活、工作、心态、爱好、修养、上进心、努力程度等。 今天就跟着我一起来揭秘微信朋友圈,利用 Python+AI人工智能 进行多角度分析,一起看透你的“朋友圈”。 我们将使用Python抓取朋友圈数据,并对获取到的数据进行全面分析,包含好友性别、地理位置分布、个性签名、备注名、好友类型等,逐一进行分析,同时还会使用人脸识别技术对好友头像进行分析,分析到你怀疑人生。。。。。。 整个过程分为四步: 获取数据 处理数据 存储数据 数据可视化 一、获取数据 关于微信好友数据的获取,可以通过itchat库

用Python来揭秘吃瓜群众是如何看待罗志祥事件的

此生再无相见时 提交于 2020-05-01 12:00:18
前言 最近娱乐圈可以说得上是热闹非凡,前有霸道总裁爱小三,正宫撕逼网红女,后有阳光大男孩罗志祥,被周扬青扒的名声扫地。贵圈的爱情故事,常人是难以理解的,正如贾旭明张康这段相声所说的这样,娱乐圈的爱情总是分分合合,成为老百姓茶余饭后的谈资,城外的人想进去,城里的人真会玩。 各种版本的洗白、谣言遍地乱飞,吃瓜网友们是如何看待的呢? 用数据说话,是数据工作者的意义所在,整个数据分析的过程分为三步: 数据获取 数据预处理 数据可视化及数据分析 以下是具体步骤和代码实现: 数据获取 数据获取地址: ' http://ent.163.com/20/0423/09/FASTLQ7I00038FO9.html ' 在爬取评论数据之前,我们需要按F12对评论数据网页进行分析,可以发现共计172页,offset从0开始,每增加一页offset增加30,可以使用get方法获取。 核心代码: headers = { ' user-agent ' : ' Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36 ' } # 评论地址 url= " http://comment.api.163.com/api/v1/products

Python3学习笔记(MOOC)

筅森魡賤 提交于 2020-05-01 03:13:12
文本进度条实例 # !/usr/bin/env python3 import time # for i in range(101): # print ("\r{:3.0f}%".format(i),end="") # time.sleep(0.1) scale = 50 print ( " 执行开始 " .center(scale//2, " - " )) start = time.perf_counter() for i in range(scale+1 ): a = ' * ' * i b = ' - ' * (scale - i) c = (i/scale)*100 time.sleep( 0.1 ) dur = time.perf_counter() - start print ( " \r{:^3.0f}%[{}->{}]{:.2f}s " .format(c,a,b,dur),end= "" ) print ( "" ) print ( " 执行结束 " .center(scale//2, " - " )) BMI指数计算(if条件) # !/usr/bin/env python3 def BMI(): height,weight = eval(input( " 请输入身高(米)和体重(公斤)[逗号隔开]: " )) bmi = weight / pow(height

Python爬虫告诉你:拿下60亿流量的《惊雷》都是哪些人在听?

梦想与她 提交于 2020-04-30 17:20:06
CDA数据分析师 出品 惊雷/通天修为/天塌地陷紫金锤 紫电/玄真火焰/九天玄剑惊天变 这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐。 最近,一首《惊雷》的喊麦歌曲在短视频平台火了,震惊了整个音乐圈。 但4月10日歌手杨坤却在直播中批评《惊雷》“要歌没歌,要旋律没旋律,要节奏没节奏,要律动没律动”,评价其“难听”、“俗气”。 4月11日,MC六道以原唱者的身份对杨坤的指责做出回应表示,音乐没有高低之分,称《惊雷》现在比杨坤的任何一首歌都火。一时间更是把《惊雷》推上了风口浪尖。 那么《惊雷》这首歌到底怎么样?都是哪些人在听?今天我们就用Python来给你解读。 01 拿下60亿流量 喊麦歌曲《惊雷》火了! 说道喊麦,作为近年来一种新兴的表演形式,其内容和表达方式则比较简单和浮夸,主要形式是在网上下载一些伴奏(以电音伴奏为主),跟着伴奏以简单的节奏和朗朗上口的押韵手法进行的语言表演。 更简单的说法就是,演唱时不讲究什么技法,带着伴奏对着麦喊就完事。比如之前爆火的《一人我饮酒醉》就是很具代表性的喊麦歌曲。 而喊麦歌曲也因为一味堆积看似没有关联的词,闹腾的电音,简单粗暴的唱法等,让大家各种吐槽。而在“全民抵制”喊麦的背景下,《惊雷》却火了。 从今年3月起,以《惊雷》为BGM的短视频在各大平台上迅速走红。截止到4月24日,在抖音的#惊雷#的标签页下显示共有23w个视频作品使用,产生64

NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要)

╄→гoц情女王★ 提交于 2020-04-29 23:38:09
一 安装与介绍 1.1 概述 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了 TextBlob 的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。 1.2 特点 <div align=center> <img src="https://img2018.cnblogs.com/blog/1173617/201905/1173617-20190505151012809-670304442.png"> </div> ``` python # s as SnowNLP(text) 1) s.words 词语 2) s.sentences 句子/分句 3) s.sentiments 情感偏向,0-1之间的浮点数,越靠近1越积极(正面) 4) s.pinyin 转为拼音 5) s.han 转为简体 6) s.keywords(n) 提取关键字,n默认为5 7) s.summary(n) 提取摘要,n默认为5 8) s.tf 计算term frequency词频 9) s.idf 计算inverse document

Python爬虫,看看我最近博客都写了啥,带你制作高逼格的数据聚合云图

情到浓时终转凉″ 提交于 2020-04-29 20:48:08
今天一时兴起,想用python爬爬自己的博客,通过数据聚合,制作高逼格的云图(对词汇出现频率视觉上的展示),看看最近我到底写了啥文章。 1.1 爬取文章的标题的聚合 1.2 爬取文章的摘要的聚合 1.3 爬取文章的标题+摘要的聚合 我最近写了SpringCloud系列教程,还有一些微服务架构方面,从云图上看,基本吻合。你若不信, 新航道雅思班 可以进我的博客看看,数据还是非常准确的 开发工具: pycharm 爬虫技术:bs64、requsts、jieba 分析工具:wordArt 整个爬虫架构非常简单: 爬取我的博客:http://blog.csdn.net/forezp 获取数据 将数据用“结巴”库,分词。 将得到的数据在在artword上制作云图。 将制作出来的云图展示给用户。 先根据博客地址爬去数据: 解析标题 解析摘要: 用“结巴”分词,"激8"分词怎么用,看这里:https://github.com/fxsjy/jieba/ 因为数据比较少,所以我直接打印在控制台,并把它复制下来,更好的方法是存在mongodb中。 制作云图: 用 artword在线工具,地址:https://wordart.com 首先: 导入从控制台复制过来的数据: 令人尴尬的是,这个网站在绘制图的时候不支持中文,需要你从c:/windows/fonts下选择一个支持中文的字体,mac