jieba

python爬虫实例,一小时上手爬取淘宝评论(附代码)

你。 提交于 2020-04-24 00:39:22
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据。可以作为设计前期的市场调研的数据,帮助很大。 2 爬取评论并储存 (首先要进行登录,获取cookie)搜索你想收集的信息的评价,然后点开对应的产品图片。找到对应的评价的位置。 找到对应的位置之后就可以进行数据的爬取了,但是在爬取的过程中发现始终无法获取对应的数据。判断可能是因为没有添加cookie导致的,但是在添加了cookie之后发现依旧无法解决问题。 最后,发现应该是显示的数据是通过json解析之后显示在网页上的,因此需要多一些步骤来获取真正的爬取链接。 首先在network中,清除掉以往的数据信息,然后将页面进行刷新,复制其中的一条信息,进行搜索。在4中获得链接,并在5中获取到链接。 找到文件里面的访问url、cookie、referer、agent,将其复制在程序里。 大功告成,现在就可以进行数据的爬取了。 import pandas as pd import requests import re import time data_list = [] for i in range(1,20,1 ): print ( " 正在爬取第 " + str(i) + " 页 " ) #

python爬虫实例,一小时上手爬取淘宝评论(附代码)

纵然是瞬间 提交于 2020-04-23 22:32:48
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据。可以作为设计前期的市场调研的数据,帮助很大。 2 爬取评论并储存 (首先要进行登录,获取cookie)搜索你想收集的信息的评价,然后点开对应的产品图片。找到对应的评价的位置。 找到对应的位置之后就可以进行数据的爬取了,但是在爬取的过程中发现始终无法获取对应的数据。判断可能是因为没有添加cookie导致的,但是在添加了cookie之后发现依旧无法解决问题。 最后,发现应该是显示的数据是通过json解析之后显示在网页上的,因此需要多一些步骤来获取真正的爬取链接。 首先在network中,清除掉以往的数据信息,然后将页面进行刷新,复制其中的一条信息,进行搜索。在4中获得链接,并在5中获取到链接。 找到文件里面的访问url、cookie、referer、agent,将其复制在程序里。 大功告成,现在就可以进行数据的爬取了。 import pandas as pd import requests import re import time data_list = [] for i in range(1,20,1 ): print ( " 正在爬取第 " + str(i) + " 页 " ) #

jieba库使用以及好玩的词云

↘锁芯ラ 提交于 2020-04-23 11:00:17
jieba库、词云(wordcloud)的安装 打开window的CMD(菜单键+R+Enter) 一般情况下:输入pip install jiaba(回车),等它下好,建议在网络稳定的时候操作 不行就试试这个:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jiaba 词云安装也是如此:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordcloud 显示Successfully installed....就安装成功了(如下图👇:) jieba库的使用 用jieba库分析文章、小说、报告等,到词频统计,并对词频进行排序 代码👇 (仅限用中文): 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Apr 22 15:40:16 2020 4 5 @author: ASUS 6 """ 7 # jiaba词频统计 8 import jieba 9 txt = open(r ' C:\Users\ASUS\Desktop\创意策划书.txt ' , " r " , encoding= ' gbk ' ).read() # 读取文件 10 words = jieba.lcut(txt) # lcut(

面膜你了解吗?python帮你分析面膜商品数据,并以图片的形式实现

半世苍凉 提交于 2020-04-23 01:49:39
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者: Tauren PS:如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦! 一、某电商网站获取数据 通过爬虫获取了前10页的商品信息,此处不作过多介绍,获取数据的方法很多。此处数据做了清洗,只保留了title,price,location,salses字段。 二、利用python进行分析(直接上代码了,此处使用的是notebook) 我们下文将使用jieba分词和wordcloud来对标题进行分析 图片模板 生成的图片 来源: oschina 链接: https://my.oschina.net/u/4376671/blog/3334226

######文本特征提取

跟風遠走 提交于 2020-04-21 16:57:46
在自然语言处理中我们把文本数据变成向量数据,在向量数据中我们可以得到很多来自于文本数据当中的语言特性,这种方式叫做文本表示或文本特征构造。 文本特征的通用信息源 文本分类问题当中的对象 词:在英文文本处理当中面对的是单个词组用空格隔开容易区分,在中文文本当中需要通过特定的词库如python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。 文本:一般需要判断一段话当中他的情感状况、它是正面或反面、中立之类的问题或者如判断邮件是否为垃圾邮件之类的,或者会给出一个词或文本判断两个文本的相似性 如何构建NLP特征 直接可观测特征 单独词特征:如果观测独立与上下文的词语时一般关注它的时态(ed、ing)前缀(un、字母大写),如何找到他的词元、关注他在文本中出现的次数。 文本特征:主要考虑一个句子、一个段落或一篇文本时,观察到的特征是词在文本中的数量和次序。 文本表示 文本表示,简单的说就是不将文本视为字符串,而视为在数学上处理起来更为方便的向量。而怎么把字符串变为向量,就是文本表示的核心问题。 文本表示的好处是什么? 根本原因是计算机不方便直接对文本字符串进行处理,因此需要进行数值化或者向量化。 便于机器学习。 不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程

【Python】文本词频统计

廉价感情. 提交于 2020-04-19 10:31:26
这学期跟着MOOC的嵩天老师在学Python,但是有蛮多虽然跟着视频敲,但实际上自己用vscode做出问题的案例,所以记一下以后人家百度搜比较快。(老是读不到文件..之类的 一、英文文本词频统计 1 # CalaliceV1.py 2 def getText(): 3 txt = open( " 11.txt " , " r " ,encoding= ' utf-8 ' ).read() 4 txt = txt.lower() # 将所有大写变小写 5 for ch in ' |"$%&*()^#@;:_-.><!~`[\\]+=?/“”{|} ' : 6 txt=txt.replace(ch, " " ) # 将特殊符号替换为空格符 7 return txt 8 # 得到一个没有符号的 都是小写的 单词间都用空格间隔开的txt 9 aliceTxt= getText() 10 words=aliceTxt.split() # split采用空格分隔单词,以列表形式返回 11 counts= {} 12 for word in words: 13 counts[word]=counts.get(word,0)+1 14 items= list(counts.items()) 15 items.sort(key= lambda x:x[1],reverse= True) 16 for

python中文分词-如何下载并安装jieba包

人走茶凉 提交于 2020-04-18 11:24:07
import jieba 显示ModuleNotFoundError: No module named 'jieba'的错误,怎么解决? jieba包是第三方库,需要自己去下载安装 离线下载jieba包 以下两种下载方式 官网下载: 点此进入官网 可以在本博主上传的资源中下载 如有需要,请点击下载 安装jieba包 全自动安装: 打开cmd或者Anaconda Prompt,输入以下代码 easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装: 下载好包后 解压(解压位置可自己选择) 打开cmd,进入setuo.py所在的文件夹 D:#进入D盘 cd D:\Users\Lenovo-s41\Anaconda3\Lib\site-packages\jieba-0.42.1#进入setup.py所在的文件夹 python setup.py install#运行setup.py程序 python#进入python界面 import jieba#导入jieba包,没有显示错误,则导包成功 检查是否已成功安装jieba包,若不显示错误,则安装包成功 手动安装: 将 jieba 目录放置(jupyter nootebook \python )当前目录或者 \Anaconda3\Lib\site-packages 目录

利用朴素贝叶斯实现简单的留言过滤

前提是你 提交于 2020-04-18 06:50:09
一、朴素贝叶斯   首先第一个问题,什么是朴素贝叶斯?   贝叶斯分类是 一类分类算法 的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。而我们所想要实现的留言过滤其实是一种分类行为,是通过对于概率的判断,来对样本进行一个归类的过程。   朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入A求出使得后验概率最大的输出B。   朴素贝叶斯公式:   或者说:      当我们假设各项条件之间是相互独立的,比如说“我觉得你很美”“他觉得你很美”,不论是“我”还是“他”觉得“你很美”都是无关的,并不会因为是谁来评价而影响这个评价,那么它就适合用朴素贝叶斯算法。   举一个很典型的例子,假设通过一些指标如长相、性格等来判断一个人我们是否要嫁给他,有这样一个表格: 长相 性格 身高 是否上进 结果 帅 坏 低 不上进 不嫁 丑 好 低 上进 不嫁 帅 好 低 上进 嫁 丑 好 高 上进 嫁 帅 坏 低 上进 不嫁 丑 坏 低 不上进 不嫁 帅 好 高 不上进 嫁 丑 好 高 上进 嫁 帅 好 高 上进 嫁 丑 坏 高 上进 嫁 帅 好 低 不上进 不嫁 帅 好 低 不上进 不嫁  

python入门之jieba库的使用

烂漫一生 提交于 2020-04-18 04:34:58
  对于一段英文,如果希望提取其中的的单词,只需要使用字符串处理的split()方法即可,例如“China is a great country”。 然而对于中文文本,中文单词之间缺少分隔符,这是中文及类似语言独有的“分词问题”。   jieba(“结巴”)是python中一个重要的第三方中文分词函数库。jieba库是第三方库,不是python安装包自带的,因此,需要通过pip指令安装。 Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功 。 jieba分词的三种模式    精确模式、全模式、搜索引擎模式    - 精确模式:把文本精确的切分开,不存在冗余单词   - 全模式:把文本中所有可能的词语都扫描出来,有冗余   - 搜索引擎模式:在精确模式基础上,对长词再次切分 jieba库常用函数 举例如下 jieba._lcut("中华人民共和国是一个伟大的国家") jieba._lcut("中华人民共和国是一个伟大的国家",cut_all=True) jieba._lcut_for_search("中华人民共和国是一个伟大的国家") 运行结果: 原文出处:https://www.cnblogs.com/DrcProgrammingCool/p/11700116.html 来源: oschina 链接:

jieba中文处理 python

…衆ロ難τιáo~ 提交于 2020-04-18 02:56:36
一、Jieba中文分词 本文使用jieba进行文本进行分词处理,它有3种模式,精确模式,全模式模式,搜索引擎模式: · 精确模式:试图将句子最精确地切开,适合文本分析; · 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; · 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 现以“南京市长江大桥”为例,3种分词模式的结果如下: 【全模式】: 南京 南京市 京市 市长 长江 长江大桥 大桥 【精确模式】: 南京市 长江大桥 【搜索引擎模式】: 南京 京市 南京市 长江 大桥 长江大桥 为了避免歧义和切出符合预期效果,在这里使用精确模式 1 import jieba 2 all_mode=jieba.cut( ' 南京市长江大桥 ' ,cut_all= True) 3 alls= " " .join(all_mode) 4 print ( ' 【全模式】: ' ,alls) 5 jingque=jieba.cut( ' 南京市长江大桥 ' ,cut_all= False) 6 jings= " " .join(jingque) 7 print ( ' 【精确模式】: ' ,jings) 8 search=jieba.cut_for_search( ' 南京市长江大桥 ' ) 9 searchs= " " .join