lxml

数据清洗——cleancc简介

て烟熏妆下的殇ゞ 提交于 2020-05-08 03:34:45
  数据清洗——cleancc   cleancc   快速清洗数据内容可以   项目地址   使用方法   pip install cleancc   import cleancc   共有五个函数调用:   1.第一个函数为punct:   [    去除标点并让所有字母小写    :param pop_list:所要处理的的列表格式    :param lower:是否转小写,默认是    :return all_comment:处理后的结果-字符串格式   ]   2.第二个函数为statistics:   [    词频统计    :param pop_list:所要处理的的列表格式    :param symbol:是否去除标点,默认是    :param lower:是否转小写,默认是    :return wordCount_dict:统计结果-字典格式   ]   3.第三个函数为stop_words:   [    删除词频统计中的停顿词    :param statis:是否选择词频清理    :param pop_list:所要处理的的列表格式    :param symbol:是否去除标点,默认是    :param lower:是否转小写,默认是    :param wordCount_dict:词频统计结果-字典    :return

百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得

我只是一个虾纸丫 提交于 2020-05-06 17:57:55
百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得 7日学习总结 第一天作业 第二天作业 第三天作业 第四天作业 第五天作业 7日学习总结 通过这7日打卡课程的学习,从小白入门大神,还需要一段时间,随时大加都说python简单,但是需要系统化的对这个课程进行学习,有一定的基础后,你会在本次这个七日打卡课中的问题可以解决一大部分,在课程的学习中,每日的课程和作业老师讲的都特别认真详细(只能说爱了爱了),在自己做作业的时候,遇到不懂的问题时可以自己翻看学习群里的聊天记录 (图片来自于一个大佬的表情包),七天中大部分与作业相关无法解决的问题,基本上是都可以在微信聊天群解决的,在者在群里遇到不懂的问题时,学习群里的大佬看到后就会及时的帮你解决,当问题有点难度的时候(不要慌),强大的助教团队来帮你解决。同时在这个期间你也可以在AI studle平台上我的课程中找到讨论区 ,讨论区中可能会有和你遇到相同的问题,自己可以翻翻看一下历史讨论即可(可以学到很多的东西哦) 课程的设计是由中国科学院大学AI小鸭团队设计,每期的课程中都滑稽的班班,强大的助教团队,强大的授课讲师团队,都是堪称完美的组合。每期的课程中都会有很多的收获,在本期的课程中有人工智能常用Python库的使用、用Python对《青春有你2》选手信息爬取,PaddleHub体验与应用

爬虫系列(九) xpath的基本使用

我与影子孤独终老i 提交于 2020-05-05 20:57:43
一、xpath 简介 究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言 而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: <html> <body> <div> <p>Hello world<p> <a href="/home">Click here</a> </div> </body> </html> XML 文档中常见的节点包括: 根节点:html 元素节点:html、body、div、p、a 属性节点:href 文本节点:Hello world、Click here XML 文档中常见的节点间关系包括: 父子:例如,<p> 和 <a> 是 <div> 的子节点,反之,也称 <div> 是 <p> 和 <a> 的父节点 兄弟:例如,<p> 和 <a> 称为兄弟节点 祖先/后代:例如,<body>、<div>、<p>、<a> 都是 <html> 的后代节点,反之,也称 <html> 是 <body>、<div>、<p>、<a> 的祖先节点 对于网页解析来说,xpath 比 re 更加方便简洁,故 Python 中也提供相应的模块 —— lxml.etree 我们可以使用 pip install lxml 命令进行安装 二、xpath 使用 在正式开始讲解 xpath 的使用方法之前,我们先来构造一个简单的

记录一个开头带有&#x的特征数据的解码

馋奶兔 提交于 2020-05-04 12:15:04
本篇文章很短,只是作为一个小技巧分享 今天在分析某网站的时候,遇到一个神奇的编码,如下 & # x31;3555555555 不管我怎么搞都解码不出来,查了下,说的是在 Node 层利用 cheerio 解析网页时,输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西,尝试过各种编码都无效,而且神奇的是,将这一堆“乱码”保存成网页后,通过浏览器打开又可以正常显示 ,凭我多年的爬虫分析经验来看,这应该就是我要的东西,并不是随机生成的,想了很久,我突然想起了一种html的页码表现形式,有没有觉得很像那种html的特征码,比如 空格就是   以上的数据,格式是是不是非常像 搜了下,说的是这种形式是numeric character reference,数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,「&#x」开头的后接十六进制数字。 从 HTML4 开始,numeric character reference 以 Unicode 为准,与文档编码无关。 我突然想起,之前遇到过一个网站,他的数据就是这样的,用lxml库里的fromtring就可以解析出来 于是: from lxml.html import formstring s = ' 13555555555 ' print (fromstring(s).text) '

Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

六眼飞鱼酱① 提交于 2020-05-04 07:53:41
Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容 以爬取相应网站的社会新闻内容为例: 一、新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用JS异步加载,直接爬取就行了。 ''' 新浪新闻:http://news.sina.com.cn/society/ Date:20180920 Author:lizm Description:获取新浪新闻 ''' import requests from bs4 import BeautifulSoup from urllib import request import sys import re import os def getNews(title,url,m): Hostreferer = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 ' } req = request.Request(url) response = request.urlopen(req) # 过滤非utf-8的网页新闻 response = response.read().decode(

python爬虫(8)——Xpath的应用实例:爬取腾讯招聘信息

跟風遠走 提交于 2020-05-04 07:43:48
    上一篇文章,简单介绍了beautifulsoup这个解析器,下面来了解一个我非常喜欢的工具——Xpath。     Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。推荐各位使用Google浏览器吧Chrome,安装一个插件工具Xpath Helper。文档传送门:http://www.w3school.com.cn/xpath/xpath_intro.asp     我们在chrome中打开Xpath Helper插件,右键检查元素,分析网页结构,我们可以用上图所示的方法提取到职位名称。但是提取不到类别和地址,经过分析后发现,隔行的class属性不一致。实际上在这里,我们可以爬下职位链接,然后进行深度爬取。     xpath提取时,要注意将网页转换成html文档,代码如下(未保存本地,只是显示在命令终端): 1 import requests 2 from lxml import etree 3 4 5 6 7 8 def get_info(page_url): 9 page_response=requests.get(page_url,headers= headers) 10 page_html= page_response.text 11 page_HTML= etree.HTML(page_html) 12 #

Python 利用 BeautifulSoup 爬取网站获取新闻流

不想你离开。 提交于 2020-05-04 07:00:50
0. 引言   介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流; 图 1 项目介绍 1. 开发环境    Python:       3.6.3    BeautifulSoup:    4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库*   ( BeautifulSoup 的中文官方文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 介绍   首先需要知道什么是 HTML ( Hypertext Markup Language,超文本标记语言 ) :   HTML 是用来描述网页的一种语言*:   HTML 指的是超文本标记语言 ( H yper T ext M arkup L anguage)   HTML 不是一种编程语言,而是一种标记语言 (markup language)   标记语言是一套标记标签 (markup tag)   HTML 使用标记标签来描述网页      代码实现主要分为三个模块:    1. 计时 / second cnt     因为是周期性爬取,所以需要计时器来控制;    2. 设置代理 / set proxy     为了应对网站的反爬虫机制,需要切换代理;    3. 爬虫 / web

python用beautifulsoup爬取网页时出现乱码的解决方法

99封情书 提交于 2020-05-02 12:00:25
一、原因:   在用beutifulsoup爬取网页的信息时,我们会遇到信息变成乱码的情况,之所以出现这种情况,是因为requests和beautifulsoup模块都会自行评测原网页的编码格式。 二、解决办法: (1)查看网页编码格式:   既然要将soup中编码格式改为正确的,那我们首先就要知道你要爬取的网页编码格式是什么。 首先是F12—>到控制台Console—>输入document.charset。 此处的utf-8就是该网页的编码格式。 (2)修改爬取时的编码格式:(这里是改为utf-8)   import requests   from bs4 import BeautifulSoup   html = requests.get("http://www.baidu.com/")   html.encoding='utf-8'//将编码格式改为utf-8   soup = BeautifulSoup(html.text,'lxml')   print(soup.XX) (3)关于中文乱码:      BeautifulSoup在解析utf-8编码的网页时,如果不指定fromEncoding或者将fromEncoding指定为utf-8会出现中文乱码的现象。   解决此问题的方法是将Beautifulsoup构造函数中的fromEncoding参数的值指定为

python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)

懵懂的女人 提交于 2020-05-02 11:55:46
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块,直接 import json 就可以使用了。 官方文档: http://docs.python.org/library/json.html Json在线解析网站: http://www.json.cn/# JSON json简单说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构 对象:对象在js中表示为 { } 括起来的内容,数据结构为 { key:value, key:value, ... } 的键值对的结构,在面向对象的语言中,key为对象的属性,value为对应的属性值,所以很容易理解,取值方法为 对象.key 获取属性值,这个属性值的类型可以是数字、字符串、数组、对象这几种。 数组:数组在js中是中括号 [ ] 括起来的内容,数据结构为 [

Python异常UnicodeEncodeError 'gbk' codec can't encode character 'xa0'

丶灬走出姿态 提交于 2020-05-01 07:27:48
问题描述 在写爬虫爬取网页信息时,发生了以下错误: UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 意思大致是Unicode编码错误,gbk编解码器不能编码\xa0字符。 爬虫程序爬取的是课程信息,包含中文。使用requests库访问网页,使用BeautifulSoup库解析网页,用get_text()方法获取标签内的文本信息。 python版本为3.5,在cmd控制台中运行python脚本。 代码大致如下: import requests from bs4 import BeautifulSoup r = requests.get(url,cookies=cookies,headers=headers) soup = BeautifulSoup(r.text,"lxml") lesson_data_list = soup.find_all(id="xjs_table")[0].find_all("tr")[1:] for lesson_data in lesson_data_list: td = lesson_data.find_all("td") name = td[0].get_text() credit = td[1].get_text() teacher = td[2].get_text()