lxml | 易学教程

数据清洗——cleancc简介

阅读更多关于数据清洗——cleancc简介

　　数据清洗——cleancc 　　cleancc 　　快速清洗数据内容可以　　项目地址　　使用方法　　pip install cleancc 　　import cleancc 　　共有五个函数调用：　　1.第一个函数为punct：　　[ 　　去除标点并让所有字母小写　　 :param pop_list:所要处理的的列表格式　　 :param lower:是否转小写，默认是　　 :return all_comment:处理后的结果-字符串格式　　] 　　2.第二个函数为statistics：　　[ 　　词频统计　　 :param pop_list:所要处理的的列表格式　　 :param symbol:是否去除标点，默认是　　 :param lower:是否转小写，默认是　　 :return wordCount_dict:统计结果-字典格式　　] 　　3.第三个函数为stop_words：　　[ 　　删除词频统计中的停顿词　　 :param statis:是否选择词频清理　　 :param pop_list:所要处理的的列表格式　　 :param symbol:是否去除标点，默认是　　 :param lower:是否转小写，默认是　　 :param wordCount_dict:词频统计结果-字典　　 :return

百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得

阅读更多关于百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得

百度深度学习paddlepaddle7日打卡——Python小白逆袭大神学习心得 7日学习总结第一天作业第二天作业第三天作业第四天作业第五天作业 7日学习总结通过这7日打卡课程的学习，从小白入门大神，还需要一段时间，随时大加都说python简单，但是需要系统化的对这个课程进行学习，有一定的基础后，你会在本次这个七日打卡课中的问题可以解决一大部分，在课程的学习中，每日的课程和作业老师讲的都特别认真详细(只能说爱了爱了)，在自己做作业的时候，遇到不懂的问题时可以自己翻看学习群里的聊天记录（图片来自于一个大佬的表情包），七天中大部分与作业相关无法解决的问题，基本上是都可以在微信聊天群解决的，在者在群里遇到不懂的问题时，学习群里的大佬看到后就会及时的帮你解决，当问题有点难度的时候(不要慌)，强大的助教团队来帮你解决。同时在这个期间你也可以在AI studle平台上我的课程中找到讨论区，讨论区中可能会有和你遇到相同的问题，自己可以翻翻看一下历史讨论即可(可以学到很多的东西哦) 课程的设计是由中国科学院大学AI小鸭团队设计，每期的课程中都滑稽的班班，强大的助教团队，强大的授课讲师团队，都是堪称完美的组合。每期的课程中都会有很多的收获，在本期的课程中有人工智能常用Python库的使用、用Python对《青春有你2》选手信息爬取，PaddleHub体验与应用

爬虫系列(九) xpath的基本使用

阅读更多关于爬虫系列(九) xpath的基本使用

一、xpath 简介究竟什么是 xpath 呢？简单来说，xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树，例如，下面是一份简单的 XML 文档： <html> <body> <div> <p>Hello world<p> <a href="/home">Click here</a> </div> </body> </html> XML 文档中常见的节点包括：根节点：html 元素节点：html、body、div、p、a 属性节点：href 文本节点：Hello world、Click here XML 文档中常见的节点间关系包括：父子：例如，<p> 和 <a> 是 <div> 的子节点，反之，也称 <div> 是 <p> 和 <a> 的父节点兄弟：例如，<p> 和 <a> 称为兄弟节点祖先/后代：例如，<body>、<div>、<p>、<a> 都是 <html> 的后代节点，反之，也称 <html> 是 <body>、<div>、<p>、<a> 的祖先节点对于网页解析来说，xpath 比 re 更加方便简洁，故 Python 中也提供相应的模块 —— lxml.etree 我们可以使用 pip install lxml 命令进行安装二、xpath 使用在正式开始讲解 xpath 的使用方法之前，我们先来构造一个简单的

记录一个开头带有&#x的特征数据的解码

阅读更多关于记录一个开头带有&#x的特征数据的解码

本篇文章很短，只是作为一个小技巧分享今天在分析某网站的时候，遇到一个神奇的编码，如下 & # x31;3555555555 不管我怎么搞都解码不出来，查了下，说的是在 Node 层利用 cheerio 解析网页时，输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西，尝试过各种编码都无效，而且神奇的是，将这一堆“乱码”保存成网页后，通过浏览器打开又可以正常显示，凭我多年的爬虫分析经验来看，这应该就是我要的东西，并不是随机生成的，想了很久，我突然想起了一种html的页码表现形式，有没有觉得很像那种html的特征码，比如空格就是以上的数据，格式是是不是非常像搜了下，说的是这种形式是numeric character reference，数字取值为目标字符的 Unicode code point；以「&#」开头的后接十进制数字，「&#x」开头的后接十六进制数字。从 HTML4 开始，numeric character reference 以 Unicode 为准，与文档编码无关。我突然想起，之前遇到过一个网站，他的数据就是这样的，用lxml库里的fromtring就可以解析出来于是： from lxml.html import formstring s = ' 13555555555 ' print (fromstring(s).text) '

Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

阅读更多关于 Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容

Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例：一、新浪：新浪网的新闻比较好爬取，我是用BeautifulSoup直接解析的，它并没有使用JS异步加载，直接爬取就行了。 ''' 新浪新闻：http://news.sina.com.cn/society/ Date：20180920 Author：lizm Description：获取新浪新闻 ''' import requests from bs4 import BeautifulSoup from urllib import request import sys import re import os def getNews(title,url,m): Hostreferer = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 ' } req = request.Request(url) response = request.urlopen(req) # 过滤非utf-8的网页新闻 response = response.read().decode(

python爬虫（8）——Xpath的应用实例：爬取腾讯招聘信息

阅读更多关于 python爬虫（8）——Xpath的应用实例：爬取腾讯招聘信息

　　　　上一篇文章，简单介绍了beautifulsoup这个解析器，下面来了解一个我非常喜欢的工具——Xpath。　　　　Xpath是一门在XML文档中查找信息的语言，可用来在XML文档中对元素和属性进行遍历。推荐各位使用Google浏览器吧Chrome，安装一个插件工具Xpath Helper。文档传送门：http://www.w3school.com.cn/xpath/xpath_intro.asp 　　　　我们在chrome中打开Xpath Helper插件，右键检查元素，分析网页结构，我们可以用上图所示的方法提取到职位名称。但是提取不到类别和地址，经过分析后发现，隔行的class属性不一致。实际上在这里，我们可以爬下职位链接，然后进行深度爬取。　　　　xpath提取时，要注意将网页转换成html文档，代码如下（未保存本地，只是显示在命令终端）： 1 import requests 2 from lxml import etree 3 4 5 6 7 8 def get_info(page_url): 9 page_response=requests.get(page_url,headers= headers) 10 page_html= page_response.text 11 page_HTML= etree.HTML(page_html) 12 #

Python 利用 BeautifulSoup 爬取网站获取新闻流

阅读更多关于 Python 利用 BeautifulSoup 爬取网站获取新闻流

0. 引言　　介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流；图 1 项目介绍 1. 开发环境　　 Python：　　　　　　3.6.3 　　 BeautifulSoup：　　 4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库* 　　( BeautifulSoup 的中文官方文档： https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 介绍　　首先需要知道什么是 HTML ( Hypertext Markup Language，超文本标记语言 ) ：　　HTML 是用来描述网页的一种语言*：　　HTML 指的是超文本标记语言 ( H yper T ext M arkup L anguage) 　　HTML 不是一种编程语言，而是一种标记语言 (markup language) 　　标记语言是一套标记标签 (markup tag) 　　HTML 使用标记标签来描述网页　　　　代码实现主要分为三个模块：　　 1. 计时 / second cnt 　　　　因为是周期性爬取，所以需要计时器来控制；　　 2. 设置代理 / set proxy 　　　　为了应对网站的反爬虫机制，需要切换代理；　　 3. 爬虫 / web

python用beautifulsoup爬取网页时出现乱码的解决方法

阅读更多关于 python用beautifulsoup爬取网页时出现乱码的解决方法

一、原因：　　在用beutifulsoup爬取网页的信息时，我们会遇到信息变成乱码的情况，之所以出现这种情况，是因为requests和beautifulsoup模块都会自行评测原网页的编码格式。二、解决办法：（1）查看网页编码格式：　　既然要将soup中编码格式改为正确的，那我们首先就要知道你要爬取的网页编码格式是什么。首先是F12—>到控制台Console—>输入document.charset。此处的utf-8就是该网页的编码格式。（2）修改爬取时的编码格式：（这里是改为utf-8）　　import requests 　　from bs4 import BeautifulSoup 　　html = requests.get("http://www.baidu.com/") 　　html.encoding='utf-8'//将编码格式改为utf-8 　　soup = BeautifulSoup(html.text,'lxml') 　　print(soup.XX) （3）关于中文乱码：　　　　BeautifulSoup在解析utf-8编码的网页时，如果不指定fromEncoding或者将fromEncoding指定为utf-8会出现中文乱码的现象。　　解决此问题的方法是将Beautifulsoup构造函数中的fromEncoding参数的值指定为

python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)

阅读更多关于 python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)

上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块，直接 import json 就可以使用了。官方文档： http://docs.python.org/library/json.html Json在线解析网站： http://www.json.cn/# JSON json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构对象：对象在js中表示为 { } 括起来的内容，数据结构为 { key：value, key：value, ... } 的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象这几种。数组：数组在js中是中括号 [ ] 括起来的内容，数据结构为 [

Python异常UnicodeEncodeError 'gbk' codec can't encode character 'xa0'

阅读更多关于 Python异常UnicodeEncodeError 'gbk' codec can't encode character 'xa0'

问题描述在写爬虫爬取网页信息时，发生了以下错误： UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 意思大致是Unicode编码错误，gbk编解码器不能编码\xa0字符。爬虫程序爬取的是课程信息，包含中文。使用requests库访问网页，使用BeautifulSoup库解析网页，用get_text()方法获取标签内的文本信息。 python版本为3.5，在cmd控制台中运行python脚本。代码大致如下: import requests from bs4 import BeautifulSoup r = requests.get(url,cookies=cookies,headers=headers) soup = BeautifulSoup(r.text,"lxml") lesson_data_list = soup.find_all(id="xjs_table")[0].find_all("tr")[1:] for lesson_data in lesson_data_list: td = lesson_data.find_all("td") name = td[0].get_text() credit = td[1].get_text() teacher = td[2].get_text()

订阅 lxml