lxml

07爬虫相关

邮差的信 提交于 2020-03-13 11:13:27
一. http/https相关知识 1. http与https 1)HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 2)HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。 3)SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。 2. get与post 1)GET是从服务器上获取数据,POST是向服务器传送数据 2)GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese 3)POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码, 注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式

Python爬虫入门 | 爬取豆瓣电影信息

拟墨画扇 提交于 2020-03-12 17:04:25
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~ ps注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 好啦,正式开始我们的第二节课《爬取豆瓣电影信息》吧!啦啦哩啦啦,都看黑板~ 1. 爬虫原理 1.1 爬虫基本原理 听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从“爬虫原理”说起。 爬虫又称为网页蜘蛛,是一种程序或脚本。但重点在于:它能够按照一定的规则,自动获取网页信息。爬虫的通用框架如下: 1.挑选种子URL; 2.将这些URL放入待抓取的URL队列; 3.取出待抓取的URL,下载并存储进已下载网页库中。此外,将这些URL放入待抓取URL队列,进入下一循环; 4.分析已抓取队列中的URL,并且将URL放入待抓取URL队列,从而进入下一循环。 咳咳~ 还是用一个具体的例子,来说明吧! 1.2 一个爬虫例子 爬虫获取网页信息和人工获取信息,其实原理是一致的,比如我们要获取电影的“评分”信息:

beautiful soup的基本使用

不羁的心 提交于 2020-03-11 16:48:18
beautiful soup的基本使用 练习的文档 基本使用 BeautifulSoup 的理解 结构化打印输出 几个简单的浏览结构化数据的方法 练习的文档 < head > < meta charset = "utf-8" / > < title > python Beautiful soup 测试 < / title > < link href = "images/bitbug_favicon.ico" rel = "icon" / > < link href = "css/in-css.css" rel = "stylesheet" type = "text/css" / > < link href = "css/theme-style.css" rel = "stylesheet" type = "text/css" / > < script src = "js/jquery-1.8.3.min.js" type = "text/javascript" > < / script > < script src = "js/in-js.js" type = "text/javascript" > < / script > < script src = "js/jquery.min.js" type = "text/javascript" > < / script > < p

lxml中的xpath股票信息提取

倖福魔咒の 提交于 2020-03-10 10:58:09
  lxml中的xpath股票信息提取: import urllib.request import lxml import lxml.etree import re def download(url): headers={"User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);"} request = urllib.request.Request(url, headers=headers) # 请求,修改,模拟http. data = urllib.request.urlopen(request).read() # 打开请求,抓取数据 #data=data.decode("gbk").encode("utf-8")#乱码 mytree=lxml.etree.HTML(data) datalist=mytree.xpath("//*[@id=\"datalist\"]//tr//td//text()") print(datalist) for linedata in datalist: print(linedata) download("http://quote.stockstar.com/fund/stock_3_1_2.html") 来源: https://www.cnblogs

6,BeautifulSoup-获取数据

ⅰ亾dé卋堺 提交于 2020-03-09 22:50:48
5,BeautifulSoup-获取数据 快速了解 from bs4 import BeautifulSoup html = ''' <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> ''' soup = BeautifulSoup(html,'lxml', from

BeautifulSoup入门

岁酱吖の 提交于 2020-03-07 08:31:58
BeautifulSoup库入门 BeautifulSoup库的理解 BeautifulSoup库是解析、遍历、维护”标签树”的功能库 示例代码: from bs4 import BeautifulSoup soup = BeautifulSoup("<html>data</html>","html.parser")#第一参数是html文档,第二个参数指定parser类型是html.parser soup2 = BeautifulSoup(open("d://demo.html"),"html.parser") BeautifulSoup解析器 解析器 使用方法 条件 bs4的html解析器: BeautifulSoup(mk,’html.parser’) 安装bs4库 lxml的html解析器: BeautifulSoup(mk,’lxml’) pip install lxml lxml的xml解析器: BeautifulSoup(mk,’xml’) pip install lxml html5lib的解析器: BeautifulSoup(mk,’html5lib’) pip install html5lib BeautifulSoup类的基本元素 基本元素 说明 使用方式 Tag 标签,最基本的信息组织单元,分别用<>和表明开头和结尾 soup.a soup.p soup

XPath解析中的 'Element a at 0x5308a80'是什么?

余生颓废 提交于 2020-03-06 10:15:35
from lxml import etree当我们不用框架的时候会用到这样的库,然后进行xpath,可有时候得到的却不是我们想要的而是:Element 类型的东西,那我们怎么转换成自己想要的东西呢? from lxml import html myWant = html.tostring(yourElement[0], encoding='utf-8').decode('utf-8')    来源: https://www.cnblogs.com/fh-fendou/p/12425003.html

requests,bs4与lxml配合写爬虫(也许没有必要,就是尝试一下),保存到文档、数据库或者直接输出。

不羁的心 提交于 2020-03-04 09:54:32
python3.8 pycharm(2019.3.1):python IDE,python的集成开发环境 1、网页源码 r = requests.get(url) tree = lxml.etree.HTML(r.text) soup = bs4.Beautifulsoup(url, ‘lxml’) 到目前为止,通过阅读相关文本,感觉tree和soup中的内容是一样的。 2、进行信息提取 info0 = tree.xpath() info1 = soup.find_all() 3、数据的保存与输出 for i in info: (1)文档 i = info.tag[‘property’] i = info.find() f = open(‘file_name’, ‘a’) f.write(i) f.close() (2)数据库(MySql) connect = Connect() curcor = connect.curcor() # 执行sql语句操作 curcor.execute() cursor.close() connect.close() (3)终端 print(i) 来源: CSDN 作者: 安西宁 链接: https://blog.csdn.net/weixin_44754632/article/details/104646496

windows下安装lxml库

眉间皱痕 提交于 2020-03-01 23:10:42
Lxml是基于libxml2这一XML解析库构建的python库,它使用C语言编写,解析速度比Beautiful Soup更快,在windows下安装相对比较复杂。下面是在win10上面安装lxml的步骤。 在windows下,是无法通过pip成功按照lxml的,需要借助.whl文件进行安装。 1.安装wheel库: pip install wheel 2. 下载lxml的.whl文件 3.用pip命令安装下载好的.whl文件。 pip install XXXXXX.whl 4.如果第三步出现如下所示的错误,导致whl文件安装失败,则可能是两种原因导致的: lxml-4.3.2-cp27-cp27m-win_amd64.whl is not a supported wheel on this platform. 一、pip的版本太旧。可以尝试更新pip。 二、下载的whl版本不对。lxml的文件中,cp27表示的是python的版本号,要与你的python版本号一致。 5.更新pip的命令如下: python -m pip install --upgrade pip 来源: oschina 链接: https://my.oschina.net/u/1771419/blog/3018138

python操作xpath 0227

泄露秘密 提交于 2020-02-28 05:16:42
安装库 已安装的跳过这一步 pip install lxml 导入模块 from lxml import etree 得到对象 obj = etree.HTML ( 网页代码 ) 使用xpath提取内容 res = obj.xpath ( 表达式 ) 注意: 如果表达式得到的是一个标签对象 那么该对象仍然可以继续使用xpath方法的 来源: CSDN 作者: ifubing 链接: https://blog.csdn.net/ifubing/article/details/104545299