pyquery

第67天:PyQuery 详解

拟墨画扇 提交于 2020-07-27 12:58:23
by 闲欢 PyQuery 库是一个非常强大又灵活的网页解析库,如果你有前端开发经验,那么你应该接触过 jQuery ,那么 PyQuery 就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现,语法与 jQuery 几乎完全相同。 安装 跟安装其他库一样: >>> pip3 install pyquery 安装了之后,在程序里面就可以引用了,引用方法跟其他库类似: from pyquery import PyQuery as pq 初始化 PyQuery 可以将 HTML 字符串初始化为对象,也可以将 HTML 文件初始化为对象,甚至可以将请求的响应初始化为对象。下面我们一个个来介绍。 初始化字符串 对于一个标准的 HTML 字符串,PyQuery 可以直接初始化为对象: html = """ <html> <head> 我爱我的祖国 <title>China</title> </head> <body> <ul id="container"> <li class="li1">五星</li> <li class="li2">红旗</li> <li class="li3">迎风飘扬</li> </ul> </body> </html> """ doc = pq(html) print(type(doc)) print(doc) # 输出结果

Python3爬虫(八) 数据存储之TXT、JSON、CSV

拥有回忆 提交于 2020-04-29 23:22:41
Infi-chu: http://www.cnblogs.com/Infi-chu/ TXT文本存储 TXT文本存储,方便,简单,几乎适用于任何平台。但是不利于检索。 1.举例: 使用requests获得网页源代码,然后使用pyquery解析库解析 import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' header = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' } html = requests.get(url,headers=header).text doc = pq(html) items = doc('.explore-tab .feed-item').items() for item in items: question = item.find('h2').text() author = item.find('.author-link-line').text() answer = pq(item.find('.content').html()).text() with open('test.txt','a'

小白学 Python 爬虫(23):解析库 pyquery 入门

喜你入骨 提交于 2020-04-22 05:23:09
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基础 小白学 Python 爬虫(9):爬虫基础 小白学 Python 爬虫(10):Session 和 Cookies 小白学 Python 爬虫(11):urllib 基础使用(一) 小白学 Python 爬虫(12):urllib 基础使用(二) 小白学 Python 爬虫(13):urllib 基础使用(三) 小白学 Python 爬虫(14):urllib 基础使用(四) 小白学 Python 爬虫(15):urllib 基础使用(五) 小白学 Python 爬虫(16):urllib 实战之爬取妹子图 小白学 Python 爬虫(17):Requests 基础使用 小白学 Python 爬虫(18):Requests 进阶操作 小白学 Python 爬虫(19):Xpath 基操

小白学 Python 爬虫(26):为啥上海二手房你都买不起

感情迁移 提交于 2020-04-18 07:41:20
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基础 小白学 Python 爬虫(9):爬虫基础 小白学 Python 爬虫(10):Session 和 Cookies 小白学 Python 爬虫(11):urllib 基础使用(一) 小白学 Python 爬虫(12):urllib 基础使用(二) 小白学 Python 爬虫(13):urllib 基础使用(三) 小白学 Python 爬虫(14):urllib 基础使用(四) 小白学 Python 爬虫(15):urllib 基础使用(五) 小白学 Python 爬虫(16):urllib 实战之爬取妹子图 小白学 Python 爬虫(17):Requests 基础使用 小白学 Python 爬虫(18):Requests 进阶操作 小白学 Python 爬虫(19):Xpath 基操

小白学 Python 爬虫(35):爬虫框架 Scrapy 入门基础(三) Selector 选择器

…衆ロ難τιáo~ 提交于 2020-04-18 06:55:11
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基础 小白学 Python 爬虫(9):爬虫基础 小白学 Python 爬虫(10):Session 和 Cookies 小白学 Python 爬虫(11):urllib 基础使用(一) 小白学 Python 爬虫(12):urllib 基础使用(二) 小白学 Python 爬虫(13):urllib 基础使用(三) 小白学 Python 爬虫(14):urllib 基础使用(四) 小白学 Python 爬虫(15):urllib 基础使用(五) 小白学 Python 爬虫(16):urllib 实战之爬取妹子图 小白学 Python 爬虫(17):Requests 基础使用 小白学 Python 爬虫(18):Requests 进阶操作 小白学 Python 爬虫(19):Xpath 基操

用Python爬取大众点评数据,推荐火锅店里最受欢迎的食品

倖福魔咒の 提交于 2020-03-31 17:08:35
前言 文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:有趣的Python PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 首先笔者定位为成都,美食类型选的“火锅”,火锅具体类型选的不限,区域选的不限,排序选的智能,如图: 你也可以选择别的选项,只是注意URL的变化。本文都是按照上述选项爬取的数据。接下来翻页观察一下URL的变化: 第二页: 第三页: 很容易观察出翻页变化的知识p后面的数字,倒推回第一页,发现一样的显示内容,因此,写一个循环,便可以爬取全部页面。 但是大众点评只提供了前50页的数据,所以,我们也只能爬取前50页。 这一次,笔者用的pyquery来分析网页的,所以我们需要定位到我们所爬取的数据的位置,如图: 在具体分析的网页的时候,我震惊了,大众点评的反爬做的太过分了,它的数字,一些文字居然都不是明文显示,而是代码,你还不知道怎么分析它。如图: 很烦的,一些文字又可以显示,一些又用代码表示。一些数字也是,不过好一点的是数字只有9个,只要稍微观察一下,就能发现数字的代码是什么了。这里笔者列出来了。 {'hs-OEEp': 0, 'hs-4Enz': 2, 'hs-GOYR': 3, 'hs-61V1': 4, 'hs-SzzZ': 5,

简单爬虫-爬取免费代理ip

▼魔方 西西 提交于 2020-03-24 11:02:11
环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import requests from pyquery import PyQuery as pq class GetProxy(object): def __init__(self): # 代理ip网站 self.url = 'http://www.xicidaili.com/nn/' self.header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} self.file = r'F:\python\code2\get_proxy\proxies.txt' # 用于检查代理ip是否可用 self.check_url = 'https://www.python.org/' self.title = 'Welcome to Python.org' def get_page(self): response = requests.get(self.url, headers=self

pyquery 的用法 --爬虫解析库

此生再无相见时 提交于 2020-03-24 07:03:53
如果你对 Web 有所涉及,如果你比较喜欢用 CSS 选择器,如果你对 jQuery 有所了解,那么这里有一个更适合你的解析库 ——pyquery 。 接下来,我们就来感受一下 pyquery 的强大之处。 1. 准备工作 在开始之前,请确保已经正确安装好了 pyquery 。若没有安装 pip install pyquery 。 2. 初始化 像 Beautiful Soup 一样,初始化 pyquery 的时候,也需要传入 HTML 文本来初始化一个 PyQuery 对象。它的初始化方式有多种,比如直接传入字符串,传入 URL ,传入文件名,等等。下面我们来详细介绍一下。 字符串初始化 首先,我们用一个实例来感受一下: html = ''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li

7,pyquery获取数据

半城伤御伤魂 提交于 2020-03-10 02:04:31
pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档 参考网站 https://www.jianshu.com/p/770c0cdef481 https://pythonhosted.org/pyquery/css.html https://www.osgeo.cn/pyquery/index.html 初始化对象 html = """ <html lang="en"> <head> 简单好用的 <title>PyQuery</title> </head> <body> <ul id="container"> <li class="object-1">Python</li> <li class="object-2">大法</li> <li class="object-3">好</li> </ul> </body> </html> """ ##############字符串初始化 from pyquery import PyQuery as pq #初始化为PyQuery对象 doc = pq(html) print(type(doc)) print(doc) ####html 文件初始化 #filename参数为html文件路径 test_html = pq(filename = 'test.html') print(type

爬虫入门

狂风中的少年 提交于 2020-03-08 09:49:52
常用库 requests beautifulsoup bs4 requests-html 接触过爬虫用的最多的包无非就是requests, urllib包,我们再使用这些包的时候显示,用requests包去获取响应,然后再利用pyquery或者bs4,xpath再去整理提取我们需要是目标数据。也就是下面两步: import requests from pyquery import PyQuery as pq #获取网页 html = requests.get() #解析网页 doc = pq(html) 作者:RevinDuan 链接: https://www.jianshu.com/p/bd828b9cf74d 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 来源: https://www.cnblogs.com/xiaoxuesheng993/p/12441014.html