pyquery

爬虫解析PyQuery 之(五) --- PyQuery模块

时光毁灭记忆、已成空白 提交于 2019-11-27 14:06:51
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了 来源: https://www.cnblogs.com/TMMM/p/11366866.html

Python爬取猫眼电影排行

穿精又带淫゛_ 提交于 2019-11-26 10:56:42
import requests import pyquery def crawl_page(url: str) -> None: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \ Chrome/72.0.3626.121 Safari/537.36', } response = requests.get(url, headers=headers) parse_page(response.text) def parse_page(source_code: str) -> None: html = pyquery.PyQuery(source_code) dd_elements = html('.board-wrapper dd') for dd_element in dd_elements.items(): data = { '排名': dd_element.find('i.board-index').text(), '电影名': dd_element.find('a.image-link').attr('title'), '主演': dd_element.find('p.star').text().split(':

【Python】Python3网络爬虫实战-40、使用Selenium爬取淘宝商品

为君一笑 提交于 2019-11-26 05:16:33
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面,最方便快捷的抓取方法就是通过Selenium。本节中,我们就用Selenium来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到MongoDB。 1. 本节目标 本节中,我们要利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息,并将其保存到MongoDB。学习过程中有不懂的可以加入我们的学习交流秋秋圈784中间758后面214,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。相关学习视频资料、开发工具都有分享 2. 准备工作 本节中,我们首先以Chrome为例来讲解Selenium的用法。在开始之前,请确保已经正确安装好Chrome浏览器并配置好了ChromeDriver;另外,还需要正确安装Python的Selenium库;最后,还对接了PhantomJS和Firefox,请确保安装好PhantomJS和Firefox并配置好了GeckoDriver。如果环境没有配置好,可参考第1章。 3. 接口分析

How to “log in” to a website using Python's Requests module?

ⅰ亾dé卋堺 提交于 2019-11-25 22:39:51
问题 I am trying to post a request to log in to a website using the Requests module in Python but its not really working. I\'m new to this...so I can\'t figure out if I should make my Username and Password cookies or some type of HTTP authorization thing I found (??). from pyquery import PyQuery import requests url = \'http://www.locationary.com/home/index2.jsp\' So now, I think I\'m supposed to use \"post\" and cookies.... ck = {\'inUserName\': \'USERNAME/EMAIL\', \'inUserPass\': \'PASSWORD\'} r