KHTML

postman设置token等关联参数

别说谁变了你拦得住时间么 提交于 2021-02-19 20:54:34
登陆时登录成功后服务器会返回一个token,这个token作为第二步骤的入参;第二个步骤请求成功后服务器会返回一个新token,然后这个token作为第三步骤的入参!如此一来的话,要用postman做接口测试,那么就要解决token这个参数的关联问题: 第一,首先将这三个要测试的接口写成collection: 第二,要设置postman的环境,设置名称,url,以及token(只需要设置key就行),如下图: 第三步,在Postman软件的Tests中写以下代码,设置环境变量 第四步,修改第二以及第三个接口的入参的tokend值,格式用双花括号:{{token}} 格式 到此就设置完成了,我们选择登陆接口点击send,此时token就会显示在环境变量中了,这时第二个接口就可以执行了;然后再执行第三个接口,此时这个流程就可以跑通了! 总结:其实像这样的1步骤产生token,2步骤关联1步骤的token,3步骤关联2步骤的token,4步骤关联3步骤的token ,这种情况我也是第一次接触,这种情况与我司的项目不同,我司项目中只要token有效期内就行,不会存在步骤间这种紧密的依赖关系。 如果把这种项目的接口写成自动化脚本的话也比较冗长,因为我要在一个py中同时从步骤1写到步骤4.这样代码比较长了,代码如下: #coding:utf-8 import requests,unittest

滑块验证码打码

有些话、适合烂在心里 提交于 2021-02-13 20:25:20
import requests #++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ # 滑块验证码打码 # 使用如下语句,可以用S代替requests发送get请求,如果请求的网址生成了cookie,则cookie会保存在S中,下次再用s请求会带上这个cookei s = requests.Session() # 找到一个接口,这个接口要返回gt 和challenge,请求他,获取challenge和gt source = s.get('http://gsxt.gzgs.gov.cn/registerValidate.jspx?t=1558493678554').json() print(source) gt = source['gt'] challenge = source['challenge'] # 将获取到的参数,传给极验,这里要包含用户名和密码,如果success是0,则后面要加上&model=1 second = s.get('http://jiyanapi.c2567.com/shibie?user=wangshang&pass=a706486a&return=json&ip=&gt='+gt+'&challenge='+challenge+'&model=1')

Python数据可视化:网易云音乐歌单

喜夏-厌秋 提交于 2021-02-13 18:54:13
网易云音乐2018年度听歌报告—遇见你,真好。 相信有不少人在上周,应该已经看过自己网易云音乐的年度报告了。 小F也是去凑凑热闹,瞅了一波自己的年度听歌报告。 那么你在云村又听了多少首歌,听到最多的歌词又是什么呢? 2018年你的年度歌手又是谁,哪些又是你最爱的歌呢? 不过相比去年,我的票圈并没有很多发自己年度报告的朋友。 不得不说,版权之争开始,网易云音乐似乎就在走下坡路。 很多喜欢的歌听不了,这应该是大家共同的痛点。 最大的印象就是周董的歌,在愚人节时下架了,原以为只是个玩笑,不想却是真的。 本次通过对网易云音乐华语歌单数据的获取,对华语歌单数据进行可视化分析。 可视化库不采用pyecharts,来点新东西。 使用matplotlib可视化库,利用这个底层库来进行可视化展示。 / 01 / 网页分析 01 歌单索引页 选取华语热门歌单页面。 获取歌单播放量,名称,及作者,还有歌单详情页链接。 本次一共获取了1302张华语歌单。 02 歌单详情页 获取歌单详情页信息,信息比较多。 有歌单名,收藏量,评论数,标签,介绍,歌曲总数,播放量,收录的歌名。 这里歌曲的时长、歌手、专辑信息在网页的iframe中。 需要用selenium去获取信息,鉴于耗时过长,小F选择放弃... 有兴趣的小伙伴,可以试一下哈... / 02 / 数据获取 01 歌单索引页 from bs4 import

爬虫实践

时光总嘲笑我的痴心妄想 提交于 2021-02-10 08:12:21
1.URL爬取   爬取一个站点的所有URL,大概有以下步骤:   1.确定好要爬取的入口链接。   2.根据需求构建好链接提取的正则表达式。   3.模拟成浏览器并爬取对应的网页。   4.根据2中的正则表达式提取出该网页中包含的链接。   5.过滤重复的链接。   6.后续操作,打印链接或存到文档上。   这里以获取 https://blog.csdn.net/ 网页上的链接为例,代码如下: 1 import re 2 import requests 3 4 def get_url(master_url): 5 header = { 6 ' Accept ' : ' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 ' , 7 ' Accept-Encoding ' : ' gzip, deflate, br ' , 8 ' Accept-Language ' : ' zh-CN,zh;q=0.9 ' , 9 ' Cache-Control ' : ' max-age=0 ' , 10 ' Connection ' : ' keep-alive ' , 11 ' Cookie ' : ' uuid_tt_dd=10_20323105120

爱看小说的有福了......

落爺英雄遲暮 提交于 2021-01-27 06:40:50
利用Python3 编写爬虫,从笔趣阁爬小说,可以下载到手机看。 运行截图: 程序实现如下: ---有点小bug,不过无所谓了。。。 import re import urllib.request import time import easygui as g # 输入地址 g.msgbox( " " ) msg = "输入小说地址,例如http://www.biquge.com.tw/0_213/" title = '爬虫' root = g.enterbox(msg , title) # 伪造浏览器 headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ' \ 'AppleWebKit/537.36 (KHTML, like Gecko)' \ ' Chrome/62.0.3202.62 Safari/537.36' } req = urllib.request.Request( url =root , headers =headers) with urllib.request.urlopen(req , timeout = 1 ) as response: # 大部分的涉及小说的网页都有charset='gbk',所以使用gbk编码 htmls = response.read().decode

04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

自古美人都是妖i 提交于 2021-01-25 06:50:25
一. urllib库   urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中就是urllib和urllib2。 二.requests库   - 安装: pip install requests   - 作用: 就是用来模拟浏览器上网的   - 特点: 简单高效   - 使用流程:      * 指定url      * 发起请求      * 获取响应数据      * 持久化存储 三.爬取简单的网页    普通 get请求 1 # 爬取搜狗首页的页面数据 2 import requests 3 # 第一步指定url 4 url = ' https://www.sogou.com/ ' 5 # 第二步发送请求 6 response = request.get(url= url) 7 # 第三步获取响应数据 8 page_text = response.text # text返回的是字符串类型的数据(由响应体中的content-type,也可以是json) 9 # 第四步持久化存储 10 with open( ' ./souhu.html ' , ' w ' ,encoding= ' utf-8 ' ) as fp: 11

《大秦赋》最近很火!于是我用Python抓取了“相关数据”,发现了这些秘密......

给你一囗甜甜゛ 提交于 2021-01-24 13:05:47
↑ 关注 + 星标 ,每天学Python新技能 后台回复【 大礼包 】送你Python自学大礼包 前言 最近,最火的电视剧莫过于《大秦赋了》,自12月1日开播后,收获了不错的口碑。然而随着电视剧的跟新,该剧在网上引起了 激烈的讨论 ,不仅口碑急剧下滑,颇有 高开低走的趋势 ,同时该剧的评分也由最初的8.9分,下降到了现在的6.5分。 虽然我还没有看过这个新剧,但是对于小伙伴们讨论的内容,却颇有兴趣(主要还是大家老是讨 论这个剧)。因此, 我用Python爬取了《大秦赋》的相关数据 ,进行了一波分析。 数据爬取 巧妇难为无米之炊,做数据分析之前最重要的就是 “数据获取” 。于是,我准备用Python爬取豆瓣上的 短评数据 以及一些 评论时间信息 、 评价星级信息 。 关于数据的爬取主要说以下几个内容: 1) 关于翻页操作 第一页: https://movie.douban.com/subject/ 26413293 /comments?status=P 第二页: https://movie.douban.com/subject/ 26413293 /comments?start= 20 &limit= 20 &status=P&sort=new_score 第三页: https://movie.douban.com/subject/ 26413293 /comments?start=

python 嵌套爬取网页信息

半城伤御伤魂 提交于 2021-01-23 06:34:27
当需要的信息要经过两个链接才能打开的时候,就需要用到嵌套爬取。 比如要爬取起点中文网排行榜的小说简介,找到榜单网址: https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1 将榜单上的小说链接爬出来,在从小说链接里面爬小说简介 import pymysql import requests from hashlib import md5 import re import os #获取网页源代码 def get_one_page(url): # 设置请求头,防止被网站屏蔽 headers = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64)\ AppleWebKit/ 537.36 (KHTML, like Gecko) Chrome/ 58.0 . 3029.110 Safari/ 537.36 ' , } try : r = requests. get (url, headers= headers) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except requests

【python爬虫】用requests库模拟登陆人人网

南楼画角 提交于 2021-01-21 03:26:53
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import requests # 这例有个坑,这个登录地址不是直接看到的登录地址,这是人人网的反爬机制 url = " http://www.renren.com/PLogin.do " # url = "http://www.renren.com/SysHome.do" # 在此输入账号密码,注意“email”“password”是网页中查到的key值 data = { " email " : " 18602992468 " , " password " : " qqq123 " } headers = { " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36 " } session = requests.Session() session.post(url, data = data, headers = headers) response = session.get( " http://www.renren.com/970006185 " )

写一个python 爬虫爬取百度电影并存入mysql中

江枫思渺然 提交于 2021-01-20 06:29:35
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id int not null auto_increment, score VARCHAR( 50 ) DEFAULT 0, name VARCHAR( 50 ) DEFAULT 0, Pic VARCHAR( 200 ) DEFAULT 0, dianyingurl VARCHAR( 200 ) DEFAULT 0, leixing VARCHAR( 50 ) DEFAULT 0, niandai VARCHAR( 50 ) DEFAULT 0, diqu VARCHAR( 50 ) DEFAULT 0, PRIMARY KEY (id)) 其中 图片地址列和电影地址列的 字段名要设置长一点 否则插入时不够,最好为每一列设置默认值。 我们在切换页数时会发现,浏览器地址栏中是没有变化的,这就使得无法直接用地址栏的url变化和xpath来获取标签进行爬取。 那么我们就用另外一种-----解析json字符串。 首先打开f12 我们在切换页数时,会出现两个记录。 点开1.2两个行的行踪记录,能看到他们的Request URL 仔细看会发现这两个request的url主要不同在在于