KHTML | 易学教程

postman设置token等关联参数

阅读更多关于 postman设置token等关联参数

登陆时登录成功后服务器会返回一个token，这个token作为第二步骤的入参；第二个步骤请求成功后服务器会返回一个新token，然后这个token作为第三步骤的入参！如此一来的话，要用postman做接口测试，那么就要解决token这个参数的关联问题：第一，首先将这三个要测试的接口写成collection：第二，要设置postman的环境，设置名称，url，以及token（只需要设置key就行），如下图：第三步，在Postman软件的Tests中写以下代码，设置环境变量第四步，修改第二以及第三个接口的入参的tokend值，格式用双花括号：{{token}} 格式到此就设置完成了，我们选择登陆接口点击send，此时token就会显示在环境变量中了，这时第二个接口就可以执行了；然后再执行第三个接口，此时这个流程就可以跑通了！总结：其实像这样的1步骤产生token，2步骤关联1步骤的token，3步骤关联2步骤的token，4步骤关联3步骤的token ，这种情况我也是第一次接触，这种情况与我司的项目不同，我司项目中只要token有效期内就行，不会存在步骤间这种紧密的依赖关系。如果把这种项目的接口写成自动化脚本的话也比较冗长，因为我要在一个py中同时从步骤1写到步骤4.这样代码比较长了，代码如下： #coding:utf-8 import requests,unittest

滑块验证码打码

阅读更多关于滑块验证码打码

import requests #++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ # 滑块验证码打码 # 使用如下语句，可以用S代替requests发送get请求，如果请求的网址生成了cookie，则cookie会保存在S中，下次再用s请求会带上这个cookei s = requests.Session() # 找到一个接口，这个接口要返回gt 和challenge,请求他，获取challenge和gt source = s.get('http://gsxt.gzgs.gov.cn/registerValidate.jspx?t=1558493678554').json() print(source) gt = source['gt'] challenge = source['challenge'] # 将获取到的参数，传给极验，这里要包含用户名和密码，如果success是0，则后面要加上&model=1 second = s.get('http://jiyanapi.c2567.com/shibie?user=wangshang&pass=a706486a&return=json&ip=&gt='+gt+'&challenge='+challenge+'&model=1')

Python数据可视化：网易云音乐歌单

阅读更多关于 Python数据可视化：网易云音乐歌单

网易云音乐2018年度听歌报告—遇见你，真好。相信有不少人在上周，应该已经看过自己网易云音乐的年度报告了。小F也是去凑凑热闹，瞅了一波自己的年度听歌报告。那么你在云村又听了多少首歌，听到最多的歌词又是什么呢？ 2018年你的年度歌手又是谁，哪些又是你最爱的歌呢？不过相比去年，我的票圈并没有很多发自己年度报告的朋友。不得不说，版权之争开始，网易云音乐似乎就在走下坡路。很多喜欢的歌听不了，这应该是大家共同的痛点。最大的印象就是周董的歌，在愚人节时下架了，原以为只是个玩笑，不想却是真的。本次通过对网易云音乐华语歌单数据的获取，对华语歌单数据进行可视化分析。可视化库不采用pyecharts，来点新东西。使用matplotlib可视化库，利用这个底层库来进行可视化展示。 / 01 / 网页分析 01 歌单索引页选取华语热门歌单页面。获取歌单播放量，名称，及作者，还有歌单详情页链接。本次一共获取了1302张华语歌单。 02 歌单详情页获取歌单详情页信息，信息比较多。有歌单名，收藏量，评论数，标签，介绍，歌曲总数，播放量，收录的歌名。这里歌曲的时长、歌手、专辑信息在网页的iframe中。需要用selenium去获取信息，鉴于耗时过长，小F选择放弃... 有兴趣的小伙伴，可以试一下哈... / 02 / 数据获取 01 歌单索引页 from bs4 import

爬虫实践

阅读更多关于爬虫实践

1.URL爬取　　爬取一个站点的所有URL，大概有以下步骤：　　1.确定好要爬取的入口链接。　　2.根据需求构建好链接提取的正则表达式。　　3.模拟成浏览器并爬取对应的网页。　　4.根据2中的正则表达式提取出该网页中包含的链接。　　5.过滤重复的链接。　　6.后续操作，打印链接或存到文档上。　　这里以获取 https://blog.csdn.net/ 网页上的链接为例，代码如下： 1 import re 2 import requests 3 4 def get_url(master_url): 5 header = { 6 ' Accept ' : ' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 ' , 7 ' Accept-Encoding ' : ' gzip, deflate, br ' , 8 ' Accept-Language ' : ' zh-CN,zh;q=0.9 ' , 9 ' Cache-Control ' : ' max-age=0 ' , 10 ' Connection ' : ' keep-alive ' , 11 ' Cookie ' : ' uuid_tt_dd=10_20323105120

爱看小说的有福了......

阅读更多关于爱看小说的有福了......

利用Python3 编写爬虫，从笔趣阁爬小说，可以下载到手机看。运行截图：程序实现如下： ---有点小bug，不过无所谓了。。。 import re import urllib.request import time import easygui as g # 输入地址 g.msgbox( " " ) msg = "输入小说地址，例如http://www.biquge.com.tw/0_213/" title = '爬虫' root = g.enterbox(msg , title) # 伪造浏览器 headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ' \ 'AppleWebKit/537.36 (KHTML, like Gecko)' \ ' Chrome/62.0.3202.62 Safari/537.36' } req = urllib.request.Request( url =root , headers =headers) with urllib.request.urlopen(req , timeout = 1 ) as response: # 大部分的涉及小说的网页都有charset='gbk'，所以使用gbk编码 htmls = response.read().decode

04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

阅读更多关于 04 Python网络爬虫之requests模块

一. urllib库　　urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中就是urllib和urllib2。二.requests库　　- 安装: pip install requests 　　- 作用: 就是用来模拟浏览器上网的　　- 特点: 简单高效　　- 使用流程: 　　　　　* 指定url 　　　　　* 发起请求　　　　　* 获取响应数据　　　　　* 持久化存储三.爬取简单的网页　　普通 get请求 1 # 爬取搜狗首页的页面数据 2 import requests 3 # 第一步指定url 4 url = ' https://www.sogou.com/ ' 5 # 第二步发送请求 6 response = request.get(url= url) 7 # 第三步获取响应数据 8 page_text = response.text # text返回的是字符串类型的数据(由响应体中的content-type,也可以是json) 9 # 第四步持久化存储 10 with open( ' ./souhu.html ' , ' w ' ,encoding= ' utf-8 ' ) as fp: 11

《大秦赋》最近很火！于是我用Python抓取了“相关数据”，发现了这些秘密......

阅读更多关于《大秦赋》最近很火！于是我用Python抓取了“相关数据”，发现了这些秘密......

↑ 关注 + 星标，每天学Python新技能后台回复【大礼包】送你Python自学大礼包前言最近，最火的电视剧莫过于《大秦赋了》，自12月1日开播后，收获了不错的口碑。然而随着电视剧的跟新，该剧在网上引起了激烈的讨论，不仅口碑急剧下滑，颇有高开低走的趋势，同时该剧的评分也由最初的8.9分，下降到了现在的6.5分。虽然我还没有看过这个新剧，但是对于小伙伴们讨论的内容，却颇有兴趣（主要还是大家老是讨论这个剧）。因此，我用Python爬取了《大秦赋》的相关数据，进行了一波分析。数据爬取巧妇难为无米之炊，做数据分析之前最重要的就是 “数据获取” 。于是，我准备用Python爬取豆瓣上的短评数据以及一些评论时间信息、评价星级信息。关于数据的爬取主要说以下几个内容： 1）关于翻页操作第一页： https://movie.douban.com/subject/ 26413293 /comments?status=P 第二页： https://movie.douban.com/subject/ 26413293 /comments?start= 20 &limit= 20 &status=P&sort=new_score 第三页： https://movie.douban.com/subject/ 26413293 /comments?start=

python 嵌套爬取网页信息

阅读更多关于 python 嵌套爬取网页信息

当需要的信息要经过两个链接才能打开的时候，就需要用到嵌套爬取。比如要爬取起点中文网排行榜的小说简介，找到榜单网址： https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1 将榜单上的小说链接爬出来，在从小说链接里面爬小说简介 import pymysql import requests from hashlib import md5 import re import os #获取网页源代码 def get_one_page(url): # 设置请求头，防止被网站屏蔽 headers = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64)\ AppleWebKit/ 537.36 (KHTML, like Gecko) Chrome/ 58.0 . 3029.110 Safari/ 537.36 ' , } try : r = requests. get (url, headers= headers) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except requests

【python爬虫】用requests库模拟登陆人人网

阅读更多关于【python爬虫】用requests库模拟登陆人人网

说明：以前是selenium登陆取cookie的方法比较复杂，改用这个 """ 用requests库模拟登陆人人网 """ import requests # 这例有个坑，这个登录地址不是直接看到的登录地址，这是人人网的反爬机制 url = " http://www.renren.com/PLogin.do " # url = "http://www.renren.com/SysHome.do" # 在此输入账号密码，注意“email”“password”是网页中查到的key值 data = { " email " : " 18602992468 " , " password " : " qqq123 " } headers = { " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36 " } session = requests.Session() session.post(url, data = data, headers = headers) response = session.get( " http://www.renren.com/970006185 " )

写一个python 爬虫爬取百度电影并存入mysql中

阅读更多关于写一个python 爬虫爬取百度电影并存入mysql中

目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id int not null auto_increment, score VARCHAR( 50 ) DEFAULT 0, name VARCHAR( 50 ) DEFAULT 0, Pic VARCHAR( 200 ) DEFAULT 0, dianyingurl VARCHAR( 200 ) DEFAULT 0, leixing VARCHAR( 50 ) DEFAULT 0, niandai VARCHAR( 50 ) DEFAULT 0, diqu VARCHAR( 50 ) DEFAULT 0, PRIMARY KEY (id)) 其中图片地址列和电影地址列的字段名要设置长一点否则插入时不够，最好为每一列设置默认值。我们在切换页数时会发现，浏览器地址栏中是没有变化的，这就使得无法直接用地址栏的url变化和xpath来获取标签进行爬取。那么我们就用另外一种-----解析json字符串。首先打开f12 我们在切换页数时，会出现两个记录。点开1.2两个行的行踪记录，能看到他们的Request URL 仔细看会发现这两个request的url主要不同在在于

订阅 KHTML