python爬虫

python爬虫学习------登录微信获取联系人信息,并向联系人发送信息

旧街凉风 提交于 2020-03-20 06:31:13
Python爬虫目录 工具使用 Pycharm 连接Linux 远程开发 mongodb在windows下安装启动 爬虫抓包工具Fiddle设置 爬虫抓包工具Charles设置 爬虫工具fiddle在firefox浏览器中的使用 爬虫学习 python urllib和urllib3包使用 requests库使用 beautifulsoup库使用 mongodb基本使用 案例学习 python爬虫案例--------爬取youdao在线翻译内容 python爬虫案例--------爬取https://www.qiushibaike.com/用户信息,保存到mysql数据库中 python爬虫学习------登录微信获取联系人信息,并向联系人发送信息 未完待续…… 来源: https://www.cnblogs.com/xiao-apple36/p/8695787.html

Python妹子图爬虫实战项目【新手必学】

为君一笑 提交于 2020-03-18 19:54:14
作为Python的初学者,爬虫肯定是入门的不二选择,既能熟悉语法,又能通过爬虫了解一定的网络编程知识。 要想完美的食用本篇教程,首先你需要熟悉Python的基础语法以及基础的数据结构,之后最好了解Python面向对象编程,还有xpath的基本语法。 新手司机上路,请注意!:很多人学Python过程中会遇到各种烦恼问题,没有人解答容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python实战教程免非下,,一起相互监督共同进步! 爬虫的原理其实很简单,模仿人浏览网页并记录数据。 我们的目标网站—— www.mmjpg.com 如果你现在已经打开了这个网站,求求你们,把持住自己!!! 现在,让我们踩下油门,开始飙车!!! 我们的目的是保存每个妹子的图片,并以文件夹的形式保存在我们的电脑上。 首先我们分析这个网站的url,这是很重要的一步 打开首页 www.mmjpg.com 点击下一页,它的第二页是 http://www.mmjpg.com/home/2 ,这时我们把2改成1,是不是就可以跳转到第一页呢? 哇!!居然是404!!! 所以我们现在了解到,这个网站第一页为 www.mmjpg.com ,后面的页面为 http://www.mmjpg.com/home/n ,n是页码。 目前

爬虫相关

无人久伴 提交于 2020-03-18 03:29:50
一、反爬机制和应对措施 1、通过Headers 措施:添加User-Agent和Referer 2、基于用户行为 措施:代理IP、延迟爬取 3、动态页面 措施:requests模拟ajax请求,如果请求加密了使用selenium+phantomJS 验证码解决:Tesseract 二、Scrapy运行机制及优缺点 从start_urls里获取第一批URL并发送给Scrapy引擎,引擎交给调度器进入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去下载资源,并将响应交给Spider编写的解析方法做提取处理 1、如果提取出需要的数据,交给管道进行处理 2、如果提取出URL,则继续入请求队列,执行前面的操作 优点: 1、异步的 2、采取可读性更强的Xpth代替正则 3、可以同时在不同的URL上爬取 4、支持Shell方式,方便独立调试 5、写中间件,方便写一些同一的过滤器 6、通过管道方式存入数据库 缺点: 1、基于python的爬虫框架,扩展性比较差 2、基于twisted异步框架,出错后不会停掉其他任务。数据出错很难察觉 三、代理IP及维护 透明代理:客户端根本不需要知道有代理服务器的存在,但是它传送的任然是真是的IP 普通匿名代理:能隐藏掉客户机的真是IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理 高匿名代理:不改变客户机的请求,客户的真实IP是隐藏的

人生苦短之爬虫爬取网页的通用代码框架

╄→尐↘猪︶ㄣ 提交于 2020-03-18 00:54:34
某厂面试归来,发现自己落伍了!>>> 我们首先打开IDLE选择File->new window命令(或者可以直接按键Ctrl+N键,在很多地方这个按键是新建文件的意思) 在这里还是要推荐下我自己建的Python开发学习群:725479218,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴 我们填入代码: 保存文件是按键快捷键Ctrl+S,将源代码保存为hello.py的文件 按键F5运行走起(同时我们可以选择Run->Run Module命令) IDLE中显示出现错误 : 原因是name‘ name ’未定义 注意:这里需要一个长的下划线,才能使其正确,以用来区分python本身的语法 改正过后我们再次运行: 我们看到出现了和之前一样的结果 我们将网页连接修改一下看看会出现什么结果: 结果是“产生异常” 解释一下通用代码框架:get方法请求一个链接,r.raise_for_status用来判断请求是否正常(也就是200),否则就产生异常。r.encoding = r.apparent_encoding这一句是能够是我们请求返回网页解码是正确的,最后return返回网页的内容。

Python3网络爬虫入门

给你一囗甜甜゛ 提交于 2020-03-17 11:32:36
一、什么是Python3网络爬虫? 定义: 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。 简介: 网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 爬虫流程: ①先由urllib的request打开Url得到网页html文档 ②浏览器打开网页源代码分析元素节点 ③通过Beautiful Soup或则正则表达式提取想要的数据 ④存储数据到本地磁盘或数据库(抓取,分析,存储) 二、 爬虫的必备技能 在讲解爬虫内容之前,我们需要先学习一项写爬虫的必备技能: 审查元素(如果已掌握,可跳过此部分内容)。 1、 审查元素 在浏览器的地址栏输入URL地址,在网页处右键单击,找到检查。(不同浏览器的叫法不同,Chrome浏览器叫做检查,Firefox浏览器叫做查看元素,但是功能都是相同的) 我们可以看到,右侧出现了一大推代码,这些代码就叫做HTML。什么是HTML?举个容易理解的例子: 我们的基因决定了我们的原始容貌,服务器返回的HTML决定了网站的原始容貌。 2 、简单实例

python爬虫--11 京东商城

强颜欢笑 提交于 2020-03-17 10:19:13
import requests from bs4 import BeautifulSoup ## 获取网页信息 def getHtmlText(url): try: r = requests.get(url) r.raise_for_status() r.encoding =r.apparent_encoding return r.text except: return 'false' ## 解析网页参数,获取商品信息 def parserHtml(goods_data,html): soup =BeautifulSoup(html,'html.parser') lis = soup.find_all('li',class_= 'gl-item') print(len(lis)) for i in range(len(lis)): try: title = lis[i].a['title'] price = lis[i].find('div',class_='p-price').i.string goods_data.append([title,price]) except: print('') ## 输出数据 def printHtmlGoods(goods_data): std = r'{0:^100}{1:^8}' print(std.format('商品名称', '价格')

python爬虫--12 股票爬虫

不打扰是莪最后的温柔 提交于 2020-03-17 09:55:49
import requests from bs4 import BeautifulSoup import re ## 获取也页面r.text def getHTMLText(url, code="utf-8"): try: r = requests.get(url) r.raise_for_status( ) r.encoding = code return r.text except: return "" ## 获取所有股票编号 def getStockList(lst, stockURL): html = getHTMLText(stockURL, "GB2312") soup = BeautifulSoup(html, 'html.parser') a = soup.find_all('a') for i in a: try: href = i.attrs['href'] lst.append(re.findall(r"[s][hz]\d{6}", href)[0]) except: continue ## 根据股票编号获取股票信息并存储 def getStockInfo(lst, stockURL, fpath): count = 0 for stock in lst: url = stockURL + stock + ".html" html = getHTMLText

Python新手爬虫三:爬取PPT模板

人盡茶涼 提交于 2020-03-16 13:48:05
爬取网站:第一 PPT( http://www.1ppt.com/ ) 此网站真的良心 大写的牛 老样子,先上最后成功的源码: import requests import urllib import os from bs4 import BeautifulSoup from fake_useragent import UserAgent def getPPT(url): f = requests.get(url,headers=headers) #发送GET请求 f.encoding = f.apparent_encoding #设置编码方式 soup1 = BeautifulSoup(f.text,'lxml') classHtml = soup1.find('div',class_="col_nav i_nav clearfix").select('a') #在html中寻找类别 for i in classHtml[:56]: classUrl = i['href'].split('/')[2] #将ppt模板类别关键词存到classUrl if not os.path.isdir(r'D:\PPT\\'+i['title']): #判断有无此目录 os.mkdir(r'D:\PPT\\'+i['title']) #若无,创建此目录。 else: continue

Python新手爬虫一:爬取豆瓣影片名称

爷,独闯天下 提交于 2020-03-16 12:59:39
豆瓣网站: https://movie.douban.com/chart 先上最后的代码: from bs4 import BeautifulSoup from lxml import html import xml import requests from fake_useragent import UserAgent #ua库 import xlwt #表格模块 n = [] #存放电影名称 p = [] #存放电影评分 def get_url(): url = "https://movie.douban.com/chart" ua = UserAgent() headers={'user-agent':ua.random} f = requests.get(url,headers=headers) #Get该网页从而获取该html内容 soup = BeautifulSoup(f.text,'lxml') #用lxml解析器解析该网页的内容, 好像f.content也是返回的html for k in soup.find_all('div',class_='pl2'): #找到div并且class为pl2的标签 b = k.find('a') #在每个对应div标签下找a标签 n.append(b.get_text()) #取标签 a 下的文字,并添加到 n 列表中 for

爬虫之BeautifulSoup类

给你一囗甜甜゛ 提交于 2020-03-15 19:56:37
安装:pip install BeautifulSoup4 下表列出了主要的解析器,以及它们的优缺点:看个人习惯选取自己喜欢的解析方式 1 # 获取html代码 2 import requests 3 r = requests.get('http://www.python123.io/ws/demo.html') 4 demo = r.text 5 from bs4 import BeautifulSoup 6 soup = BeautifulSoup(demo,'html.parser') 7 print(soup.prettify()) #按照标准的缩进格式的结构输出,代码如下 8 <html> 9 <head> 10 <title> 11 This is a python demo page 12 </title> 13 </head> 14 <body> 15 <p class="title"> 16 <b> 17 The demo python introduces several python courses. 18 </b> 19 </p> 20 <p class="course"> 21 Python is a wonderful general-purpose programming language. You can learn Python from