python爬虫

python-爬虫-庆余年小说-词云胡乱分析

▼魔方 西西 提交于 2020-01-30 22:02:35
真的不想再看见有谁未经许可也不标明出处搬运我的文章了,所以我自己先在博客园同步发一个。 进入正题,首先要搞到资源,我先去了搜索了一番,找到个网站“落霞”。一言不合就按下了F12,翻了下网页源码,超级简单。 1 from bs4 import BeautifulSoup 2 from requests import Session 3 from re import sub,DOTALL 4 sess = Session() 5 txt=[] 6 url = 'https://www.luoxia.com/qing/48416.htm' 7 def find(url): 8 res = sess.get(url) 9 soup = BeautifulSoup(res.content,'html.parser') 10 title = soup.find('title') 11 div = soup.find('div',id='nr1') 12 ps = div.find_all('p') 13 page = title.text+'\n' 14 print(page) 15 for p in ps: 16 page += p.text+'\n' 17 txt.append(page) 18 try: 19 a = soup.find('a',rel='next') 20 href =

python爬虫-User-Agent的伪造

最后都变了- 提交于 2020-01-30 17:46:25
某些网站会识别python爬虫程序并阻断,通过构造User_Agent可以抵抗某些反爬虫机制 用fake-useragent这个库就能很好的实现 pycharm中安装步骤 产生随机的User-Agent 只需一行代码 from fake_useragent import UserAgent ua = UserAgent ( ) print ( ua . random ) print ( ua . random ) print ( ua . random ) print ( ua . random ) print ( ua . random ) 会随机产生不同的User-agent 来源: CSDN 作者: lonmar. 链接: https://blog.csdn.net/weixin_45551083/article/details/104115585

python之爬虫

倾然丶 夕夏残阳落幕 提交于 2020-01-30 09:24:50
用python来写一个爬虫 要爬的网站网址如下:https://lovelive.tools/ 这个网页的初始页面是这样的: 点击再来一条,页面上的话语可以变换成不同的语句。 我们的目的就是把这个页面上的这些语句爬出来。 在这个页面上,如果你的键盘上F12直接表示功能键的话,就直接按F12;如果不是,需按“Fn+F12"。 右边这个页面叫开发者工具,而且在出现的这栏里还是有很多栏的,我们选择Network这一栏,因为这里都是网络请求。 此时你再点击”再来一条“,页面右侧会发生如下变化。 点击”Name"下方的“1”会出现如下界面 右侧第一条会有一个URL的网址,因为这是一个get请求,所以可以用浏览器直接打开。 将刚刚网页上的文字粘贴复制到 https://www.json.cn/ 这个网址的左侧部分,在右侧我们可以更直观的看出这个数组里所包含的元素 我们可以看出来我们想爬出来的语句的元素名是“content”,那么我们可以开始写我们的代码了 先用import语句导入两个模块 import requests import json 自定义变量名req req = requests.Session() requests库的session会话对象可以跨请求保持某些参数,说白了,就是比如你使用session成功的登录了某个网站

django高级之爬虫基础

会有一股神秘感。 提交于 2020-01-30 06:23:51
目录: 爬虫原理 requests模块 beautifulsoup模块 爬虫自动登陆示例 一、爬虫原理 Python非常适合用来开发网页爬虫,理由如下: 1、抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择) 此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests,mechanize 2、网页抓取后的处理 抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。 其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。 3、爬虫架构 URL管理器:管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器。 网页下载器(urllib、requests):爬取url对应的网页,存储成字符串或文件,传送给网页解析器。 网页解析器

python 爬虫日记

让人想犯罪 __ 提交于 2020-01-30 02:55:18
首先是三大问题,跟搞哲学的差不多: 爬虫是什么 爬虫能做什么 怎么学爬虫 什么是爬虫 (what’s the sprider) 爬虫可以做什么 怎么学习爬虫 既然是学习,就要做好付出时间和精力在这上面的思想准备;如果是新手,更应该知道接触新的知识可能会产生挫败感!没有一路坎坷,哪有累累硕果! 言归正传,学习爬虫技术,就需要知道他涉及的知识点,再根据自己的实际情况,划重点,攻克难点,总结要点;自然可以旗开得胜,无往而不胜。 先来个小例子练练手: import requests import BeautifulSoup 爬虫的基础知识: URL (Universal resource Locator) 统一资源定位符, <URL的访问形式> : //<主机>:<端口>/<路径> HTTP:(HyperText Transfer Protocol)超文本传输协议 HTML(HyperText Markup Language) 好了,铺垫已经做完了,接下来该讲讲原理了。 学习没有这么快的,不要着急! 速成!!! 在这里没有! 一份耕耘,一份收获。除非抢劫,侵占别人的劳动成果,据为己有,这是强盗! Scrapy 爬虫工具常用库 install scrapy sudo python3 -m pip install scrapy Requests Http 库 HTTP协议入门 – 阮一峰

【爬虫学习笔记day07】1.5. Requests深入+基本POST请求(data参数)+代理(proxies参数)+私密代理验证(特定格式) 和 Web客户端验证(auth 参数)+Cookies

▼魔方 西西 提交于 2020-01-30 02:54:12
文章目录 1.5. Requests深入 基本POST请求(data参数) 1. 最基本post方法 2. 传入data数据 代理(proxies参数) 私密代理验证(特定格式) 和 Web客户端验证(auth 参数) 私密代理 web客户端验证 Cookies 和 Sission Cookies session 实现人人网登录 处理HTTPS请求 SSL证书验证 1.5. Requests深入 基本POST请求(data参数) 1. 最基本post方法 response = requests . post ( "http://www.baidu.com/" , data = data ) 2. 传入data数据 对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。 import requests formdata = { "type" : "AUTO" , "i" : "i love python" , "doctype" : "json" , "xmlVersion" : "1.8" , "keyfrom" : "fanyi.web" , "ue" : "UTF-8" , "action" : "FY_BY_ENTER" , "typoResult" : "true" } url = "http://fanyi.youdao

Python学习【爬虫】(一)

隐身守侯 提交于 2020-01-30 01:35:35
爬虫 网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 Python如何访问互联网 使用Urllib库 URL 一般格式: protocol://hostname[:port]/path/[;parameters][?query]#fragment 中括号中为可选项 url由三部分组成: (1)协议:http,https,ftp,file,ed2k… (2)存放资源的服务器的域名系统或IP地址(有时需要包含端口号,各传输协议都有默认的端口号,如http默认端口号80) (3)资源的具体地址,如目录或文件名等 urlopen函数 urllib.request 文档 urllib.request.urlopen(url, data=None,[timeout,]*, cafile=None, capath=None, cadeful=False) >> > import urllib . request >> > response = urllib . request . urlopen ( "https://www.csdn.net/" ) >> > html = response . read ( ) # 读取网页内容 >> > html = html . decode ( "utf-8" ) # 以“utf-8”格式编码显示 >> > print ( html

python爬虫笔记

a 夏天 提交于 2020-01-30 00:54:14
爬虫 http://httpbin.org/ 验证请求 1.urllib库(python3) python内置的HTTP请求库 urllib.request 请求模块 ( https://yiyibooks.cn/xx/python_352/library/urllib.request.html#module-urllib.request ) urllib.error 异常处理模块( https://yiyibooks.cn/xx/python_352/library/urllib.error.html#module-urllib.error ) urllib.parse url解析模块( https://yiyibooks.cn/xx/python_352/library/urllib.parse.html#module-urllib.parse ) urllib.robotparser robots.txt解析模块( https://yiyibooks.cn/xx/python_352/library/urllib.robotparser.html#module-urllib.robotparser ) 请求: import urllib.request urllib.request.urlopen(url, data=None, [timeout, ]*, cafile

Python爬虫|爬取喜马拉雅音频

假如想象 提交于 2020-01-30 00:50:05
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快、规模最大的在线移动音频分享平台。今晚分享突破障碍,探秘喜马拉雅的天籁之音,实现实时抓取,并保存到本地! 知识点: 开发环境:windows pycharm requests json 网络反爬技术 文件的操作 网络请求 数据的转换 数据类型的使用 1. 首先导入requests库 import requests 6. 将上面获得的json数据转换成字典格式(需要导入json模块) import json 4. header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"} 这是应对反爬虫机制,伪装成合法浏览器而添加,本来复制过来的是User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537

拉钩爬虫

本小妞迷上赌 提交于 2020-01-29 22:34:41
#!/usr/bin/env python# -*- coding:utf-8 -*-import jsonimport reimport timeimport lxml.htmlfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom redis_cache import RedisCacheclass LagouSpider(object): def __init__(self): # 调用webdriver.Chrome()启动浏览器 self.driver = webdriver.Chrome() self.url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' self.detail_url = None def run(self): # 获得url打开浏览器 self.driver.get(self.url) while