url

Python爬虫(二)_urllib2的使用

半世苍凉 提交于 2020-03-25 20:53:25
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习 urllib2 。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档: https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2 在python3.x中被改为 urllib.request urlopen 我们先来段代码: #-*- coding:utf-8 -*- #01.urllib2_urlopen.py #导入urllib2库 import urllib2 #向指定的url发送请求,并返回服务器的类文件对象 response = urllib2.urlopen("http://www.baidu.com") #类文件对象支持文件对象的操作方法,如read()方法读取文件 html = response.read() #打印字符串 print(html) 执行写好的python代码,将打印结果: python2 01.urllib2_urlopen.py 实际上,如果我们在浏览器打上百度主页,右键选择"查看源代码",你会发现,跟我们刚才打印出来的是一模一样的。也就是说,上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。

深夜,我用python爬取了整个斗图网站,不服来斗

半腔热情 提交于 2020-03-25 20:14:49
3 月,跳不动了?>>> QQ、微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗。 废话不多说,选取的网站为斗图啦,我们先简单来看一下网站的结构 网页信息 从上面这张图我们可以看出,一页有多套图,这个时候我们就要想怎么把每一套图分开存放(后边具体解释) 通过分析,所有信息在页面中都可以拿到,我们就不考虑异步加载,那么要考虑的就是分页问题了,通过点击不同的页面,很容易看清楚分页规则 很容易明白分页URL的构造,图片链接都在源码中,就不做具体说明了明白了这个之后就可以去写代码抓图片了 存图片的思路 因为要把每一套图存入一个文件夹中(os模块),文件夹的命名我就以每一套图的URL的最后的几位数字命名,然后文件从文件路径分隔出最后一个字段命名,具体看下边的截图。 这些搞明白之后,接下来就是代码了(可以参考我的解析思路,只获取了30页作为测试)全部源码 # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import os class doutuSpider(object): headers = { "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52

分享一个移动端滑到底部翻页的代码

余生颓废 提交于 2020-03-25 17:02:16
今天在技术群看到有朋友有需求,就随手写了一个,大家随便看看~ demo地址: http://www.dtzhuanjia.com/pri... (备注:这个主要用在移动端,所以用rem随便写了写样式= =PC看着不舒服用模拟器看吧) html: <!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"> <title>下一页</title> <meta name="Keywords" content=""> <meta name="description" content=""> <meta name="viewport" content="initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=0,width=device-width"> <link rel="stylesheet" href="http://www.dtzhuanjia.com/css/init.css"> <link rel="stylesheet" href="http://www.dtzhuanjia.com/private/plugin

cookie和代理操作

吃可爱长大的小学妹 提交于 2020-03-25 15:36:00
一, 基于requests模块的cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/env python # -*- coding:utf-8 -*- import requests if __name__ == "__main__": #张三人人网个人信息页面的url url = 'http://www.renren.com/289676607/profile' #伪装UA headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', } #发送请求,获取响应对象 response = requests.get(url=url,headers=headers) #将响应内容写入文件 with open('./renren.html','w',encoding='utf-8') as fp: fp.write(response.text) - 结果发现,写入到文件中的数据

HTML资源定位器-URL

蓝咒 提交于 2020-03-25 15:31:37
URL 也被称为网址。 URL 可以由单词组成,比如 “www.baidu.com”,或者是因特网协议(IP)地址:192.168.1.253。 URL - Uniform Resource Locator 当您点击 HTML 页面中的某个链接时,对应的 <a> 标签指向万维网上的一个地址。 统一资源定位器(URL)用于定位万维网上的文档(或其他数据)。 网址,比如 http://www.w3school.com.cn/html/index.asp ,遵守以下的语法规则: scheme://host.domain:port/path/filename 解释: scheme - 定义因特网服务的类型。最常见的类型是 http host - 定义域主机(http 的默认主机是 www) domain - 定义因特网域名,比如 w3school.com.cn :port - 定义主机上的端口号(http 的默认端口号是 80) path - 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。 filename - 定义文档/资源的名称 URL Schemes 以下是其中一些最流行的 scheme: URL编码: URL 只能使用 ASCII 字符集 来通过因特网进行发送。 由于 URL 常常会包含 ASCII 集合之外的字符,URL 必须转换为有效的 ASCII 格式。

URL-统一资源定位器

孤街醉人 提交于 2020-03-25 15:27:30
URL - Uniform Resource Locator URL 可以由单词组成,比如 “w3school.com.cn”,或者是因特网协议(IP)地址:192.168.1.253。大多数人在网上冲浪时,会键入网址的域名,因为名称比数字容易记忆。 语法规则: scheme://host.domain:port/path/filename 解释: scheme - 定义因特网服务的类型。最常见的类型是 http host - 定义域主机(http 的默认主机是 www) domain - 定义因特网域名,比如 w3school.com.cn :port - 定义主机上的端口号(http 的默认端口号是 80) path - 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。 filename - 定义文档/资源的名称 URL Schemes 以下是其中一些最流行的 scheme: Scheme 访问 用于... http 超文本传输协议 以 http:// 开头的普通网页。不加密。 https 安全超文本传输协议 安全网页。加密所有信息交换。 ftp 文件传输协议 用于将文件下载或上传至网站。 file URL 编码 URL 编码会将字符转换为可通过因特网传输的格式。 URL 只能使用 ASCII 字符集 来通过因特网进行发送。 由于 URL 常常会包含 ASCII

14、HTML 统一资源定位器

非 Y 不嫁゛ 提交于 2020-03-25 14:43:44
URL - 统一资源定位器 Web浏览器通过URL从Web服务器请求页面 当您点击 HTML 页面中的某个链接时,对应的 <a> 标签指向万维网上的一个地址 一个统一资源定位器(URL) 用于定位万维网上的文档 scheme://host.domain:port/path/filename 说明: scheme - 定义因特网服务的类型。最常见的类型是 http host - 定义域主机(http 的默认主机是 www) domain - 定义因特网域名,比如 runoob.com :port - 定义主机上的端口号(http 的默认端口号是 80) path - 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。 filename - 定义文档/资源的名称 URL scheme Scheme 访问 用于... http 超文本传输协议 以 http:// 开头的普通网页。不加密。 https 安全超文本传输协议 安全网页,加密所有信息交换。 ftp 文件传输协议 用于将文件下载或上传至网站。 file 您计算机上的文件。 URL字符编码 URL只能使用ASCII字符集 来通过因特网进行发送。由于 URL 常常会包含 ASCII 集合之外的字符,URL 必须转换为有效的 ASCII 格式 URL 编码使用 "%" 其后跟随两位的十六进制数来替换非 ASCII 字符

统一资源定位符 (Uniform Resource Locator, URL)

牧云@^-^@ 提交于 2020-03-25 12:43:58
统一资源定位符 (Uniform Resource Locator, URL) 是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。 Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就是Web地址,俗称“网址”。 URI 方案集,包含如何访问 Internet 上的资源的明确指令。 URL 是统一的,因为它们采用相同的基本语法,无论寻址哪种特定类型的资源(网页、新闻组)或描述通过哪种机制获取该资源。 对于 Internet 服务器或万维网服务器上的目标文件,可以使用“统一资源定位符 (URL)”地址(该地址以“http://”开始)。Web 服务器使用“超文本传输协议 (HTTP)”,一种“幕后的”Internet 信息传输协议。例如,http://www.microsoft.com/ 为 Microsoft 网站的万维网 URL 地址。 URL的一般格式为(带方括号[]的为可选项): protocol :// hostname[:port] / path / [;parameters][?query]#fragment 例如: http://www.imailtone.com:80/WebApplication1

统一资源定位符URL(Uniform Resource Locator)

不想你离开。 提交于 2020-03-25 12:43:16
佟强 http://blog.csdn.net/microtong OakCMS内容管理系统 http://www.oakcms.cn http://www.oakcms.net 统一资源定位符 URL ( Uniform Resource Locator )用来表示因特网上资源的位置和访问这些资源的方法。 URL 给资源的位置提供一种抽象的表示方法,并用这种方法给资源定位。只要能够对资源定位,用户就可以对资源进行各种操作,如存取、更新、替换和查看属性。 这里所说的“资源”是指在因特网上可以被访问的任何对象,包括目录、文件、图像、声音等,以及与因特网相连的任何形式的数据。 URL 相当于文件名在网络范围的扩展。由于访问不同资源所使用的协议不同,所以 URL 还给出访问某个资源时所使用的协议。 URL 的一般形式如下: < 协议 >://< 主机 >:< 端口 >/< 路径 >/< 文件名 > 例如: http://news.sina.com.cn/c/2009-04-06/013517553188.shtml < 协议 > 指出使用什么协议来获取该互联网资源。现在最常用的协议就是 HTTP (超文本传输协议),其次是 FTP (文件传输协议)。在 < 协议 > 后面规定必须写上的格式“ :// ”,不能省略。 < 主机 > 指出万维网文档是在哪一个主机上,可以给出域名,可以给出

谈谈http中get与post的区别

﹥>﹥吖頭↗ 提交于 2020-03-25 12:24:23
3 月,跳不动了?>>> Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个URL地址,它用于描述一个网络上的资源,而HTTP中的GET,POST,PUT,DELETE就对应着对这个资源的查,改,增,删4个操作。到这里,大家应该有个大概的了解了,GET一般用于获取/查询资源信息,而POST一般用于更新资源信息。 1.根据HTTP规范,GET用于信息获取,而且应该是安全的和幂等的。 (1).所谓安全的意味着该操作用于获取信息而非修改信息。换句话说,GET 请求一般不应产生副作用。就是说,它仅仅是获取资源信息,就像数据库查询一样,不会修改,增加数据,不会影响资源的状态。 * 注意:这里安全的含义仅仅是指是非修改信息。 (2).幂等的意味着对同一URL的多个请求应该返回同样的结果。这里我再解释一下幂等这个概念: 幂等(idempotent、idempotence)是一个数学或计算机学概念,常见于抽象代数中。 幂等有一下几种定义: 对于单目运算,如果一个运算对于在范围内的所有的一个数多次进行该运算所得的结果和进行一次该运算所得的结果是一样的,那么我们就称该运算是幂等的。比如绝对值运算就是一个例子,在实数集中,有abs(a)=abs(abs(a))。 对于双目运算