html语言

python爬虫之Request库的使用

こ雲淡風輕ζ 提交于 2020-02-16 18:27:53
目录 一、Requests的安装 二、Request的使用 1、提取目标网站的代码 2、Request基本请求方式 3、Requests库的get()方法 4、Response 对象的属性 5、理解Requests库和Response的异常 6、爬取网页的通用代码框架 7、HTTP协议 三、爬取中国大学排名 Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 一、Requests的安装 pip install requests 二、Request的使用 1、提取目标网站的代码 import requests req = requests . get ( "https://www.baidu.com" ) print ( req . text ) 2、Request基本请求方式 方法 说明 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST requests.put() 向HTML网页提交PUT请求的方法

小白学习H5从入门到放弃

假装没事ソ 提交于 2020-02-16 09:14:44
话不多说直接进入主题: 1.什么是HTML语言 HTML5是用于取代1999年所制定的 HTML 4.01 和 XHTML 1.0 标准的 HTML 标准版本,现在仍处于发展阶段,但大部分浏览器已经支持某些 HTML5 技术。HTML 5有两大特点:首先,强化了 Web 网页的表现性能。其次,追加了本地数据库等 Web 应用的功能。广义论及HTML5时,实际指的是包括HTML、CSS和JavaScript在内的一套技术组合。它希望能够减少浏览器对于需要插件的丰富性网络应用服务(plug-in-based rich internet application,RIA),如Adobe Flash、Microsoft Silverlight,与Oracle JavaFX的需求,并且提供更多能有效增强网络应用的标准集。----->来自百度 简短的说就是HTML(html全称为HyperText Markup Language,中文直意为“超级文本标记语言”)的第5 个版本,而浏览器编译的就是HTML源码。 2.HTML的结构: HTML结构主要包括三大部分:文档声明部分、<head>头部部分、<body>主体部分,就像一个人物的刻画一样。 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>我的第一个网页</title> <

自定义Web框架

天涯浪子 提交于 2020-02-15 15:36:58
http协议 HTTP简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。 HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。 HTTP特点 1、简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。 2、灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 3.无连接

HTML前序

喜夏-厌秋 提交于 2020-02-15 15:29:10
HTML基本格式 <!DOCTYPE html> //文档类型声明 <html lang="zh-cn"> //表示HTML文档开始,属性lang,属性值=zh-cn(声明中文网页的意思) <head> //包含文档元素开始 <meta charset="UTF-8"> //声明字符编码 <title>标题</title> //设置文档标题 </head> //包含文档元素结束 <body> //表示HTML内容开始 </body> //表示HTML内容结束 </html> //表示HTML文档结束 <!DOCTYPE html> 它主要告诉浏览器所查看的文件类型,表示为HTML文档类型 <html lang="zh-cn"></html> HTML元素是文档开始和结尾的元素,它是一个双标签,包含内容,这个元素有一个属性和属性值,lang="zh-cn",表示文档语言为:简体中文,如果是英文网页为lang="en" <head> </head> 用来包含元数据内容,元数据内容包括:<link>、<meta>、<noscript>、<scripy>、<style>、<title>,这些内容用来向浏览器提供信息,比如link提供css信息,这些类型都是页面不可见的 <meta> 这个元素可以用来设置字符编码,告诉浏览器页面采用什么编码,除了设置编码还有别的 <title></title

xpath

谁说胖子不能爱 提交于 2020-02-15 10:45:37
什么是xml? 定义: 可扩展标记性语言(EXtensible Markup Language) 特定: xml是具有自描述特性的半结构化数据。 作用: xml主要用来传输数据 xml和html的区别 语法要求不同: xml的语法要求更严格 在html中不区分大小写,在xml中严格区分 在html中,有时不严格,如果上下文清楚地显示出段落或者列表键在何处结尾,那么你可以省略 或者 标记。在xml中,是严格的树状结构,绝对不能省略任何标记 在xml中,拥有单个标记二没有匹配的结束标记的元素必须用一个/字符作为结尾 在xml中,属性值必须分装在引号中。在html中,引号可用可不用 在html中属性名可以不带属性值,xml必须带 xml文档中,空白部分不会被解析器自动删除,但是html是过滤掉空格的 标记不同 html使用固有的标记,xml没有固有标记 html标签是预定义的,xml标签是自定义的、可扩展的 作用不同 html是用来显示数据 xml使用来传输数据的 xpath: 路径表达式 xpath: 是用来筛选html或者xml中元素语法 xml和html中一些名词 选取节点 表达式 描述 nodename 选取此节点的所有子节点 / 从根节点选取(绝对路径) // 从任意节点选取(相对路径) . 选取当前节点 . . 选取当前节点的父节点 @ 选取属性 谓语 路径表达式 结果 /

html小白学习

橙三吉。 提交于 2020-02-15 07:16:37
<!DOCTYPE html> <html> <head> <!-- <head> 元素包含了所有的头部标签元素。在 <head>元素中你可以插入脚本(scripts), 样式文件(CSS),及各种meta信息。 可以添加在头部区域的元素标签为: <title>, <style>, <meta>, <link>, <script>, <noscript>, and <base>. --> <!-- <link> 标签定义了文档与外部资源之间的关系。 <link> 标签通常用于链接到样式表: --> <link rel="stylesheet" type="text/css" href="mystyle.css"> <!-- <style> 标签定义了HTML文档的样式文件引用地址. 在<style> 元素中你也可以直接添加样式来渲染 HTML 文档: --> <style type="text/css"> body {background-color:white} p {color:red} </style> <meta name="author" content="Runoob"> <!-- 语言 --> <meta charset="utf-8"> <!-- 标题 --> <title>hahahah(runoob.com)</title> <!-- 定义了浏览器工具栏的标题

Python 与 http请求

橙三吉。 提交于 2020-02-15 07:10:40
Python 与 http请求 文章目录 Python 与 http请求 HTTP 基本原理 URI & URL 超文本 HTTP & HTTPS HTTP 请求过程 请求与响应 请求(Request) 响应(Response) 会话 和 Cookies 会话 Cookies 代理 网页基础 HTML, 超文本标记语言 CSS, 层叠样式表 JavaScript, 脚本语言 网页结构 选择器 用 Python 发起 HTTP 请求 urllib urllib.request 发送请求 `urlopen()`: 发送请求 `urlopen()` 带 `data` 参数: 用 POST 发送一些数据 `urlopen()` 带 `timeout` 参数: 如果请求超出了设置的这个时间,还没有得到响应,就会抛出异常。 Request 类构建 Headers Request类 的构建参数 高级用法 Handler Opener 处理 `HTTP 基本认证` 使用 `代理` 处理 Cookies 获取 Cookies 取用 Cookies urllib.error 处理异常 URLError: HTTPError 综合使用: urllib.parse 解析链接 quote() 将内容转化为 URL 编码的格式 urlparse() URL的识别和分段 urlunparse() 合成URL

Python 与 html解析

纵然是瞬间 提交于 2020-02-15 05:47:16
Python 与 html解析 文章目录 Python 与 html解析 正则表达式 RE in Python `match()` 修饰符 `search()` `findall()` XPath & LXML XPath常用规则 导入 HTML 从字符串导入 HTML 从文件导入 HTML 获取节点 获取所有节点 获取所有指定标签 获取子节点 获取特定属性的节点 获取父节点 获取节点中的的文本 获取属性 补充 BeautifulSoup BeaufulSoup对象的初始化 节点选择器 选择标签 嵌套选择 关联选择 获取**子孙节点** 获取父节点和祖先节点 获取兄弟节点 方法选择器 `find()` `findall()` 更多 CSS选择器 提取信息 获取完整标签 获取标签类型 获取标签内容 获取属性 PyQuery 初始化 字符串初始化 URL初始化 CSS选择器 查找节点 遍历 获取信息 `attr()` 获取属性 `text()` 获取文本 节点操作 本文由 CDFMLR 原创,收录于个人主页 https://clownote.github.io ,并同时发布到 CSDN。本人不保证 CSDN 排版正确,敬请访问 clownote 以获得良好的阅读体验。 正则表达式 正则表达式是一种处理字符串的强大的工具,它有自己特定的语法结构,可以高效地实现字符串的检索、替换

如何处理JSON中的特殊字符

。_饼干妹妹 提交于 2020-02-15 03:55:48
JSON 是适用于 Ajax 应用程序的一种有效格式,原因是它使 JavaScript 对象和字符串值之间得以快速转换。由于 Ajax 应用程序非常适合将纯文本发送给服务器端程序并对应地接收纯文本,相比不能生成文本的 API,能生成文本的 API 自然更可取;而且,JSON 让您能够处理本地 JavaScript 对象,而无需为如何表示这些对象多费心思。 XML 也可以提供文本方面的类似益处,但用于将 JavaScript 对象转换成 XML 的几个现有 API 没有 JSON API 成熟;有时,您必须在创建和处理 JavaScript 对象时格外谨慎以确保所进行的处理能与所选用的 XML 会话 API 协作。但对于 JSON,情况就大不相同:它能处理几乎所有可能的对象类型,并会返回给您一个非常好的 JSON 数据表示。 因此,JSON 的最大价值在于可以将 JavaScript 真的作为 JavaScript 而非数据格式语言进行处理。 您所学到的所有有关使用 JavaScript 对象的技巧都可以应用到代码中,而无需为如何将这些对象转变成文本而多费心思。 1. 回车问题 JSON传值的时候,如果有回车符就会挂的。我们可以使用正则来去掉回车符: 1 $str = preg_replace( "'([\r\n])[\s]+'" , "" , $str ); 2 3 // 不用正则

Python 与 网络爬虫

好久不见. 提交于 2020-02-15 02:11:41
Python 与 网络爬虫 文章目录 Python 与 网络爬虫 爬虫的基本原理 获取网页 提取信息 保存数据 自动化程序 爬虫实践 -- 抓取电影排行 目标 准备 分析 设计 实现 调试 完成 Ajax 数据爬取 Ajax 简介 发送请求 解析内容 渲染网页 Ajax 分析方法 Python 模拟 Ajax 请求 本文由 CDFMLR 原创,收录于个人主页 https://clownote.github.io ,并同时发布到 CSDN。本人不保证 CSDN 排版正确,敬请访问 clownote 以获得良好的阅读体验。 爬虫的基本原理 爬虫是 获取 网页并 提取 和 保存 信息的 自动化程序 。 可以说,我们能在浏览器中看到的一切内容,都可以通过爬虫得到(包括那些由JavaScript渲染出来的网页)。 爬虫主要解决以下几个问题: 获取网页 构造一个请求并发送给服务器,然后接收到响应并将其解析出来。 我们可以用urllib、 requests 等库来帮助我们实现 HTTP请求操作,请求和响应都可以用类库提供的数据结构来表示,得到响应之后只需要解析数据结构中的 Body 部分即可,即得到网页的源代码。 提取信息 分析网页源代码,从中提取我们想要的数据。 最通用的方法是采用 正则表达式 提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。 使用 Beautiful