html语言 | 易学教程

python爬虫之Request库的使用

阅读更多关于 python爬虫之Request库的使用

目录一、Requests的安装二、Request的使用 1、提取目标网站的代码 2、Request基本请求方式 3、Requests库的get（）方法 4、Response 对象的属性 5、理解Requests库和Response的异常 6、爬取网页的通用代码框架 7、HTTP协议三、爬取中国大学排名 Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库一、Requests的安装 pip install requests 二、Request的使用 1、提取目标网站的代码 import requests req = requests . get ( "https://www.baidu.com" ) print ( req . text ) 2、Request基本请求方式方法说明 requests.request() 构造一个请求，支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST requests.put() 向HTML网页提交PUT请求的方法

小白学习H5从入门到放弃

阅读更多关于小白学习H5从入门到放弃

话不多说直接进入主题： 1.什么是HTML语言 HTML5是用于取代1999年所制定的 HTML 4.01 和 XHTML 1.0 标准的 HTML 标准版本，现在仍处于发展阶段，但大部分浏览器已经支持某些 HTML5 技术。HTML 5有两大特点：首先，强化了 Web 网页的表现性能。其次，追加了本地数据库等 Web 应用的功能。广义论及HTML5时，实际指的是包括HTML、CSS和JavaScript在内的一套技术组合。它希望能够减少浏览器对于需要插件的丰富性网络应用服务（plug-in-based rich internet application，RIA)，如Adobe Flash、Microsoft Silverlight，与Oracle JavaFX的需求，并且提供更多能有效增强网络应用的标准集。----->来自百度简短的说就是HTML（html全称为HyperText Markup Language，中文直意为“超级文本标记语言”）的第5 个版本，而浏览器编译的就是HTML源码。 2.HTML的结构： HTML结构主要包括三大部分：文档声明部分、<head>头部部分、<body>主体部分，就像一个人物的刻画一样。 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>我的第一个网页</title> <

自定义Web框架

阅读更多关于自定义Web框架

http协议 HTTP简介 HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。 HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。 HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后，向客户端发送响应信息。 HTTP特点 1、简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。 2、灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 3.无连接

HTML前序

阅读更多关于 HTML前序

HTML基本格式 <!DOCTYPE html> //文档类型声明 <html lang="zh-cn"> //表示HTML文档开始，属性lang,属性值=zh-cn（声明中文网页的意思） <head> //包含文档元素开始 <meta charset="UTF-8"> //声明字符编码 <title>标题</title> //设置文档标题 </head> //包含文档元素结束 <body> //表示HTML内容开始 </body> //表示HTML内容结束 </html> //表示HTML文档结束 <!DOCTYPE html> 它主要告诉浏览器所查看的文件类型，表示为HTML文档类型 <html lang="zh-cn"></html> HTML元素是文档开始和结尾的元素，它是一个双标签，包含内容，这个元素有一个属性和属性值，lang="zh-cn"，表示文档语言为：简体中文，如果是英文网页为lang="en" <head> </head> 用来包含元数据内容，元数据内容包括：<link>、<meta>、<noscript>、<scripy>、<style>、<title>,这些内容用来向浏览器提供信息，比如link提供css信息，这些类型都是页面不可见的 <meta> 这个元素可以用来设置字符编码，告诉浏览器页面采用什么编码，除了设置编码还有别的 <title></title

xpath

阅读更多关于 xpath

什么是xml? 定义: 可扩展标记性语言(EXtensible Markup Language) 特定: xml是具有自描述特性的半结构化数据。作用: xml主要用来传输数据 xml和html的区别语法要求不同: xml的语法要求更严格在html中不区分大小写，在xml中严格区分在html中，有时不严格，如果上下文清楚地显示出段落或者列表键在何处结尾，那么你可以省略或者标记。在xml中，是严格的树状结构，绝对不能省略任何标记在xml中，拥有单个标记二没有匹配的结束标记的元素必须用一个/字符作为结尾在xml中，属性值必须分装在引号中。在html中，引号可用可不用在html中属性名可以不带属性值，xml必须带 xml文档中，空白部分不会被解析器自动删除，但是html是过滤掉空格的标记不同 html使用固有的标记，xml没有固有标记 html标签是预定义的，xml标签是自定义的、可扩展的作用不同 html是用来显示数据 xml使用来传输数据的 xpath: 路径表达式 xpath: 是用来筛选html或者xml中元素语法 xml和html中一些名词选取节点表达式描述 nodename 选取此节点的所有子节点 / 从根节点选取(绝对路径) // 从任意节点选取(相对路径) . 选取当前节点 . . 选取当前节点的父节点 @ 选取属性谓语路径表达式结果 /

html小白学习

阅读更多关于 html小白学习

<!DOCTYPE html> <html> <head>   <link rel="stylesheet" type="text/css" href="mystyle.css">  <style type="text/css"> body {background-color:white} p {color:red} </style> <meta name="author" content="Runoob">  <meta charset="utf-8">  <title>hahahah(runoob.com)</title> <!-- 定义了浏览器工具栏的标题

Python 与 http请求

阅读更多关于 Python 与 http请求

Python 与 http请求文章目录 Python 与 http请求 HTTP 基本原理 URI & URL 超文本 HTTP & HTTPS HTTP 请求过程请求与响应请求（Request）响应（Response）会话和 Cookies 会话 Cookies 代理网页基础 HTML, 超文本标记语言 CSS, 层叠样式表 JavaScript, 脚本语言网页结构选择器用 Python 发起 HTTP 请求 urllib urllib.request 发送请求 `urlopen()`: 发送请求 `urlopen()` 带 `data` 参数: 用 POST 发送一些数据 `urlopen()` 带 `timeout` 参数: 如果请求超出了设置的这个时间，还没有得到响应，就会抛出异常。 Request 类构建 Headers Request类的构建参数高级用法 Handler Opener 处理 `HTTP 基本认证` 使用 `代理` 处理 Cookies 获取 Cookies 取用 Cookies urllib.error 处理异常 URLError: HTTPError 综合使用： urllib.parse 解析链接 quote() 将内容转化为 URL 编码的格式 urlparse() URL的识别和分段 urlunparse() 合成URL

Python 与 html解析

阅读更多关于 Python 与 html解析

Python 与 html解析文章目录 Python 与 html解析正则表达式 RE in Python `match()` 修饰符 `search()` `findall()` XPath & LXML XPath常用规则导入 HTML 从字符串导入 HTML 从文件导入 HTML 获取节点获取所有节点获取所有指定标签获取子节点获取特定属性的节点获取父节点获取节点中的的文本获取属性补充 BeautifulSoup BeaufulSoup对象的初始化节点选择器选择标签嵌套选择关联选择获取**子孙节点** 获取父节点和祖先节点获取兄弟节点方法选择器 `find()` `findall()` 更多 CSS选择器提取信息获取完整标签获取标签类型获取标签内容获取属性 PyQuery 初始化字符串初始化 URL初始化 CSS选择器查找节点遍历获取信息 `attr()` 获取属性 `text()` 获取文本节点操作本文由 CDFMLR 原创，收录于个人主页 https://clownote.github.io ，并同时发布到 CSDN。本人不保证 CSDN 排版正确，敬请访问 clownote 以获得良好的阅读体验。正则表达式正则表达式是一种处理字符串的强大的工具，它有自己特定的语法结构，可以高效地实现字符串的检索、替换

如何处理JSON中的特殊字符

阅读更多关于如何处理JSON中的特殊字符

JSON 是适用于 Ajax 应用程序的一种有效格式，原因是它使 JavaScript 对象和字符串值之间得以快速转换。由于 Ajax 应用程序非常适合将纯文本发送给服务器端程序并对应地接收纯文本，相比不能生成文本的 API，能生成文本的 API 自然更可取；而且，JSON 让您能够处理本地 JavaScript 对象，而无需为如何表示这些对象多费心思。 XML 也可以提供文本方面的类似益处，但用于将 JavaScript 对象转换成 XML 的几个现有 API 没有 JSON API 成熟；有时，您必须在创建和处理 JavaScript 对象时格外谨慎以确保所进行的处理能与所选用的 XML 会话 API 协作。但对于 JSON，情况就大不相同：它能处理几乎所有可能的对象类型，并会返回给您一个非常好的 JSON 数据表示。因此，JSON 的最大价值在于可以将 JavaScript 真的作为 JavaScript 而非数据格式语言进行处理。您所学到的所有有关使用 JavaScript 对象的技巧都可以应用到代码中，而无需为如何将这些对象转变成文本而多费心思。 1. 回车问题 JSON传值的时候，如果有回车符就会挂的。我们可以使用正则来去掉回车符： 1 $str = preg_replace( "'([\r\n])[\s]+'" , "" , $str ); 2 3 // 不用正则

Python 与网络爬虫

阅读更多关于 Python 与网络爬虫

Python 与网络爬虫文章目录 Python 与网络爬虫爬虫的基本原理获取网页提取信息保存数据自动化程序爬虫实践 -- 抓取电影排行目标准备分析设计实现调试完成 Ajax 数据爬取 Ajax 简介发送请求解析内容渲染网页 Ajax 分析方法 Python 模拟 Ajax 请求本文由 CDFMLR 原创，收录于个人主页 https://clownote.github.io ，并同时发布到 CSDN。本人不保证 CSDN 排版正确，敬请访问 clownote 以获得良好的阅读体验。爬虫的基本原理爬虫是获取网页并提取和保存信息的自动化程序。可以说，我们能在浏览器中看到的一切内容，都可以通过爬虫得到（包括那些由JavaScript渲染出来的网页）。爬虫主要解决以下几个问题：获取网页构造一个请求并发送给服务器，然后接收到响应并将其解析出来。我们可以用urllib、 requests 等库来帮助我们实现 HTTP请求操作，请求和响应都可以用类库提供的数据结构来表示，得到响应之后只需要解析数据结构中的 Body 部分即可，即得到网页的源代码。提取信息分析网页源代码，从中提取我们想要的数据。最通用的方法是采用正则表达式提取，这是一个万能的方法，但是在构造正则表达式时比较复杂且容易出错。使用 Beautiful

订阅 html语言