url

python网络爬虫与信息提取mooc------爬取实例

生来就可爱ヽ(ⅴ<●) 提交于 2020-03-06 02:15:29
实例一--爬取页面 1 import requests 2 url="https//itemjd.com/2646846.html" 3 try: 4 r=requests.get(url) 5 r.raise_for_status() 6 r.encoding=r.apparent_encoding 7 print(r.text[:1000]) 8 except: 9 print("爬取失败") 正常页面爬取 实例二--爬取页面 1 import requests 2 url="https://www.amazon.cn/gp/product/B01M8L5Z3Y" 3 try: 4 kv={'user-agent':'Mozilla/5.0'} 5 r=requests.get(url,headers=kv) 6 r.raise_for_status() 7 r.encoding=r.apparent_encoding 8 print(r.text[1000:2000]) 9 except: 10 print("爬取失败") 对访问用户名有限制,模拟浏览器对网站请求 实例三--爬取搜索引擎 1 #百度的关键词接口:http://www.baidu.com/s?wd=keyword 2 #360的关键词接口:http://www.so.com/s?q=keyword 3

python实现的json数据以HTTP GET,POST,PUT,DELETE方式页面请求---python接口自动化(put请求)

早过忘川 提交于 2020-03-06 01:30:24
一、JSON简介 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。 它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。 这些特性使JSON成为理想的数据交换语言。 二、HTTP的请求方法 HTTP/1.1协议中共定义了八种方法(有时也叫“动作”)来表明Request-URI指定的资源的不同操作方式: . OPTIONS - 返回服务器针对特定资源所支持的HTTP请求方法。 也可以利用向Web服务器发送’*'的请求来测试服务器的功能性。 . HEAD - 向服务器索要与GET请求相一致的响应,只不过响应体将不会被返回。 这一方法可以在不必传输整个响应内容的情况下,就可以获取包含在响应消息头中的元信息。 . GET - 向特定的资源发出请求。 注意:GET方法不应当被用于产生“副作用”的操作中,例如在web app.中。 其中一个原因是GET可能会被网络蜘蛛等随意访问。 . POST -

URL&HTTP协议&GET请求&POST请求

北慕城南 提交于 2020-03-06 00:49:29
1.什么是URL    URL 的全称是 Uniform Resource Locator (统一资源定位符)  通过 1 个 URL ,能找到互联网上唯一的 1 个资源 URL 就是资源的地址、位置,互联网上的每个资源都有一个唯一的 URL URL 的基本格式 = 协议 :// 主机地址 / 路径 http://202.108.22.5/img/bdlogo.gif 协议:不同的协议,代表着不同的资源查找方式、资源传输方式. 1>HTTP:// 表示采用HTTP协议, 主机地址:存放资源的主机的 IP 地址(域名)2>202.208.225/ 这是我的本地服务器地址, 路径:资源在主机中的具体位置3>img/bdlogo.gif 这是我要访问的数据在我服务器上的路径 2.URL 中常见的协议 : HTTP 超文本传输协议,访问的是远程的网络资源,格式是 http:// http 协议是在网络开发中最常用的协议 file 访问的是本地计算机上的资源,格式是 file:// (不用加主机地址) mailto 访问的是电子邮件地址,格式是 mailto: FTP 访问的是共享主机的文件资源,格式是 ftp:// HTTP 协议简介 HTTP 协议的作用 HTTP 的全称是 Hypertext Transfer Protocol ,超文本传输协议 规定客户端和服务器之间的数据传输格式

小白学爬虫第二期---一个简单的爬虫实例

亡梦爱人 提交于 2020-03-05 23:06:20
打开Pycharm,新建一个项目,创建一个Python File 引入requests库 import requests 然后创建一个url变量,它的值就是你想要爬取的网页 # 目标网址 url = 'www.baidu.com' 使用requests库中的request GET方法 import requests url='www.baidu.com' str=requests.get(url) 其中get是request(‘GET’)方法的重写,暂时不用考虑怎么回事 然后使用print函数将str.text打印出来 print(str.text) 在控制台打印的结果 这就是最简单的一个爬虫实例,后续会介绍爬虫一步一步的知识。 来源: CSDN 作者: VioletNris 链接: https://blog.csdn.net/qq_17035603/article/details/104683167

《自拍教程36》段位三_Python面向对象类

落花浮王杯 提交于 2020-03-05 22:48:36
函数只能面向过程,来回互相调用后顺序执行, 简单的编码项目,还能应付的过来, 复杂的大型项目,调用多了,就会乱。 如何才能不乱呢,可尝试下, 面向对象类的概念, 将现实世界的事物抽象成对象,将现实世界中事物的关系抽象成类, 即要秉着“万物皆对象,一切皆可归类”的中心思想, 去建立你的代码模型。 一听特别晕乎,我也一样, 我学Python的时候,写了将近大半年的面向过程函数, 由于我也无法深入理解到面向对象类的概念, 当时就是无法将代码写成面向对象类的形式。 直到自己去慢慢学习面向对象类的概念,慢慢写大型一点的软件项目, 秉着“万物皆对象,一切皆可归类”的中心思想, 才恍然发现,面向对象类,真是好东西, 比函数严谨多了。。。。。 初级面向对象类的建模 小项目或小工具的代码实现,模型比较简单: 脑海里虚拟一个空白的世界,想象下这个世界有哪类事物(一般是名词), 比如我们常用的包括:学生类,员工类,课程类等。 比如我们本章节介绍的下载的脚本,如果要进行面向对象类的实现, 肯定是可以的, 虽然实际编码过程中,我们可能用函数实现就足够了, 但是秉着“万物皆对象,一切皆可归类”的中心思想。 可创建一个下载器类, 下载器的类初始化(新建一个对象)是接入一个url, 代表一个具备下载某个url的实例对象。 如下: # coding=utf-8 import os import requests

php如何下载远程图片呢??

断了今生、忘了曾经 提交于 2020-03-05 18:40:58
php远程下载图片经常用到,如何实现呢?? 原理:通过curl请求url,将请求返回的文件流 写入到指定的路径中 <?php /** * Created by PhpStorm. * User: 萧逸 * Date: 2017/6/20 * Time: 10:11 * * 在使用 PHP 做简单的爬虫的时候,我们经常会遇到需要下载远程图片的需求,所以下面来简单实现这个需求。 */ //比如我们有下面这两张图片: $images = [ 'https://dn-laravist.qbox.me/2015-09-22_00-17-06j.png', 'https://dn-laravist.qbox.me/2015-09-23_00-58-03j.png' ]; class Spider { //定义下载图片 用于发送url public function downloadImage($url, $path = 'images/') { $ch = curl_init(); //以url的形式 进行请求 curl_setopt($ch, CURLOPT_URL, $url); //以文件流的形式 进行返回 不直接输出到浏览器 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //浏览器发起请求 超时设置 curl_setopt($ch,

爬虫初学——爬取京东商品的评论(二)

夙愿已清 提交于 2020-03-05 18:24:52
酱菜Seven7原创,转载请注明出处。 使用的手段:数据库Mysql, 语言python,正则表达式re 在获取了评论url的情况下 (获取京东评论的url方法) ,现在我们可以来爬取用户昵称和url了。作为一个初学者,我用的正则表达式,来对那url的数据,进行匹配获取。 一、根据内容,编写合适的正则表达式 通过分析打开的url地址的数据,我们可以找到所需的两个规律: 1、用户昵称部分 : 所以,我们针对提取用户的正则表达式如下: r'\"nickname\":\"([^",]+)\",\"replyCount2\"' 2、评论部分: 评论部分,因为会有无追评,而造成结尾不一致: 情况一: 情况二: 匹配评论的正则表达式为: r'\"content\":\"([^"]+)\",\"(?:creationTime|vcontent)\"' 二、爬取数据的主要代码: 代码功底不好,不要嫌弃,而且赶时间,能用就行,哈哈哈哈哈 导入的库: import requests import re import pymysql 第一部分 在此部分,我是组装url,循环4类评论。然后每一类,循环页码,这样就可以读取每类每页的url的数据,再调用方法来爬取了。我是创建了数据库的四个表,分别存储,要是没有这个需求的,存一个表就好了。 if __name__ == "__main__" :

Flask 第三方组件之 script

泪湿孤枕 提交于 2020-03-05 18:21:37
Flask Script扩展提供向Flask插入外部脚本的功能,包括运行一个开发用的服务器,一个定制的Python shell,设置数据库的脚本,cronjobs,及其他运行在web应用之外的命令行任务;使得脚本和系统分开; Flask Script和Flask本身的工作方式类似,只需定义和添加从命令行中被Manager实例调用的命令; 放官方: http://flask-script.readthedocs.io/en/latest/ 1 创建并运行命令 首先,创建一个Python模板运行命令脚本,可起名为manager.py; 在该文件中,必须有一个Manager实例,Manager类追踪所有在命令行中调用的命令和处理过程的调用运行情况; 调用manager.run()启动Manager实例接收命令行中的命令; #-*-coding:utf8-*- from flask_script import Manager from debug import app # Manager只有一个参数 Flask实例,也可以是一个函数或其他的返回Flask实例; manager = Manager(app) if __name__ == '__main__': manager.run() 其次,创建并加入命令; 有三种方法创建命令,即创建Command子类、使用@command修饰符、使用

小程序单图上传到服务器

空扰寡人 提交于 2020-03-05 14:22:28
// 上传营业执照 fail_yingye(e) { var that = this; var uniacid = app.siteInfo.uniacid; var idx = e.currentTarget.dataset.index; var yingye = that.data.yingye; var openid = wx.getStorageSync('openid') wx.chooseImage({ count: 1, // 默认9 sizeType: ['original', 'compressed'], sourceType: ['album', 'camera'], success: function (res) { var yingyes = that.data.yingye; var tempFilePath = res.tempFilePaths[0]; yingyes[idx].src = tempFilePath; wx.uploadFile({ url: that.data.url + 'app/index.php?i=' + uniacid + '&c=entry&a=wxapp&do=Upload&m=pinba', filePath: tempFilePath, name: 'upfile', formData: { // 'path':

location对象

拟墨画扇 提交于 2020-03-05 13:36:14
定义   location提供了与当前窗口中加载的文档有关的信息,还提供了一些导航功能。location是一个很特别的对象,因为它既是 window对象的属性,也是document对象的属性。换句话说,window.location和document.location引用的是同一 个对象。 console.log(window.location) console.log(document.location) 查询字符串参数   location将URL解析成独立的片段,让开发人员可以通过不同的属性访问这些片段   尽管location.search返回从问号到URL末尾的所有内容,但却没有办法逐个访问其中的每个查询字符串参数。为此,创建 一个函数,用以解析查询字符串,然后返回包含所有参数的一个对象: function getQueryStringArgs(){ //取得查询字符串并去掉开头的问号 var qs = location.search.length > 0 ? location.search.substring(1) : ""; //保存数据的对象 var args = []; //取得每一项 var items = qs.length ? qs.split("&") : []; var item,name,value; var len = items.length; /