url

爬取知乎热榜

允我心安 提交于 2020-03-19 19:44:53
1.打开网页https://tophub.today/n/mproPpoq6O 2.按Ctrl+U 打开网页源代码 3.寻找爬取内容 4. import requests import pandas as pd from bs4 import BeautifulSoup import pandas as pd lst=[]#建立一个空列表 url='https://tophub.today/n/mproPpoq6O'#所抓取网页的网址 def get(url): try: headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}#伪装爬虫 url = requests.get(url,timeout = 30,headers=headers)#发送请求 url.raise_for_status() url.encoding='utf-8' return url.text except: return "产生异常" #创建一个放置数据的文件夹 def create(lst,html,num): soup=BeautifulSoup(html,'html

Python爬取煎蛋网图片

点点圈 提交于 2020-03-19 16:47:34
.请求网页函数 def get_url(url): html = requests.get(url, headers=header).content.decode('utf-8') return html 以get方式请求,加入headers参数传递头信息;抓取其二进制码并以“utf-8”形式编码,并返回; .解析网页,提取图片链接 def parsel_url(html): etree_html=etree.HTML(html) img_urls=etree_html.xpath("//div[@class='row']/div[@class='text']/p/img/@src") return img_urls 利用xpath语法提取图片链接 .下载图片并保存 #循环下载;下载4页,range左闭右开 for i in range(5): #输入网址,找到网址规律 url = ' #请求网页 html=get_url(url) #解析网页,提取图片链接 Exness返佣 img_urls = parsel_url(html) for img_url in img_urls: #因为提取的网页链接不是网址标准形式,需要完善 response = requests.get('http:' + img_url, headers=header).content #图片以二进制形式保存

爬虫前奏——网络请求

て烟熏妆下的殇ゞ 提交于 2020-03-18 22:18:50
网络请求的方式 http网络请求有八种 : GET POST HEAD PUT DELETE CONNECT TRACE OPTIONS 最常见的请求方式为 GET 和 POST get:当客户端要从服务器中读取文档时,当点击网页上的链接或者通过在浏览器的地址栏输入网址来浏览网页的,使用的都是GET方式。GET方法要求服务器将URL定位的资源放在响应报文的数据部分,回送给客户端。使用GET方法时,请求参数和对应的值附加在URL后面,利用一个问号(“?”)代表URL的结尾与请求参数的开始,传递参数长度受限制。例如,/index.html?id=100&op=bind,这样通过GET方式传递的数据直接表示在地址中。 post:POST方法将请求参数封装在HTTP请求数据中,以名称/值的形式出现,可以传输大量数据,这样POST方式对传送的数据大小没有限制,而且也不会显示在URL中。 head:HEAD就像GET,只不过服务端接受到HEAD请求后只返回响应头,而不会发送响应内容。当我们只需要查看某个页面的状态的时候,使用HEAD是非常高效的,因为在传输的过程中省去了页面内容。 get 和post的区别: 1.GET提交,请求的数据会附在URL之后(就是把数据放置在HTTP协议头<request-line>中),以?分割URL和传输数据,多个参数用&连接;例如:login.action

github设置添加SSH

旧街凉风 提交于 2020-03-18 22:08:17
很多朋友在用github管理项目的时候,都是直接使用https url克隆到本地,当然也有有些人使用 SSH url 克隆到本地。然而,为什么绝大多数人会使用https url克隆呢? 这是因为,使用https url克隆对初学者来说会比较方便,复制https url 然后到 git Bash 里面直接用clone命令克隆到本地就好了。而使用 SSH url 克隆却需要在克隆之前先配置和添加好 SSH key 。 因此,如果你想要使用 SSH url 克隆的话,你必须是这个项目的拥有者。否则你是无法添加 SSH key 的。 https 和 SSH 的区别: 1、前者可以随意克隆github上的项目,而不管是谁的;而后者则是你必须是你要克隆的项目的拥有者或管理员,且需要先添加 SSH key ,否则无法克隆。 2、https url 在push的时候是需要验证用户名和密码的;而 SSH 在push的时候,是不需要输入用户名的,如果配置SSH key的时候设置了密码,则需要输入密码的,否则直接是不需要输入密码的。 在 github 上添加 SSH key 的步骤: 1、首先需要检查你电脑是否已经有 SSH key 运行 git Bash 客户端,输入如下代码: $ cd ~/.ssh $ ls 这两个命令就是检查是否已经存在 id_rsa.pub 或 id_dsa.pub 文件

PHP获取当前页面url地址(域名、参数、路径)

ぃ、小莉子 提交于 2020-03-18 19:13:04
测试网址: http://localhost/blog/testurl.php?id=5 //获取域名或主机地址 echo $_SERVER['HTTP_HOST']."<br>"; #localhost //获取网页地址 echo $_SERVER['PHP_SELF']."<br>"; #/blog/testurl.php //获取网址参数 echo $_SERVER["QUERY_STRING"]."<br>"; #id=5 //获取用户代理 echo $_SERVER['HTTP_REFERER']."<br>"; //获取完整的url echo 'http://'.$_SERVER['HTTP_HOST'].$_SERVER['REQUEST_URI']; echo 'http://'.$_SERVER['HTTP_HOST'].$_SERVER['PHP_SELF'].'?'.$_SERVER['QUERY_STRING']; #http://localhost/blog/testurl.php?id=5 //包含端口号的完整url echo 'http://'.$_SERVER['SERVER_NAME'].':'.$_SERVER["SERVER_PORT"].$_SERVER["REQUEST_URI"]; #http://localhost:80/blog

网站SEO的URL优化误区

瘦欲@ 提交于 2020-03-18 13:50:18
网站被搜索引擎收录是网站拥有排名的前提,只有做好网站的搜索引擎收录,才能让你拥有在搜索引擎中排名的机会。所以,网站页面被收录的越多,网站排名靠前的机会就会越多。URL的好坏经常会直接影响搜索引擎对一个网站的解析,不利于搜索引擎蜘蛛的顺利爬取。在网站初期就要对网站URL,网站目录进行规范化的设计,达到最理想、最利于搜索引擎收录的URL。 URL是一个网页的路径,每一个网页都具有一个唯一的名称标识,其通常被称为URL地址。在做SEO优化时,URL优化也是至关重要的一步,对SEO的结果有很大的影响。在优化URL时,有两个误区需要辨识。 误区一:URL入口统一。在用户的使用中,不同用户可能有不同的使用习惯,有的人习惯输入,有的人习惯输入,但是他们的目的都是一样的,那就是要上百度,但是他们的目标网址是不一样的,如果你将不带WWW的域名跳转到带WWW的域名,那就是在一定程序上违背用户的意愿,而搜索引擎是为用户服务的,所以做SEO必须考虑的是用户体验第一,所以今天要讲述的观点就是:URL入口无需统一,带WWW或者是不带WWW这应该是由用户选择,而不是由我们来强行跳转的。 误区二:在URL中减少变量与参数的数量。带参数的URL地址其实并不会不利于搜索引擎收录,同样的用户体验也不会输于优化后的地址。但是实际上呢?数字6和3是什么意思就没有人能看的懂了,而从动态的URL来看

如何建立自己的网络爬虫

空扰寡人 提交于 2020-03-18 13:33:52
互联网时代下,作为数据分析的核心,爬虫从作为一个新兴技术到目前应用于众多行业,已经走了很长的道路。互联网上有很多丰富的信息可以被抓取并转换成有价值的数据集,然后用于不同的行业。除了一些公司提供的一些官方公开数据集之外,我们应该在哪里获取数据呢?其实,我们可以建立一个网路爬虫去抓取网页上的数据。 网络爬虫的基本结构及工作流程 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1、首先选取一部分精心挑选的种子URL; 2、将这些URL放入待抓取URL队列; 3、从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 4、分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。 创建网络爬虫的主要步骤 要建立一个网络爬虫,一个必须做的步骤是下载网页。这并不容易,因为应该考虑很多因素,比如如何更好地利用本地带宽,如何优化DNS查询以及如何通过合理分配Web请求来释放服务器中的流量。 在我们获取网页后,HTML页面复杂性分析随之而来。事实上,我们无法直接获得所有的HTML网页

The resource could not be loaded because the App Transport Security policy requires the use of a secure connection

非 Y 不嫁゛ 提交于 2020-03-18 12:56:47
xmpp 项目中遇到的问题,用苹果的通信API 写一个PUT 方法,向服务器上传一张图片。遇到如题问题。 Plist 文件没有NSAppTransportSecurity属性 Dic,添加该属性,再添加二级属性NSAllowsArbitraryLoads BOOL YES 苹果文档:https://developer.apple.com/library/ios/documentation/General/Reference/InfoPlistKeyReference/Articles/CocoaKeys.html stackOverflow:http://stackoverflow.com/questions/32631184/the-resource-could-not-be-loaded-because-the-app-transport-security-policy-requi 工具类:HTTPTool.h 1 #import <Foundation/Foundation.h> 2 3 typedef void (^HttpToolProgressBlock)(CGFloat progress); 4 typedef void (^HttpToolCompletionBlock)(NSError *error); 5 6 7 8 @interface HttpTool :

使用axios获取并下载文件

落花浮王杯 提交于 2020-03-18 12:19:33
/** * 导出文件方法 * @param {String} method [请求方式] * @param {String} url [请求的url地址] * @param {Object} params [请求时携带的参数] * @param {String} fileName [导出的文件名,例:test.xlsx] */ function DOWNLOAD(method="post",url, params, fileName) { return new Promise((resolve, reject) => { axios({ method: method, url: url, params: params, responseType: 'blob' }) .then(res => { let reader = new FileReader(); let data = res.data; reader.onload = e => { if (e.target.result.indexOf('Result') != -1 && JSON.parse(e.target.result).Result == false) { // 进行错误处理 } else { if (!fileName) { let contentDisposition = res.headers[

Server.UrlEncode与HttpUtility.UrlDecode使用

给你一囗甜甜゛ 提交于 2020-03-18 11:27:11
在对URL进行编码时,该用哪一个?这两都使用上有什么区别吗? 测试: string file="文件上(传)篇.doc"; string Server_UrlEncode=Server.UrlEncode(file); string Server_UrlDecode=Server.UrlDecode(Server_UrlEncode); string HttpUtility_UrlEncode=System.Web.HttpUtility.UrlEncode(file); string HttpUtility_UrlDecode=System.Web.HttpUtility.UrlDecode(HttpUtility_UrlEncode); Response.Write("原数据:"+file); SFun.WriteLine("Server.UrlEncode:"+Server_UrlEncode); SFun.WriteLine("Server.UrlDecode:"+Server_UrlDecode); SFun.WriteLine("HttpUtility.UrlEncode:"+HttpUtility_UrlEncode); SFun.WriteLine("HttpUtility.UrlDecode:"+HttpUtility_UrlDecode); 输出: 原数据