http代理

web爬虫讲解—urllib库爬虫—ip代理—用户代理和ip代理结合应用

有些话、适合烂在心里 提交于 2019-11-27 03:44:53
使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置 build_opener()初始化IP install_opener()将代理IP设置成全局,当使用urlopen()请求时自动使用代理IP #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import random #引入随机模块文件 ip = "180.115.8.212:39109" proxy = urllib.request.ProxyHandler({"https":ip}) #格式化IP,注意:第一个参数可能是http或者https,对应设置 opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler) #初始化IP urllib.request.install_opener(opener) #将代理IP设置成全局,当使用urlopen()请求时自动使用代理IP #请求 url = "https://www.baidu.com/" data = urllib.request.urlopen(url).read().decode("utf-8") print

正向代理和反向代理的理解

房东的猫 提交于 2019-11-27 03:11:39
这里主要说的是nginx 正向代理:代理服务器是站在客户端这边的,代表客户去访问服务器 ,隐藏客户端ip,黑客或者犯罪分子就喜欢这么搞,理解图如下: 反向代理:代理服务器是站在服务器端的,客户访问服务端时,其实都是访问的代理服务器,这样很好的隐藏了服务器端的ip,有效的防止被攻击,理解图如下: 简而言之:正向代理,隐藏客户端; 反向代理,隐藏服务端; 正向代理的例子:a 一般的FQ软件都是正向代理,想要访问国外的网站,必须借助代理服务器进行访问; b 还有就是服务器端需要访问外网时,也需要使用正向代理,隐藏ip 反向代理的例子:太多了,基本上企业都会使用反向代理隐藏自己的ip,还有就是项目跨域时用的也比较多 正向代理的大致配置如下 : server { # 配置DNS解析IP地址,比如 Google Public DNS,以及超时时间(5秒) resolver 8.8.8.8; # 必需 resolver_timeout 5s; # 监听端口 listen 8080; access_log /home/reistlin/logs/proxy.access.log; error_log /home/reistlin/logs/proxy.error.log; location / { # 配置正向代理参数 proxy_pass $scheme://$host$request_uri;

Nginx简单介绍以及linux下使用Nginx进行负载均衡的搭建

北城余情 提交于 2019-11-27 02:26:28
转载至: https://blog.csdn.net/liboyang71/article/details/77371595 今天我们来讨论一下关于Nginx的一些简单理解和认识,首先对Nginx进行一下简单的介绍 1.Nginx简介 Nginx是一款高性能的http 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器。由俄罗斯的程序设计师Igor Sysoev所开发,官方测试nginx能够支支撑5万并发链接,并且cpu、内存等资源消耗却非常低,运行非常稳定。 2.Nginx应用场景 1、http服务器。Nginx是一个http服务可以独立提供http服务。可以做网页静态服务器。 2、虚拟主机。可以实现在一台服务器虚拟出多个网站。例如个人网站使用的虚拟主机。 3、反向代理,负载均衡。当网站的访问量达到一定程度后,单台服务器不能满足用户的请求时,需要用多台服务器集群可以使用nginx做反向代理。并且多台服务器可以平均分担负载,不会因为某台服务器负载高宕机而某台服务器闲置的情况。 3.概念解释 3.1正向代理 所谓正向代理其实就和我们平时所做的翻墙一样,例如:当我们想要访问某些国外的**网站时,因为某些原因我们无法访问到,这时候我们就可以找代理,代理有能力访问到那个网站,而我们只需要访问代理。就可以得到那个网站的内容了。且代理可以决定是否将用户信息告诉给网站。

nginx代理(正向代理和反向代理)

左心房为你撑大大i 提交于 2019-11-27 00:14:34
正向代理      是一个位于客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向代理发送一个请求并指定目标(原始服务器),然后代理向原始服务器转交请求并将获得的内容返回给客户端(目的是为了保护客户端用户)   配置文件:    server { # 配置DNS解析IP地址,比如 Google Public DNS,以及超时时间(5秒) resolver 8.8.8.8; # 必需 resolver_timeout 5s; # 监听端口 listen 8080; access_log /home/reistlin/logs/proxy.access.log; error_log /home/reistlin/logs/proxy.error.log; location / { # 配置正向代理参数 proxy_pass $scheme://$host$request_uri; # 解决如果URL中带"."后Nginx 503错误 proxy_set_header Host $http_host; # 配置缓存大小 proxy_buffers 256 4k; # 关闭磁盘缓存读写减少I/O proxy_max_temp_file_size 0; # 代理连接超时时间 proxy_connect_timeout 30; #

【Linux端口大全】 -- 2019-08-11 18:45:22

放肆的年华 提交于 2019-11-27 00:05:41
原文: http://106.13.73.98/__/79/ 2端口:管理实用程序 3端口:压缩进程 5端口:远程作业登录 7端口:回显 9端口:丢弃 11端口:在线用户 13端口:时间 17端口:每日引用 18端口:消息发送协议 19端口:字符发生器 20端口:FTP文件传输协议(默认数据口) 21端口:FTP文件传输协议(控制) 22端口:SSH远程登录协议 23端口:telnet(终端仿真协议),木马Tiny Telnet服务器开放此端口 24端口:预留给个人用邮件系统 25端口:SMTP服务器所开放的端口,用于发送邮件 27端口:NSW用户系统FE 29端口:MSG ICP 31端口:MSG验证,木马Master Paradise,HackersParadise开放此端口 33端口:显示支持协议 37端口:预留给个人打印机服务 37端口:时间 38端口:路由访问协议 39端口:资源定位协议 41端口:图形 42端口:主机名服务 43端口:谁是服务 44端口:MPM (消息处理模块)标志协议 45端口:消息处理模块 46端口:消息处理模块(默认发送口) 47端口 NI FTP 48端口:数码音频后台服务 49端口:TACACS登录主机协议 50端口:远程邮件检查协议 51端口:IMP(接口信息处理机)逻辑地址维护 52端口:施乐网络服务系统时间协议 53端口:DNS域名服务器

代理服务器

丶灬走出姿态 提交于 2019-11-26 23:02:07
代理是一种提供客户端与服务器进行非直接链接的服务。提供代理服务的服务器称之为 代理服务器 (Proxy Server)。而持有资源实体的服务器称之为 源服务器 。 代理服务器分类 按代理协议 HTTP 代理:应用层协议代理,支持访问未加密站点 SOCKS 4/5 代理:会话层协议代理,SOCKS 5 支持所有底层使用 TCP 和 UDP 的网络应用代理,SOCKS 4 仅支持 TCP 代理。另外 SOCKS 5 还支持 IPv6。 TLS / SSL 代理:应用层协议代理,支持访问加密站点 POP3 / SMTP 代理:邮件服务代理 FTP 代理:文件传输代理 ... 按匿名程度 以下四种代理的区别是由于代理服务器配置的 REMOTE_ADDR 、 HTTP_VIA 和 HTTP_X_FORWARDED_FOR 值不同导致。当没有使用代理时仅 REMOTE_ADDR 是有值的。 高度匿名代理(Elite proxy或High Anonymity Proxy) 高匿代理其实就是修改请求头,将 HTTP_VIA 与 HTTP_X_FORWARDED_FOR 属性删除,服务器由此误认为客户端没有使用代理。 REMOTE_ADDR = Proxy IP HTTP_VIA = not determined HTTP_X_FORWARDED_FOR = not determined 匿名代理

HTTP 协议,并发数

亡梦爱人 提交于 2019-11-26 19:54:46
最近我们网站常常报503错误:“HTTP Error 503. The service is unavailable”。但刷一两下又正常。 估计很可能是超过网站的最大并发连接数了。 究竟什么是http连接?一张页面加载过程中,又是图片又是样式、脚本,对于这些东西的请求,是共用一个连接还是多个连接? 网上有人说,为了节省连接数,应该尽量将外部CSS,js合并,或者内联;甚至图片也合成一张,再用CSS定位。显然,在这里,一个请求就用一个连接,请求完成连接即被关掉。 但IIS里,有选项“保持HTTP连接”,且有超时时间可供设置。如果每请求一样东西,就开启一个连接,并且这个连接迟迟不死,保持激活,那么要多少连接才够用?这里的意思,应该是一个连接可以供多次使用。 究竟哪个才对? 其实都对。 http协议无状态,无连接。无连接的含义就是限制每次连接只处理一个请求,收到应答后即断开。但据说这个是http1.0。 http1.1里,提出了持久连接(persistentconnection)的概念,也就是说同一条 HTTP连接,可以依次处理多个请求。据说目前大多数浏览器都支持这个。想想也有道理,建立一个http连接,消耗的成本是很高的,类似数据库连接,所以 我们都尽量在一个数据库连接里完成所有的操作,正如你到超市里买东西,不可能去一趟只买一样,不然的话,买齐所有东西天都黑了。 不过

爬虫请求库——requests

时间秒杀一切 提交于 2019-11-26 19:39:28
  请求库,即可以模仿浏览器对网站发起请求的模块(库)。 requests模块   使用requests可以模拟浏览器的请求,requests模块的 本 质是封装了urllib3模块 的功能,比起之前用到的urllib,requests模块的api更加便捷   requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求,但是selenium模块就可以执行js的操作。 安装: pip3 install requests    请求方式:主要用到的就get和post两种 #各种请求方式:常用的就是requests.get()和requests.post() import requests r = requests.get('https://api.github.com/events') r = requests.post('http://httpbin.org/post', data = {'key':'value'}) r = requests.put('http://httpbin.org/put', data = {'key':'value'}) r = requests.delete('http://httpbin.org/delete') r = requests.head('http://httpbin

ubuntu设置http代理

浪尽此生 提交于 2019-11-26 16:54:51
ubuntu设置http代理: 方法一 这是一种临时的手段,如果您仅仅是暂时需要通过 http 代理使用 apt-get ,您可以使用这种方式。 在使用 apt-get 之前,在终端中输入以下命令(根据您的实际情况替换 yourproxyaddress 和 proxyport )。 export http_proxy=http://yourproxyaddress:proxyport 方法二 这种方法要用到 /etc/apt/ 文件夹下的 apt.conf 文件。如果您希望 apt-get (而不是其他应用程序)一直使用 http 代理,您可以使用这种方式。 注意: 某些情况下,系统安装过程中没有建立 apt 配置文件。下面的操作将视情况修改现有的配置文件或者新建配置文件。 sudo gedit /etc/apt/apt.conf 在您的 apt.conf 文件中加入下面这行(根据你的实际情况替换 yourproxyaddress 和 proxyport )。 Acquire::http::Proxy “http://yourproxyaddress:proxyport”; 保存 apt.conf 文件。 方法三 这种方法会在您的主目录下的 .bashrc 文件中添加两行。如果您希望 apt-get 和其他应用程序如 wget 等都使用 http 代理,您可以使用这种方式。

用http代理下载sourceforge的cvs仓库[原理+C#代码]

荒凉一梦 提交于 2019-11-26 15:16:14
12月的地震震断了几根光缆,麻烦的事情接踵而至,直连sourceforge上不去了,只好用代理。虽然能够下载到打包好的代码,但某些代码已显得陈旧,而cvs最新的代码确要用工具checkout,但很郁闷的事情cvs不支持http代理。有一下一些解决办法: 1、找sockets代理,然后用eborder等软件使cvs能够用。明显,网络上提供sockets代理的少之又少。 2、通过工具把http代理变成sockets代理。当然此法能够行得通,但cvs checkout的速度慢的惊人,没有可行性。 3、找联通的网络,他们出国没有受到损坏,速度很快。 4、等待网络修好:) 5、另:感谢A.E告诉我eclipse也可以支持! …… 由于急需一些开源项目的cvs代码,以上途径又不太现实,所以还是另想办法。 但令人高兴的是,我可以用http代理通过浏览器查看sourceforge的ViewVC工具所提供的cvs代码,这给我了很大的启发,准备利用 ViewVC来下载源代码。随后就分析ViewVC生成的页面,我们这里以lib3ds.cvs.sourceforge.net作为例子。 打开页面以后呈现在面前的是一个目录结构,点击进入下一层目录,可以看到ViewVC为我们输出了目录和文件。每一个目录和文件都有一个超链接,如果单击目录的话会进入下一层目录,而点击文件会进入文件的详细说明(例http: /