ProxyTunnel

数据获取的小技巧

孤街醉人 提交于 2020-08-14 10:13:48
在大数据如此火的时代,我们要获取更多数据,就要进行数据采集,过滤,然后再进行使用。比如当我们在进行一个项目并且需要大量真实数据时,就需要通过爬虫去获得,有些爬取额数据还不能直接使用,需要进行过滤后才能使用,特别是那些很珍贵的数据。 最近有个项目是抓取亚马逊数据来进行分析销量、评论等,用java进行抓取,但是抓取亚马逊数据是需要很多策略的,ua,cookie.ip等。我们之前是使用的其他家代理的api模式的,但是效果越来用越差,而且自己管理ip池觉得很麻烦,所以选择了亿牛云提供的爬虫代理,动态转发模式的,不需要我们自己管理ip池,直接进行数据采集,这很方便也节约了很多时间。下文就展示下这新模式的代理使用方式 便也节约了很多时间。下文就展示下这新模式的代理使用方式 $url = " https://www.amazon.com/dp/B01H2S9F6C " ; $urls = "https://httpbin.org/ip" ; define ( "PROXY_SERVER" , "tcp://t.16yun.cn:31111" ); define ( "PROXY_USER" , "16YUN123" ); define ( "PROXY_PASS" , "123456" ); $proxyAuth = base64_encode ( PROXY_USER . ":" .

新手使用python采集数据

╄→гoц情女王★ 提交于 2020-08-05 16:40:10
新手使用python采集数据 背景 , 原本不是爬虫的,因公司业务需求需要一些前程无忧的数据,被迫上岗,简单的学了些python。因为网站的特殊性,访问次数多了就要封ip,意味着还要找ip。所以在网上随便找了家代理叫亿牛云,然后跟客服沟通了下我这个小白的需求,客服跟我推介了他们家的爬虫动态转发代理,说适合我这样的小白使用,使用方式比较简单,我就抱着试试的想法接受了。客服给我发了一段关于python怎么使用他们家代理的代码示例, https://www.16yun.cn/help/ss_demo/#1python 。打开看了之后我以为示例就是可以直接使用的,而且客服也说过代码示例可以直接复制使用,我就直接复制然后把目标网站改成了我自己的,代码如下 #! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = " www. mkt.51job.com" # 要访问的目标HTTPS页面 # targetUrl = "https:// www. mkt.51job.com " # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理隧道验证信息 proxyUser = "username"

使用代理ip防止爬虫被封ip(附亿牛云代理开发过程)

▼魔方 西西 提交于 2019-12-23 18:04:13
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在我们使用爬虫的过程中,很容易遇到反爬机制是禁用ip的,可以使用代理ip解决ip被封的问题。但是网上ip代理有很多家,到底选哪家好呢? 本文选择亿牛云代理(官网地址www.16yun.cn)进行演示,使用php语言,如果需要大规模抓取可以去试试python。 在官网我们可以看到有提供两种方式进行代理,一种是api模式,一种是隧道模式。Api模式就是我们爬虫最常用到的,就是提供url连接给你,你的程序自动的获取代理信息。这个模式适合自己需要管理ip池控制ip的使用,ip的有效时间是2到10分钟;隧道模式就提供给你一个固定的服务器ip地址信息,包括ip:端口:用户名:密码只需要将代理信息配置到程序里面就可以使用,他们后台会自动切换ip,这个模式很方便,简单。 1、第一种方式 第一种方式 首先代理提供商会提供给你一个 api 接口,你可以通过这个接口去获取ip和端口号。但是这些ip的时效是 2到10 分钟,所以我建立了一个ip池,每两分钟去更新一次ip池,以确保这些ip每次用到的时候都是有效的 。 第二种方式 可以直接查看亿牛云代理接入文档php代码 <?php // 要访问的目标页面 $url = "http://httpbin.org/ip" ; $urls = "https://httpbin.org/ip"