curl

一文学会爬虫技巧

余生颓废 提交于 2021-01-02 11:23:24
↑ 关注 + 星标 , 后台回复【 大礼包 】送你Python自学大礼 交流群,速进! 前言 作为冷数据启动和丰富数据的重要工具,爬虫在业务发展中承担着重要的作用,我们业务在发展过程中积累了不少爬虫使用的经验,在此分享给大家,希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展 我们将会从以下几点来分享我们的经验 爬虫的应用场景 爬虫的技术选型 实战详解:复杂场景下的爬虫解决方案 爬虫管理平台 爬虫的应用场景 在生产上,爬虫主要应用在以下几种场景 搜索引擎,Google,百度这种搜索引擎公司每天启动着无数的爬虫去抓取网页信息,才有了我们使用搜索引擎查询资料的便捷,全面,高效(关于搜索引擎工作原理,在 这篇文章 作了详细的讲解,建议大家看看) 冷数据启动时丰富数据的主要工具,新业务开始时,由于刚起步,所以没有多少数据,此时就需要爬取其他平台的数据来填充我们的业务数据,比如说如果我们想做一个类似大众点评这样的平台,一开始没有商户等信息,就需要去爬取大众,美团等商家的信息来填充数据 数据服务或聚合的公司,比如天眼查,企查查,西瓜数据等等 提供横向数据比较,聚合服务,比如说电商中经常需要有一种比价系统,从各大电商平台,如拼多多,淘宝,京东等抓取同一个商品的价格信息,以给用户提供最实惠的商品价格,这样就需要从各大电商平台爬取信息。 黑产,灰产,风控等

Docker部署Rancher(无坑)

余生长醉 提交于 2021-01-02 08:48:58
操作前必看: 注:如想使用ranhcer进行管理,前提需要你的k8s集群在没组建起来的时候进行,如果k8s已经搭建rancher导入集群功能将无法使用,需要在搭建好master和node之后先将rancher在master启动好后将curl --insecure -sfL ** 这一条也就是第三行的导入命令,在master节点执行好后才可以将node执行kubeadm join这条加入集群的命令 注:如果部署k8s之前没更改主机名,当k8s部署后就不要更改了,一旦更改会导致你的节点直接NotReady,最好是在部署之前先将主机名改好 注:如果出现将master 加入ranche后提示如下内容: 警告:组件controller-manager不健康 警告:组件scheduler不健康 可以执行如下操作: master执行查看集群状态 kubelet get cs 检查端口未监听 ss -ant| grep 10251 ss -ant| grep 10252 pod组件运行正常 kubelet get pods --all-namespaces 检查kube-scheduler和kube-controller-manager组件配置是否禁用了非安全端口 vim /etc/kubernetes/manifests/kube-scheduler.yaml vim /etc

Copying local files with curl [closed]

大城市里の小女人 提交于 2021-01-02 05:17:28
问题 Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. Want to improve this question? Update the question so it's on-topic for Stack Overflow. Closed 2 years ago . Improve this question Is there a way to copy local files with curl, I need it to work as an alternative for cp command. This is a bit strange, but I'm working on an environment where cp is not available. 回答1: You could say: curl -o /path/to/destination file:///path/to/source/file This

nginx location

天涯浪子 提交于 2021-01-01 08:36:04
一、location的作用 location指令的作用是根据请求的URL来执行不同的应用,其实就是根据用户请求的网站地址URL进行匹配。匹配成功即进行相关的操作。 二、location语法 location的使用语法为: location [ = | ~ | ~* | ^~ ] uri { ... } 对location语法列表说明 location [=|~|~*\^~|@] uri {...} 指令 匹配标识 匹配的网站网址 匹配URI后要执行的字段 = 开头表示精确匹配 ^~ 开头表示uri以某个常规字符串开头,理解为匹配 url路径即可。nginx不对url做编码,因此请求为/static/20%/aa,可以被规则^~ /static/ /aa匹配到(注意是空格)。 ~ 开头表示区分大小写的正则匹配 ~*开头表示不区分大小写的正则匹配 !~和!~*分别为区分大小写不匹配及不区分大小写不匹配 的正则 / 通用匹配,任何请求都会匹配到。 多个location配置的情况下匹配顺序为(参考资料而来,还未实际验证,试试就知道了,不必拘泥,仅供参考): 首先匹配 =,其次匹配^~, 其次是按文件中顺序的正则匹配,最后是交给 / 通用匹配。当有匹配成功时候,停止匹配,按当前匹配规则处理请求。 URI可以是普通的字符串地址路径,或者是正则表达式,匹配成功则执行后面大括号里的相关指令 三

Nginx防盗链&Nginx访问控制&Nginx解析php相关配置&Nginx代理

六眼飞鱼酱① 提交于 2021-01-01 08:34:59
[toc] Nginx防盗链&Nginx访问控制&Nginx解析php相关配置&Nginx代理 一、Nginx防盗链: 1. 打开配置文件: 增加如下配置文件: [root@xavi ~]# cd /usr/local/nginx/conf/vhost/ [root@xavi vhost]# vim test.com.conf } # location ~ .*\.(gif|jpg|jpeg|png|bmp|swf)$ # { # expires 7d; # access_log off; # } location ~* ^.+\.(gif|jpg|png|swf|flv|rar|zip|doc|pdf|gz|bz2|jpeg|bmp|xls)$ { expires 7d; valid_referers none blocked server_names *.test.com ; if ($invalid_referer) { return 403; } access_log off; 防盗链部分 valid_referers none blocked server_names *.test.com ; if ($invalid_referer) { return 403; } 如上配置文件中匹配以gif,jpg,png结尾的页面,并且设置一个白名单的referer为*.test

How to implement HSTS in my website

天大地大妈咪最大 提交于 2021-01-01 07:06:13
问题 I've a website (domain from godaddy and hosted in hostgator). As I updated the certificates, manually, I can redirect my site to https, but it is always going to http from google search. After searching online, I got to know that Considering Strict-Transport-Security: max-age=15768000 as result of curl -i -L on target domain will work for my need as it will force a browser to open the website in https. But I'm confused about how to implement this to my website. Can anyone help me on this ?

GitLab CI get last artifact

自作多情 提交于 2021-01-01 06:52:34
问题 I'm trying to get the latest build artifact using curl . Here's what I've tried. First, get last pipeline id: curl -v -H "Content-Type: application/json" -H "PRIVATE-TOKEN: <my-token-here>" https://<project>/api/v4/projects/<project>/pipelines?per_page=1&page=1 Next, get job id based on pipeline id just obtained before: curl -sS --header "PRIVATE-TOKEN: <my-token-here>" "https://[redacted,host]/api/v4/projects/[redacted,project]/pipelines/<pipeline-id>/jobs" | jq '.[] | select(.name == "build

GitLab CI get last artifact

只愿长相守 提交于 2021-01-01 06:50:25
问题 I'm trying to get the latest build artifact using curl . Here's what I've tried. First, get last pipeline id: curl -v -H "Content-Type: application/json" -H "PRIVATE-TOKEN: <my-token-here>" https://<project>/api/v4/projects/<project>/pipelines?per_page=1&page=1 Next, get job id based on pipeline id just obtained before: curl -sS --header "PRIVATE-TOKEN: <my-token-here>" "https://[redacted,host]/api/v4/projects/[redacted,project]/pipelines/<pipeline-id>/jobs" | jq '.[] | select(.name == "build

Nginx防盗链、Nginx访问控制、Nginx解析php相关配置、Nginx代理

血红的双手。 提交于 2021-01-01 06:34:59
Nginx防盗链首先进入到/usr/local/nginx/conf/vhost/目录下,编辑配置文件 vim test.com.confvim test.com.conf然后如数如下内容location ~ ^.+.(gif|jpg|png|swf|flv|rar|zip|doc|pdf|gz|bz2|jpeg|bmp|xls)${ expires 7d; valid_referers none blocked server_names .test.com ; if ($invalid_referer) { return 403; } access_log off;} valid_referers none blocked server_names *.test.com ; if ($invalid_referer) { return 403;这时防盗链的核心部分,第一行的意义为定义白名单,第二行是如果不匹配,第三行是状态码。输入完后保存,检查语法,重新加载。 Nginx访问控制 和httpd一样,Nginx也需要限制某些IP不能访问或者只允许某些IP访问,配制方法和httpd很像。但更加简洁了。不需要像httpd全部都历一遍。 配置访问控制还是要编辑虚拟主机的配置文件 /usr/local/nginx/conf/vhost/ 然后再最后面加上访问控制的配置 location

Apache(httpd)配置--日志控制与静态元素过期时间配置

非 Y 不嫁゛ 提交于 2021-01-01 05:39:22
一、访问日志不记录静态文件 很多网站大多为静态网页,网页内部的图片、css文件等同样有其网址链接,如果不设置,这些无效的信息也将被存入访问日志中,会导致访问日志文件大小快速增加,占用大量存储空间。我们可以通过设置不记录某些文件来减少无效信息,节省内存资源。 那么具体怎么操作呢?按照下面例子操作即可: 步骤:编辑虚拟主机配置文件 [root@zlinux ~]# vim /usr/local/apache2/conf/extra/httpd-vhosts.conf ErrorLog "logs/123test-error_log" #以下为定义变量:将所有关于图片,css,js的请求定义为变量img SetEnvIf Request_URI ".*\.gif$" img SetEnvIf Request_URI ".*\.jpg$" img SetEnvIf Request_URI ".*\.png$" img SetEnvIf Request_URI ".*\.bmp$" img SetEnvIf Request_URI ".*\.swf$" img SetEnvIf Request_URI ".*\.js$" img SetEnvIf Request_URI ".*\.css$" img # "env=!img"表示非img变量。意思是:不记录关于变量img的请求日志。