gecko

nodejs 用 axios 向osc服务器上传图片[需要cookie]

偶尔善良 提交于 2020-08-05 00:10:47
通过http请求查看request数据, 复制请求头和cookie 代码 const axios = require('axios') const fs = require('fs') const img_path = './t2.jpg' const FormData = require("form-data"); const url = "https://my.oschina.net/ahaoboy/space/ckeditor_dialog_img_upload" const headers = { "accept": "*/*", "accept-language": "zh-CN,zh;q=0.9,en;q=0.8", "sec-fetch-dest": "empty", "sec-fetch-mode": "cors", "sec-fetch-site": "same-origin", "cookie": "===", "referrer": "https://my.oschina.net/ahaoboy/blog/write/4326713", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103

python 采集斗图啦xpath

主宰稳场 提交于 2020-08-04 22:44:26
import requests; import re; import os; import parsel; 1.请求网页 header = { "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' } response = requests.get(' https://www.doutula.com/photo/list/',headers=header ) html = response.text 2.解析网页 selector = parsel.Selector(html) print(selector) dir_name = 'doutu_list' if not os.path.exists(dir_name): os.mkdir(dir_name) result_list = selector.xpath('//a[@class="col-xs-6 col-sm-3"]') for result in result_list: title = result.xpath('./img/ @alt ').get() img_url = result.xpath

ubuntu下的curl命令你知道怎么用吗?

空扰寡人 提交于 2020-08-04 18:12:21
cURL(CommandLine Uniform Resource Locator)是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。它支持文件上传和下载,所以是综合传输工具,但按传统,习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。 curl命令参数很多,这里只列出我曾经用过、特别是在shell脚本中用到过的那些。 -v/--verbose 小写的v参数,用于打印更多信息,包括发送的请求信息,这在调试脚本是特别有用。 -m/--max-time <seconds> 指定处理的最大时长 -H/--header <header> 指定请求头参数 -s/--slient 减少输出的信息,比如进度 --connect-timeout <seconds> 指定尝试连接的最大时长 -x/--proxy <proxyhost[:port]> 指定代理服务器地址和端口,端口默认为1080 -T/--upload-file <file> 指定上传文件路径 -o/--output <file> 指定输出文件名称 -d/--data/--data-ascii <data> 指定POST的内容 --retry <num> 指定重试次数 -e/--referer <URL> 指定引用地址 -I/--head 仅返回头部信息,使用HEAD请求 1 get请求

GitLab 502问题的解决

孤者浪人 提交于 2020-08-04 09:29:53
问题: 502 Whoops, GitLab is taking too much time to respond. 日志: [root@cs12-66-gitlab ~]# my gitlab-ctl tail -bash: my: command not found [root@cs12-66-gitlab ~]# gitlab-ctl tail ==> /var/log/gitlab/gitlab-shell/gitlab-shell.log <== # Logfile created on 2018-02-02 14:34:26 +0800 by logger.rb/56438 ==> /var/log/gitlab/gitlab-rails/gitlab-rails-db-migrate-2018-02-02-14-34-39.log <== -> 0.3182s == Seed from /opt/gitlab/embedded/service/gitlab-rails/db/fixtures/production/001_admin.rb Administrator account created: login: root password: You'll be prompted to create one on your first visit. == Seed

python分析BOSS直聘的某个招聘岗位数据

房东的猫 提交于 2020-07-29 03:24:59
前言 毕业找工作,在职人员换工作,离职人员找工作……不管什么人群,应聘求职,都需要先分析对应的招聘岗位,岗位需求是否和自己匹配,常见的招聘平台有:BOSS直聘、拉钩招聘、智联招聘等,我们通常的方法都是,打开招聘网站,搜索职位关键字,然后一页一页的逐个查看,觉得还不错的岗位就投递一下简历,或者和招聘负责人聊一下,那么有没有办法,能一次性把相关的招聘岗位列出来,方便快速的分析,答案当然有的…… 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:1097524789 我想做什么 最近我也在考虑新的工作机会,所以,为了方便才这么做的;下面给大家看个东西,打开后面的链接 BOSS直聘的100个PHP招聘岗位 可以看到,这是表格的形式展示了100个PHP的招聘岗位,没错,这就是我爬取的BOSS直聘网的PHP招聘岗位,为啥是100个呢,我也不敢问啊,毕竟BOSS直聘官网限制了10页,通过爬取数据,然后生成 markdown 表格文件,最后展示在有道分享中,就是上面大家看到的那个了,话不多说,开搞。 运行环境 Python运行环境:Windows + python3.6

日志分析logstash插件-grok详解

非 Y 不嫁゛ 提交于 2020-07-28 18:06:12
一般系统或服务生成的日志都是一大长串。每个字段之间用空格隔开。logstash在获取日志是整个一串获取,如果把日志中每个字段代表的意思分割开来在传给elasticsearch。这样呈现出来的数据更加清晰,而且也能让kibana更方便的绘制图形。 Grok 是 Logstash 最重要的插件。它的主要作用就是将文本格式的字符串,转换成为具体的结构化的数据,配合正则表达式使用。 grok表达式 下面针对Apache日志来分割处理 filter { if [type] == "apache" { grok { match => ["message" => "%{IPORHOST:addre} %{USER:ident} %{USER:auth} \[%{HTTPDATE:timestamp}\] \"%{WORD:http_method} %{NOTSPACE:request} HTTP/%{NUMBER:httpversion}\" %{NUMBER:status} (?:%{NUMBER:bytes}|-) \"(?:%{URI:http_referer}|-)\" \"%{GREEDYDATA:User_Agent}\""] remove_field => ["message"] } date { match => [ "timestamp", "dd/MMM/YYYY:HH:mm

快手解析视频真实链接(爬取快手视频)

邮差的信 提交于 2020-07-28 09:55:31
1.复制快手视频链接(如下) 陪伴是最常情的告白,守护是最沉默的陪伴…… #汪星人 #宠物避障挑战 https://v.kuaishou.com/5xXNiL 复制此链接,打开【快手App】直接观看! 虚拟链接是:https://v.kuaishou.com/5xXNiL 2.代码解析真实链接(这里就不介绍代码,有问题可以留言) # -*- coding: utf-8 -*- """ Created on Fri May 15 13:17:21 2020 @author: 李运辰 """ import requests requests.packages.urllib3.disable_warnings() headers = { # " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 " , } headers2 = { # "Host":"music.liuzhijin.cn", " Host " : " live.kuaishou.com " , " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64;

Python爬虫学习之爬美女图片

佐手、 提交于 2020-07-28 01:58:15
学习python可能最先入手的就是爬虫了,闲来没事就找了找爬点什么内容比较好。突然发现最近很流行爬去美女图片啊!!!!二话不说,搞起来。 先来看看网站长啥样。 再看看网站的Html结构。 好了,知道了网站html结构,name就开干吧。先创建py文件,引入第三方包urllib.request、BeautifulSoup和os。 1、创建文件保存方法 2、定义请求头 3、网页分析 4、主函数 5、结果 6、程序源码 import urllib.request from bs4 import BeautifulSoup import os def Download(url, picAlt, name): path = ' D:\\tupian\\ ' + picAlt + ' \\ ' # 判断系统是否存在该路径,不存在则创建 if not os.path.exists(path): os.makedirs(path) # 下载图片并保存在本地 urllib.request.urlretrieve(url, ' {0}{1}.jpg ' .format(path, name)) #定义请求头 header = { " User-Agent " : ' Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like

cookie和session的使用

試著忘記壹切 提交于 2020-07-24 14:04:59
import requests # 需要请求的目标地址 url= ' http://www.rrys2019.com/user/user ' headers ={ ' user-agent ' : ' Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Mobile Safari/537.36 ' } # 需要的登录地址 login_url= ' http://www.rrys2019.com/User/Login/ajaxLogin ' # 如果需要爬虫主动记录cookie并且携带cookie,那么在使用使用requests之前先调用session方法 # 并且使用session方法返回的对象发送请求即可 rep=requests.session() # 可以自动记录cookie data = { ' account ' : ' ' , ' password ' : ' ' , ' remember ' : ' 1 ' , ' url_back ' : ' http://www.rrys2019.com/user/user ' } res =rep.post(url=login_url,headers

只要网速够快,小视频看完一个删一个,任性!Python爬取小视频

被刻印的时光 ゝ 提交于 2020-05-09 09:42:50
前言 yy平台,直播界的先驱,有很多主播会把一些自己的直播精彩看点上传到该平台下的小视频栏目中 今天带大家爬取yy小视频栏目中所有的小视频 课程知识点: 1、动态数据抓包演示 2、json数据解析方法 3、视频数据保存 环境介绍: python 3.6 pycharm requests 爬虫的一般思路: 1、分析目标网页,确定爬取的url路径,headers参数 2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据 3、解析数据 4、保存数据 导入工具 import requests import re import pprint 分析目标网页,确定爬取的url路径,headers参数 url地址: 参数 url = ' https://api-tinyvideo-web.yy.com/home/tinyvideos? ' headers = { ' user-agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36 ' , } param = { ' data ' : ' {"uid":0,"page":1,"pageSize":10} ' , } 发送请求 --