KHTML | 易学教程

GitLab 502问题的解决

阅读更多关于 GitLab 502问题的解决

问题： 502 Whoops, GitLab is taking too much time to respond. 日志： [root@cs12-66-gitlab ~]# my gitlab-ctl tail -bash: my: command not found [root@cs12-66-gitlab ~]# gitlab-ctl tail ==> /var/log/gitlab/gitlab-shell/gitlab-shell.log <== # Logfile created on 2018-02-02 14:34:26 +0800 by logger.rb/56438 ==> /var/log/gitlab/gitlab-rails/gitlab-rails-db-migrate-2018-02-02-14-34-39.log <== -> 0.3182s == Seed from /opt/gitlab/embedded/service/gitlab-rails/db/fixtures/production/001_admin.rb Administrator account created: login: root password: You'll be prompted to create one on your first visit. == Seed

python分析BOSS直聘的某个招聘岗位数据

阅读更多关于 python分析BOSS直聘的某个招聘岗位数据

前言毕业找工作，在职人员换工作，离职人员找工作……不管什么人群，应聘求职，都需要先分析对应的招聘岗位，岗位需求是否和自己匹配，常见的招聘平台有：BOSS直聘、拉钩招聘、智联招聘等，我们通常的方法都是，打开招聘网站，搜索职位关键字，然后一页一页的逐个查看，觉得还不错的岗位就投递一下简历，或者和招聘负责人聊一下，那么有没有办法，能一次性把相关的招聘岗位列出来，方便快速的分析，答案当然有的…… 很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！ QQ群：1097524789 我想做什么最近我也在考虑新的工作机会，所以，为了方便才这么做的；下面给大家看个东西，打开后面的链接 BOSS直聘的100个PHP招聘岗位可以看到，这是表格的形式展示了100个PHP的招聘岗位，没错，这就是我爬取的BOSS直聘网的PHP招聘岗位，为啥是100个呢，我也不敢问啊，毕竟BOSS直聘官网限制了10页，通过爬取数据，然后生成 markdown 表格文件，最后展示在有道分享中，就是上面大家看到的那个了，话不多说，开搞。运行环境 Python运行环境：Windows + python3.6

日志分析logstash插件-grok详解

阅读更多关于日志分析logstash插件-grok详解

一般系统或服务生成的日志都是一大长串。每个字段之间用空格隔开。logstash在获取日志是整个一串获取，如果把日志中每个字段代表的意思分割开来在传给elasticsearch。这样呈现出来的数据更加清晰，而且也能让kibana更方便的绘制图形。 Grok 是 Logstash 最重要的插件。它的主要作用就是将文本格式的字符串，转换成为具体的结构化的数据，配合正则表达式使用。 grok表达式下面针对Apache日志来分割处理 filter { if [type] == "apache" { grok { match => ["message" => "%{IPORHOST:addre} %{USER:ident} %{USER:auth} \[%{HTTPDATE:timestamp}\] \"%{WORD:http_method} %{NOTSPACE:request} HTTP/%{NUMBER:httpversion}\" %{NUMBER:status} (?:%{NUMBER:bytes}|-) \"(?:%{URI:http_referer}|-)\" \"%{GREEDYDATA:User_Agent}\""] remove_field => ["message"] } date { match => [ "timestamp", "dd/MMM/YYYY:HH:mm

快手解析视频真实链接（爬取快手视频）

阅读更多关于快手解析视频真实链接（爬取快手视频）

1.复制快手视频链接（如下）陪伴是最常情的告白，守护是最沉默的陪伴…… #汪星人 #宠物避障挑战 https://v.kuaishou.com/5xXNiL 复制此链接，打开【快手App】直接观看！虚拟链接是：https://v.kuaishou.com/5xXNiL 2.代码解析真实链接（这里就不介绍代码，有问题可以留言） # -*- coding: utf-8 -*- """ Created on Fri May 15 13:17:21 2020 @author: 李运辰 """ import requests requests.packages.urllib3.disable_warnings() headers = { # " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 " , } headers2 = { # "Host":"music.liuzhijin.cn", " Host " : " live.kuaishou.com " , " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64;

Python爬虫学习之爬美女图片

阅读更多关于 Python爬虫学习之爬美女图片

学习python可能最先入手的就是爬虫了，闲来没事就找了找爬点什么内容比较好。突然发现最近很流行爬去美女图片啊！！！！二话不说，搞起来。先来看看网站长啥样。再看看网站的Html结构。好了，知道了网站html结构，name就开干吧。先创建py文件，引入第三方包urllib.request、BeautifulSoup和os。 1、创建文件保存方法 2、定义请求头 3、网页分析 4、主函数 5、结果 6、程序源码 import urllib.request from bs4 import BeautifulSoup import os def Download(url, picAlt, name): path = ' D:\\tupian\\ ' + picAlt + ' \\ ' # 判断系统是否存在该路径，不存在则创建 if not os.path.exists(path): os.makedirs(path) # 下载图片并保存在本地 urllib.request.urlretrieve(url, ' {0}{1}.jpg ' .format(path, name)) #定义请求头 header = { " User-Agent " : ' Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like

cookie和session的使用

阅读更多关于 cookie和session的使用

import requests # 需要请求的目标地址 url= ' http://www.rrys2019.com/user/user ' headers ={ ' user-agent ' : ' Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Mobile Safari/537.36 ' } # 需要的登录地址 login_url= ' http://www.rrys2019.com/User/Login/ajaxLogin ' # 如果需要爬虫主动记录cookie并且携带cookie，那么在使用使用requests之前先调用session方法 # 并且使用session方法返回的对象发送请求即可 rep=requests.session() # 可以自动记录cookie data = { ' account ' : ' ' , ' password ' : ' ' , ' remember ' : ' 1 ' , ' url_back ' : ' http://www.rrys2019.com/user/user ' } res =rep.post(url=login_url,headers

只要网速够快，小视频看完一个删一个，任性！Python爬取小视频

阅读更多关于只要网速够快，小视频看完一个删一个，任性！Python爬取小视频

前言 yy平台，直播界的先驱，有很多主播会把一些自己的直播精彩看点上传到该平台下的小视频栏目中今天带大家爬取yy小视频栏目中所有的小视频课程知识点： 1、动态数据抓包演示 2、json数据解析方法 3、视频数据保存环境介绍： python 3.6 pycharm requests 爬虫的一般思路： 1、分析目标网页,确定爬取的url路径，headers参数 2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据 3、解析数据 4、保存数据导入工具 import requests import re import pprint 分析目标网页,确定爬取的url路径，headers参数 url地址：参数 url = ' https://api-tinyvideo-web.yy.com/home/tinyvideos? ' headers = { ' user-agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36 ' , } param = { ' data ' : ' {"uid":0,"page":1,"pageSize":10} ' , } 发送请求 --

Logstash filter 插件之 grok

阅读更多关于 Logstash filter 插件之 grok

本文简单介绍一下 Logstash 的过滤插件 grok。 Grok 的主要功能 Grok 是 Logstash 最重要的插件。它可以解析任意文本并把它结构化。因此 Grok 是将非结构化的日志数据解析为可查询的结构化数据的好方法。这个工具非常适合 syslog 日志、apache 和其他 web 服务器日志、mysql 日志，以及那些通常为人(而不是计算机)编写的日志格式。 Grok 使用正则表达式提取日志记录中的数据，这也正是 grok 强大的原因。Grok 使用的正则表达式语法与 Perl 和 Ruby 语言中的正则表达式语法类似。你还可以在 grok 里预定义好命名正则表达式，并在稍后(grok 参数或者其他正则表达式里)引用它。 Grok 语法语法格式： %{SYNTAX:SEMANTIC} SYNTAX 是文本匹配的正则表达式模式。比如 NUMBER 模式可以匹配到 3.15 之类的数字；IP 模式可以匹配到 192.168.0.1 等 IP 地址。 SEMANTIC 是为匹配的文本提供的标识符。比如，3.15 可以是事件的 duration(持续时间)，因此可以简单地将其称为 duration；字符串 192.168.0.1 用来标识发出请求的 client。因此和用下面的模式来结构化日志记录： %{NUMBER:duration} %{IP:client}

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）

阅读更多关于 PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）

利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作，从数据形式，CSS样式都是通过数据接口的样式来决定的，所以它的抓取方法和其他网页的抓取方法不太一样，对它的抓取需要抓取后台传来的JSON数据，　　先来看一下今日头条的源码结构：我们抓取文章的标题，详情页的图片链接试一下：看到上面的源码了吧，抓取下来没有用，那么我看下它的后台数据：‘ 所有的数据都在后台的JSON展示中，所以我们需要通过接口对数据进行抓取提取网页JSON数据执行函数结果，如果你想大量抓取记得开启多进程并且存入数据库：看下结果：总结一下：网上好多抓取今日头条的案例都是先抓去指定主页，获取文章的URL再通过详情页，接着在详情页上抓取，但是现在的今日头条的网站是这样的，在主页的接口数据中就带有详情页的数据，通过点击跳转携带数据的方式将数据传给详情页的页面模板，这样开发起来方便节省了不少时间并且减少代码量流程框架爬虫实战 spider详情页 import json import os from hashlib import md5 from json import JSONDecodeError import pymongo import re from urllib.parse import urlencode from

Python爬虫学习笔记6：Ajax数据爬取

阅读更多关于 Python爬虫学习笔记6：Ajax数据爬取

学习参考：Python3网络爬虫开发实战问题：requests抓取的页面信息和浏览器中看到的不一样。原因：requests获取的都是原始的HTML文档，浏览器中的页面很多都是经过javascript数据处理后的结果，这些数据可能通过AJax加载的，也可能是通过其他特定算法计算得到的解决：对于通过Ajax加载的，叫异步加载，这种可以在web开发上做到前后端分离，降低服务器直接渲染页面带来的压力，如果遇到requests无法获取有效数据，需要进一步分析网页后台向接口发送的Ajax请求，然后用requests来模拟Ajax请求，就可以成功获取了 6.1 什么是 Ajax Ajax是利用Javascript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 2. 基本原理发送请求、解析内容、渲染网页 6.2 Ajax 分析方法 1. 查看请求 jax其实有其特殊的请求类型，它叫作 xhr ，Request Headers中有一个信息为 X-Requested-With:XMLHt甲Request，这就标记了此请求是 Ajax请求在response里面可以找到真实的数据。 2. 过滤请求 6.3 Ajax 结果提取 1.分析请求继续下拉网页，会发现很多xhr信息出来，找到其中两个点击第一个，可以发现，这是一个 GET类型的请求，请求链接为

订阅 KHTML