KHTML

Nginx

余生长醉 提交于 2020-05-06 03:01:44
目录 - 前言 - Nginx 根据域名反向代理 - Nginx proxy_pass 关于 '/' 的作用 1. 前言 接到一个需求,通过nginx 代理互联网上某一个页面,刚开始的时候觉得很简单的,直接 proxy_pass 过去就完事了,测试了下还是想太多。具体记录如下。 2. Nginx 根据域名反向代理 web服务器通常有三种访问方式: 基于ip 基于域名 基于端口 而互联网上暴露的网站多数都是通过 基于域名 的方式,如果直接通过解析后的IP访问,可能就无法访问到网站信息。我这里模拟了下这种方式,如下: 对应关系: 浏览器访问域名: 浏览器访问ip地址: 现在问题来了,当你的 nginx 配置 proxy_pass 的时候,得到的是 域名返回的结果 还是 ip地址返回的结果呢?这两种返回的结果完全不同。 在另一台主机 [ 192.168.118.14 ] 上安装 nginx 并配置好 配置nginx 方向代理 通过浏览器访问 192.168.118.14 查看日志信息: 192.168.118.41 - - [23/Jul/2019:20:09:12 +0800] "GET / HTTP/1.1" 200 15 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)

PYTHON 爬虫笔记一:爬虫基本原理梳理

独自空忆成欢 提交于 2020-05-05 12:59:16
知识点一:爬虫的基本原理梳理   一、什么是爬虫?     请求网站并提取数据的自动化程序   二、爬虫的基本流程     1:向服务器发起请求       通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器的响应。     2:获取响应内容       如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML、JSON、二进制文件(如图片、视频等类型)。     3:解析内容       得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是JSON,可以直接转成JOSN对象进行解析,可能是二进制数据,可以保存或者进一步处理     4:保存内容       保存形式多样,可以保存成文本,也可以保存至数据库,或者保存成特定格式的文件。   三、什么是Response和Request ?   四、Request中包含哪些内容?       1:请求方式       主要是GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等。    2:请求URL       URL全称是统一资源定位符,如一个网页文档、一张图片、一个视频等都可以用URL来唯一来确定       3:请求头       包含请求时的头部信息,如User

python爬虫(8)——Xpath的应用实例:爬取腾讯招聘信息

跟風遠走 提交于 2020-05-04 07:43:48
    上一篇文章,简单介绍了beautifulsoup这个解析器,下面来了解一个我非常喜欢的工具——Xpath。     Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。推荐各位使用Google浏览器吧Chrome,安装一个插件工具Xpath Helper。文档传送门:http://www.w3school.com.cn/xpath/xpath_intro.asp     我们在chrome中打开Xpath Helper插件,右键检查元素,分析网页结构,我们可以用上图所示的方法提取到职位名称。但是提取不到类别和地址,经过分析后发现,隔行的class属性不一致。实际上在这里,我们可以爬下职位链接,然后进行深度爬取。     xpath提取时,要注意将网页转换成html文档,代码如下(未保存本地,只是显示在命令终端): 1 import requests 2 from lxml import etree 3 4 5 6 7 8 def get_info(page_url): 9 page_response=requests.get(page_url,headers= headers) 10 page_html= page_response.text 11 page_HTML= etree.HTML(page_html) 12 #

Python 利用 BeautifulSoup 爬取网站获取新闻流

不想你离开。 提交于 2020-05-04 07:00:50
0. 引言   介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流; 图 1 项目介绍 1. 开发环境    Python:       3.6.3    BeautifulSoup:    4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库*   ( BeautifulSoup 的中文官方文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 介绍   首先需要知道什么是 HTML ( Hypertext Markup Language,超文本标记语言 ) :   HTML 是用来描述网页的一种语言*:   HTML 指的是超文本标记语言 ( H yper T ext M arkup L anguage)   HTML 不是一种编程语言,而是一种标记语言 (markup language)   标记语言是一套标记标签 (markup tag)   HTML 使用标记标签来描述网页      代码实现主要分为三个模块:    1. 计时 / second cnt     因为是周期性爬取,所以需要计时器来控制;    2. 设置代理 / set proxy     为了应对网站的反爬虫机制,需要切换代理;    3. 爬虫 / web

CTF-Web-[极客大挑战 2019]Http

拟墨画扇 提交于 2020-05-03 17:38:43
CTF-Web-[极客大挑战 2019]Http 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢!本文仅用于学习与交流,不得用于非法用途! CTP平台 网址 https://buuoj.cn/challenges 题目 Web类,[极客大挑战 2019]Http 打开题目的实例 思路 看到http类的题目,打开burp,记得我们上次安装过 找到下面的Secret.php文件,进入相应的页面 我们需要修改header头,把 https://www.Sycsecret.com写进去,复制一个头文件,添加关键的一行 Referer:https://www.Sycsecret.com 全部的 GET /Secret.php HTTP/1.1 Host: 9141-f2e36f57-6b2f-4563-8342-a0cfdb3ec455node3.buuoj.cn:29788 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36 Accept: text

stm32+lwip(四):网页服务器测试

╄→гoц情女王★ 提交于 2020-05-02 19:42:36
我是卓波,很高兴你来看我的博客。 系列文章: stm32+lwip(一):使用STM32CubeMX生成项目 stm32+lwip(二):UDP测试 stm32+lwip(三):TCP测试 stm32+lwip(四):网页服务器测试 stm32+lwip(五):以太网帧发送测试 ST官方有lwip的例程,下载地址如下: https://www.st.com/content/st_com/en/products/embedded-software/mcus-embedded-software/stm32-embedded-software/stm32-standard-peripheral-library-expansion/stsw-stm32070.html 本文例子参考ST官方给出的例程。 一、准备 ST例程文档关于lwip的介绍如下: 由此可以看到LWIP有三种API,在本文中,使用Raw API。 HTTP 协议是建立在 TCP 协议之上的一种应用,本文用到的 TCP Raw API 如下 : 二、移植官方例程 官方例程在 stsw-stm32070\STM32F4x7_ETH_LwIP_V1.1.1\Project\Standalone\httpserver 目录下,拷贝以下文件到我们工程: fs.c/h 是文件的操作 fs.data.c/h 存放了网页的数据 httpd

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 306...

扶醉桌前 提交于 2020-05-01 07:18:38
1 import urllib.request 2 def load_baidu(): 3 url = " https://www.baidu.com/ " 4 header = { " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3650.400 QQBrowser/10.4.3341.400 " , 5 " haha " : " hehe " } 6 7 # 长久请求对象 8 request = urllib.request.Request(url,headers = header) 9 # 请求网络数据 10 response = urllib.request.urlopen(request) 11 print (response) 12 data = response.read().decode( " utf-8 " ) 13 14 # 响应头 15 # print(response.headers) 16 # 获取请求头的信息(所有头的信息) 17 request_headers = request.headers 18 print

全国315个城市,用python爬取肯德基老爷爷的店面信息

痴心易碎 提交于 2020-05-01 03:17:57
我觉得我生活在这世上二十多年里,去过最多的餐厅就是肯德基小时候逢生日必去,现在长大了,肯德基成了我的日常零食下班后从门前路过饿了便会进去点分黄金鸡块或者小吃拼盘早上路过,会买杯咖啡。主要快捷美味且饱腹,而且到处都是总是会路过,现在只要一饿,心心念念便是肯德基的味道 环境介绍 python 3.6 pycharm requests csv 爬虫的一般思路 1、确定爬取的url路径,headers参数 2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据 3、解析数据 4、保存数据 步骤 1、确定爬取的url路径,headers参数 先爬取北京的数据 base_url = ' http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword ' headers = { ' user-agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36 ' } data = { ' cname ' : '' , ' pid ' : '' , ' keyword ' : ' 北京 ' , ' pageIndex ' : ' 1 '

Python爬虫-有道翻译

二次信任 提交于 2020-04-29 15:57:47
有道翻译爬虫实现   POST请求: # 有道翻译爬虫 from urllib import request import urllib import re # 构造请求头信息 header= { " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) \ Chrome/81.0.4044.122 Safari/537.36 " } # 谷歌浏览器 # http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule 网页上的url url= " http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule " key = " 白金之星,世界 " # 发送到web服务器的表单数据 formdata= { " i " :key, " from " : " AUTO " , " to " : " AUTO " , " smartresult " : " dict " , " client " : " fanyideskweb " , " salt " : " 15880563488791 " ,

C# FiddlerCore 抓取

人走茶凉 提交于 2020-04-28 20:46:13
原文: C# FiddlerCore 抓取 C# FiddlerCore 抓取 本文目的 情景介绍 添加引用 初始化FiddlerCore 实现事件处理 启动、停止 冷启动 彻底停止 热启动、停止 方式一:解绑事件处理函数 方式二:解除系统代理 终端设置 抓取本机请求 抓取非本机请求 保证目标终端与代理机处于同一网段 下载证书 安装证书 设置代理 真正开始抓取 待实现 项目合作 本文目的 记录FiddlerCore怎样实现以下功能: 抓取本机的请求响应 抓取本机局域网内其它设备的请求响应 情景介绍 用 C#调用FiddlerCore ,开发出软件,本软件可以抓取本机( 运行本软件的电脑 )上的http/https请求响应,可以抓取同一局域网内设备(如本机局域网ip为192.168.1.2,路由器ip为192.168.1.1,同一路由器下还连接了一部手机,其ip为192.168.1.3,那么,这个手机的http/https也是可以抓取的)。 添加引用 需要的库文件: BCMakeCert.dll CertMaker.dll FiddlerCore4.dll FiddlerCore4.pdb FiddlerCore4.xml using Fiddler ; 1 初始化FiddlerCore //https代理 Proxy oSecureEndpoint ; //主机名 string