safari

Python 利用 BeautifulSoup 爬取网站获取新闻流

不想你离开。 提交于 2020-05-04 07:00:50
0. 引言   介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流; 图 1 项目介绍 1. 开发环境    Python:       3.6.3    BeautifulSoup:    4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库*   ( BeautifulSoup 的中文官方文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 介绍   首先需要知道什么是 HTML ( Hypertext Markup Language,超文本标记语言 ) :   HTML 是用来描述网页的一种语言*:   HTML 指的是超文本标记语言 ( H yper T ext M arkup L anguage)   HTML 不是一种编程语言,而是一种标记语言 (markup language)   标记语言是一套标记标签 (markup tag)   HTML 使用标记标签来描述网页      代码实现主要分为三个模块:    1. 计时 / second cnt     因为是周期性爬取,所以需要计时器来控制;    2. 设置代理 / set proxy     为了应对网站的反爬虫机制,需要切换代理;    3. 爬虫 / web

CTF-Web-[极客大挑战 2019]Http

拟墨画扇 提交于 2020-05-03 17:38:43
CTF-Web-[极客大挑战 2019]Http 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢!本文仅用于学习与交流,不得用于非法用途! CTP平台 网址 https://buuoj.cn/challenges 题目 Web类,[极客大挑战 2019]Http 打开题目的实例 思路 看到http类的题目,打开burp,记得我们上次安装过 找到下面的Secret.php文件,进入相应的页面 我们需要修改header头,把 https://www.Sycsecret.com写进去,复制一个头文件,添加关键的一行 Referer:https://www.Sycsecret.com 全部的 GET /Secret.php HTTP/1.1 Host: 9141-f2e36f57-6b2f-4563-8342-a0cfdb3ec455node3.buuoj.cn:29788 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36 Accept: text

自动支持图片webp格式压缩,图片服务器升级webserver

让人想犯罪 __ 提交于 2020-05-03 16:34:04
自动支持图片webp格式压缩,图片服务器升级webserver webp server 是开源免费的。 图片服务器升级,自动支持webp,得先升级openresty 用go写的 webserver 请求到jpg png gif这些,再缓存起来,外面请求还是jpeg这些,实际先到go返回的webp格式,当浏览器不支持webp的才返回源文件。 提升加载时间,图片从434KB减少到340KB,1/4(25%)的压缩率。 根据 caniuse 的统计情况, 主流浏览器(接近80%)都支持 webp 了,如果遇到 Safari 这样的奇葩,直接返回原图。 最重要的一点是——我们访问的 URL 可以完全不用改变,访客访问的依然是xxx.jpg ,但是得到的图片格式为:image/webp,而且体积减少了不少(25%)。 WebP的有损压缩算法是基于VP8视频格式的帧内编码[17],并以RIFF作为容器格式。[2] 因此,它是一个具有八位色彩深度和以1:2的比例进行色度子采样的亮度-色度模型(YCbCr 4:2:0)的基于块的转换方案。[18] 不含内容的情况下,RIFF容器要求只需20字节的开销,依然能保存额外的 元数据(metadata)。[2] WebP图像的边长限制为16383像素。 WebP 是一种衍生自 Google VP8 的图像格式,同时支持有损和无损编码。当使用有损模式

stm32+lwip(四):网页服务器测试

╄→гoц情女王★ 提交于 2020-05-02 19:42:36
我是卓波,很高兴你来看我的博客。 系列文章: stm32+lwip(一):使用STM32CubeMX生成项目 stm32+lwip(二):UDP测试 stm32+lwip(三):TCP测试 stm32+lwip(四):网页服务器测试 stm32+lwip(五):以太网帧发送测试 ST官方有lwip的例程,下载地址如下: https://www.st.com/content/st_com/en/products/embedded-software/mcus-embedded-software/stm32-embedded-software/stm32-standard-peripheral-library-expansion/stsw-stm32070.html 本文例子参考ST官方给出的例程。 一、准备 ST例程文档关于lwip的介绍如下: 由此可以看到LWIP有三种API,在本文中,使用Raw API。 HTTP 协议是建立在 TCP 协议之上的一种应用,本文用到的 TCP Raw API 如下 : 二、移植官方例程 官方例程在 stsw-stm32070\STM32F4x7_ETH_LwIP_V1.1.1\Project\Standalone\httpserver 目录下,拷贝以下文件到我们工程: fs.c/h 是文件的操作 fs.data.c/h 存放了网页的数据 httpd

监控 各大主流 浏览器 的 url 访问事件

三世轮回 提交于 2020-05-02 16:50:45
监控 各大主流 浏览器 的 url 访问事件 目前国内及国际上流行的主流浏览器很多, 除了系统自带的 Internet Explorer 与 Microsoft Edge 之外,还有: Google Chrome 谷歌浏览器 QQ浏览器 360极速浏览器 360安全浏览器 2345加速浏览器 火狐浏览器 Safari浏览器 搜狗高速浏览器 UC浏览器 小智双核浏览器 Opera桌面浏览器 猎豹安全浏览器 联想浏览器 遨游浏览器 世界之窗浏览器 百分浏览器 星愿浏览器 115浏览器 …… …… 等等 本项目实现了监控各个浏览器的网页打开事件,并将url链接地址等信息通知给目标客户端。 与普通网络请求监控不同的是,一个页面内通常可存在多次不同的网络请求,本项目监控的 是用户所主动打开的网页,而非页面内各自不同的http, udp, socket请求。 本项目可用于网络监控、广告推广、优惠券 等等项目之上。 github 演示地址 : https://github.com/tankaishuai/BrowserMonitorOpenUrl 来源: oschina 链接: https://my.oschina.net/u/4406675/blog/4262209

好程序员web前端教程JavaScript系列之HTTP

ぃ、小莉子 提交于 2020-05-01 20:51:52
  好程序员web前端教程JavaScript系列之HTTP:http 是我们前后台交互的时候的传输协议(即超文本传输协议) HTTP 的工作流程 .和服务器建立链接 .建立链接后,发送一个请求给服务器(请求) .服务器接受到请求以后进行相应的处理并给出一个回应(响应) .断开于服务器的链接 和服务器建立链接 怎么和服务器建立链接呢? 需要保证客户端的接受和发送正常,服务器端的接受和发送正常 这里就涉及到一个东西叫做 TCP/IP 协议 建立链接的主要步骤叫做 三次握手 1、客户端发送一个消息给到服务端 此时: 服务端知道了 客户端可以正常发送消息 服务端知道了 服务端可以正常接受消息 2、服务端回给客户端一个消息 此时: 服务端知道了 客户端可以正常发送消息 服务端知道了 服务端可以正常接受消息 客户端知道了 客户端可以正常发送消息 客户端知道了 客户端可以正常接受消息 客户端知道了 服务端可以正常接受消息 客户端知道了 服务端可以正常发送消息 3、客户端再回给服务端一个消息 此时: 服务端知道了 客户端可以正常发送消息 服务端知道了 服务端可以正常接受消息 客户端知道了 客户端可以正常发送消息 客户端知道了 客户端可以正常接受消息 客户端知道了 服务端可以正常接受消息 客户端知道了 服务端可以正常发送消息 服务端知道了 服务端可以正常发送消息 服务端知道了

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 306...

扶醉桌前 提交于 2020-05-01 07:18:38
1 import urllib.request 2 def load_baidu(): 3 url = " https://www.baidu.com/ " 4 header = { " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3650.400 QQBrowser/10.4.3341.400 " , 5 " haha " : " hehe " } 6 7 # 长久请求对象 8 request = urllib.request.Request(url,headers = header) 9 # 请求网络数据 10 response = urllib.request.urlopen(request) 11 print (response) 12 data = response.read().decode( " utf-8 " ) 13 14 # 响应头 15 # print(response.headers) 16 # 获取请求头的信息(所有头的信息) 17 request_headers = request.headers 18 print

全国315个城市,用python爬取肯德基老爷爷的店面信息

痴心易碎 提交于 2020-05-01 03:17:57
我觉得我生活在这世上二十多年里,去过最多的餐厅就是肯德基小时候逢生日必去,现在长大了,肯德基成了我的日常零食下班后从门前路过饿了便会进去点分黄金鸡块或者小吃拼盘早上路过,会买杯咖啡。主要快捷美味且饱腹,而且到处都是总是会路过,现在只要一饿,心心念念便是肯德基的味道 环境介绍 python 3.6 pycharm requests csv 爬虫的一般思路 1、确定爬取的url路径,headers参数 2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据 3、解析数据 4、保存数据 步骤 1、确定爬取的url路径,headers参数 先爬取北京的数据 base_url = ' http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword ' headers = { ' user-agent ' : ' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36 ' } data = { ' cname ' : '' , ' pid ' : '' , ' keyword ' : ' 北京 ' , ' pageIndex ' : ' 1 '

Python爬虫-有道翻译

二次信任 提交于 2020-04-29 15:57:47
有道翻译爬虫实现   POST请求: # 有道翻译爬虫 from urllib import request import urllib import re # 构造请求头信息 header= { " User-Agent " : " Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) \ Chrome/81.0.4044.122 Safari/537.36 " } # 谷歌浏览器 # http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule 网页上的url url= " http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule " key = " 白金之星,世界 " # 发送到web服务器的表单数据 formdata= { " i " :key, " from " : " AUTO " , " to " : " AUTO " , " smartresult " : " dict " , " client " : " fanyideskweb " , " salt " : " 15880563488791 " ,

C# FiddlerCore 抓取

人走茶凉 提交于 2020-04-28 20:46:13
原文: C# FiddlerCore 抓取 C# FiddlerCore 抓取 本文目的 情景介绍 添加引用 初始化FiddlerCore 实现事件处理 启动、停止 冷启动 彻底停止 热启动、停止 方式一:解绑事件处理函数 方式二:解除系统代理 终端设置 抓取本机请求 抓取非本机请求 保证目标终端与代理机处于同一网段 下载证书 安装证书 设置代理 真正开始抓取 待实现 项目合作 本文目的 记录FiddlerCore怎样实现以下功能: 抓取本机的请求响应 抓取本机局域网内其它设备的请求响应 情景介绍 用 C#调用FiddlerCore ,开发出软件,本软件可以抓取本机( 运行本软件的电脑 )上的http/https请求响应,可以抓取同一局域网内设备(如本机局域网ip为192.168.1.2,路由器ip为192.168.1.1,同一路由器下还连接了一部手机,其ip为192.168.1.3,那么,这个手机的http/https也是可以抓取的)。 添加引用 需要的库文件: BCMakeCert.dll CertMaker.dll FiddlerCore4.dll FiddlerCore4.pdb FiddlerCore4.xml using Fiddler ; 1 初始化FiddlerCore //https代理 Proxy oSecureEndpoint ; //主机名 string