gecko

python深挖65万人的明星贴吧,探究上万个帖子的秘密

早过忘川 提交于 2020-08-06 04:56:10
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 最近一直在关注百度明星吧,发现很多有趣的帖子,于是我就想用python把这些帖子都爬下来,并对内容进行分析。 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:1097524789 本文的知识点: 介绍了mysql数据库内容插入及提取的简单应用; 介绍了如何从mysql数据库提取文本并进行分析; 介绍了数据分析的切入点及思路。 对于初学者想更轻松的学好Python开发技术,Python爬虫,Python大数据分析,人工智能等技术,这里给大家分享一套系统教学资源,加一下我建的Python技术的学习裙;七八四七五八二一四,一起学习。有相关开发工具,学习教程,每天还有专业的老司机在线直播分享知识与技术答疑解惑! 下面给大家详细介绍一下实现过程: 一、网站分析 贴吧的翻页通过url的变化来实现,主要是pn参数: https: //tieba.baidu.com/f?kw=明星&ie=utf-8&pn=页数*50 帖子的内容

requests用法基础-进阶

亡梦爱人 提交于 2020-08-06 03:14:38
本节内容 模块的安装 -----------------------基础用法--------------------- GET用法、POST用法 -----------------------进阶用法-------------------- cookie处理、代理ip、session 一 模块安装: 1). 安装requests包还是很方便的,电脑中有python环境,打开cmd,输入pip install requests下载; 如果有同学使用pycharm的话,选择file-->setting-->Project interpreter-->右边"+"号点击--->输入模块名---->选中下载。 2). requests的作用、特点、以及使用流程 作用:模拟用户使用浏览器上网 特点:简单、高效 使用流程: 指定url; 发起请求(requests.get/post); 获取响应信息/数据(response); 持久化存储(保存csv、MySQL、txt等); 二基本用法: 1). get(url,headers,params):各用法 获取搜狗首页的页面数据: 1 import requests # 引包 2 # 1指定url 3 url = ' https://www.sogou.com/ ' 4 # 2.发起请求 5 response = requests.get(url=

VMLogin 配置高手进阶尽在 vmlogin.cc

半腔热情 提交于 2020-08-05 14:12:05
VMLogin浏览器配置文件设置非常重要,如果设置有明显的冲突或不符合常理,那么所应用到的场景可能就会受到影响。下面我们来看看哪些不合常理的配置例子: WebGL vendor (供应商): 像苹果手机和苹果电脑一般都是 WebGL vendor :Apple Inc. WebGL renderer(渲染器):Apple GPU 如果我们是 Windows 系统情况下,大部分是: WebGL vendor :Google Inc. 我们在做实验的情况下Chrome浏览器和Internet Explorer(Edge)测试取WebGL vendor 会有两种不同值 ,Chrome 取为 Google Inc. Internet Explorer(Edge)取为 Microsoft ,所以 WebGL vendor 不能完全翻译为《显卡供应商》,因为它和浏览器开发商有关。我们有趣的发现Firefox浏览器取值 WebGL vendor :Google Inc. 所以这里我们可以得出一个结论:如果我们把User-Agent标识成了Chrome 和 Firefox 浏览器,那么最好 windows 系统 WebGL vendor 设置为Google Inc. 比较合理。 高手 User-Agent 配置不得不熟悉 首先,我们来了解一下什么是 User-Agent。 User

挑战每分钟爬取100个视频,只要网速够快,反爬就追不到我

ε祈祈猫儿з 提交于 2020-08-05 13:40:02
前言 好看视频大部分是精品短视频!相同的接口返回不同的视频给用户 今天就带大家把系统推荐的视频给爬取下来! 知识点 1、动态数据抓包演示 2、json数据解析方法 3、视频数据保存 环境介绍 python 3.6 pycharm requests json 爬虫的一般思路 1、分析目标网页,确定爬取的url路径,headers参数 2、发送请求 -- requests 模拟浏览器发送请求,获取响应数据 3、解析数据 4、保存数据 -- 保存在目标文件夹中 步骤 1、导入工具 import requests import time import pprint 2、确定爬取的url路径,headers参数 # 获取时间戳 """ 时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总毫秒数。 秒级时间戳,10位 毫秒级时间戳,13位 微秒级时间戳,16位 """ time_one = str(int(time.time() * 1000 )) # print(time_one) base_url = ' https://haokan.baidu.com/videoui/api/videorec?tab=gaoxiao&act=pcFeed&pd=pc&num=20&shuaxin_id= ' + time_one

爬虫 全国建筑市场监管服务平台小程序 数据抓取与采集

人盡茶涼 提交于 2020-08-05 13:28:25
原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取: 建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇 建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇 新版建筑市场(四库一平台)抓取最新信息(爬虫) 最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。 ​在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和抓取,就把整个流程最一点记录,如果需要相关的技术支持和爬虫数据可以联系我(QQ:397713472 电话:13880334484[微信同号])。 一、使用爬虫抓包工作抓取小程序访问链接 我喜欢用 Fiddler 抓包工具,我这里就不详细说怎么配置和安装,这个网上的教程很多;安装和配置好了,我们访问小程序,在Fiddler上面就看到相关的访问链接: 然后通过分析小程序的接口就两个 https://sky.mohurd.gov.cn/skyapi/api/statis/getExtResult https://sky.mohurd.gov.cn/skyapi/api/statis/getResult 都是通过改变参数keys的方式来实现相关业务,这里就不多少,通过接口很轻松的分析相关的功能。 二

自从尝了 Rust,Java 突然不香了

落爺英雄遲暮 提交于 2020-08-05 12:27:10
Rust 是软件行业中相对而言比较新的一门编程语言,如果从语法上来比较,该语言与 C++ 其实非常类似,但从另一方面而言,Rust 能更高效地提供许多功能来保证性能和安全。而且,Rust 还能在无需使用传统的垃圾收集系统的情况下保证内存的安全性。 Rust 语言原本是 Mozilla 员工 Graydon Hoare 私人的项目,Graydon Hoare 当时是 Mozilla 研究部门的一位经验丰富的 IT 科学家。2009 年,Mozilla 开始赞助这个计划,并且在 2010 年首次揭露了它的存在。 随着越来越多设计者的加入,他们为该编程语言打造了浏览器引擎,并设计了 Rust 编译器。Rust 编译器是一款免费和开源的编程软件,受 MIT 许可证和 Apache 许可证保护。自 2016 年起,由于许多开发人员开始选择 Rust 而不是 Java 来进行栈溢出(Stack overflow)开发,Rust 语言开始成为人们关注的焦点。 Rust 官网链接: https://www.rust-lang.org/ 为什么 Rust 受到许多开发者的青睐? 由于 Rust 具有更强大的高并发性和高安全性,因此它可谓是栈溢出开发的完美选择。由于对函数的优秀控制能力和对内存布局的完美运用,使得 Rust 成为一种面向性能的编程语言。使用 Rust

HTTP

早过忘川 提交于 2020-08-05 12:24:53
一 HTTP简介 Hyper Text Transfer Protocol 超文本传输协议 定义了客户端和服务器通信时 发送数据的格式 二 HTTP特点 1. 基于TCP/IP的高级协议 2. 默认端口号80 3. 基于请求/响应模型 一次请求对应一次响应 4. 无状态的 每次请求之间相互独立 不能交互数据 三 请求消息数据格式 原始数据 POST /login.html HTTP/1.1 Host: localhost User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2 Accept-Encoding: gzip, deflate Referer: http://localhost/login.html Connection: keep-alive Upgrade-Insecure-Requests: 1 username=zhangsan 1. 请求行 GET

Canvas干货总结

孤街浪徒 提交于 2020-08-05 09:02:13
一、canvas简介   ​<canvas> 是 html5 新增的,一个可以使用脚本(通常为 javascript) 在其中绘制图像的 html 元素。它可以用来制作照片集或者制作简单的动画,甚至可以进行实时视频处理和渲染。 ​它最初由苹果内部使用自己 macos x webkit 推出,供应用程序使用像仪表盘的构件和 safari 浏览器使用。后来,有人通过 gecko 内核的浏览器 (尤其是 mozilla和firefox),opera 和 chrome 和超文本网络应用技术工作组建议为下一代的网络技术使用该元素。   ​canvas 是由 html 代码配合高度和宽度属性而定义出的可绘制区域。javascript 代码可以访问该区域,类似于其他通用的二维 api,通过一套完整的绘图函数来动态生成图形。 ​ mozilla 程序从 gecko 1.8 (firefox 1.5) 开始支持 <canvas>, internet explorer 从 ie9 开始 <canvas> 。chrome 和 opera 9+ 也支持 <canvas>。 二、canvas的基本组成   <canvas> 看起来和 <img> 标签一样,只是 <canvas> 只有两个可选的属性 width、heigth 属性,而没有 src、alt 属性。 ​如果不给 <canvas> 设置 widht

python 采集斗图啦(多线程)

徘徊边缘 提交于 2020-08-05 04:54:57
import concurrent import requests; from concurrent.futures import ThreadPoolExecutor import os; import parsel; def send_request(url): header = { "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' } requests.packages.urllib3.disable_warnings() response = requests.get(url,headers=header) return response def pare_data(data): selector = parsel.Selector(data) result_list = selector.xpath('//a[@class="col-xs-6 col-sm-3"]') for result in result_list: title = result.xpath('./img/@alt').get() src_url = result.xpath('.

短信接口防恶意攻击策略

懵懂的女人 提交于 2020-08-05 04:46:59
如下是用户页面交互。输入手机号,即可获取验证码。用户体验方面已经超级简单了。 不过,简单是要有成本的。安全控制方面,程序员得琢磨。 在系统安全、信息安全、系统安全防御领域,短信盗刷是老生常谈的话题了。我们公司的系统也经历过至少3次盗刷。每次动辄损失2万~5万条的短信。 近几年,随着qq授权登录、微信授权登录等登录方式的流行,短信盗刷的情况似乎是少了。不过,互联网企业总是习惯要留下用户的手机号的,毕竟这么做非常利于流量获取。 短信验证码登陆,通常的做法是图形验证码。简单实现的话,就是 当用户输入的手机号发生变化时,页面异步请求服务端生成图形验证码的接口,服务端返回图片文件流,页面生成验证码图片。用户输入验证码,然后请求服务端获取验证码的接口。服务端会校验用户输入的验证码是否正确,正确了才会发送短信验证码。 因为图形验证码是通过文件流传输的,所以很难破解。当然,倒是有识别图片的工具,不管怎么说,还是有一定难度的。不识别图片呢?随机生成4位验证码,用撞库的方式来恶搞?显然,命中的几率也很小。就是说,用图形正麻烦的方式,恶意攻击的难度比较大。 我们看12306或其他的互联网网站,动不动让选特定的图形,或滑动拼图,或依次选特定的文字,这种安全性都是相当高的。 据说,阿里的招数更绝!可以记录鼠标在页面的轨迹,进而识别出来是人在操作,而非机器模拟。 所谓安全,安防,说白了,是防君子不防小人的