lxml

Python爬虫 + 人脸检测 + 颜值检测 = 知乎高颜值图片抓取

喜欢而已 提交于 2020-10-30 06:41:38
本文作者:邓卓。转载已取得作者授权。 原文链接:https://zhuanlan.zhihu.com/p/34425618 声明 :文中所有文字、图片以及相关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出。无任何客观性,仅供参考。 1 数据源 知乎话题 『美女』 下所有问题中回答所出现的图片 2 抓取工具 Python 3,并使用第三方库 Requests、lxml、AipFace ,代码共 100 + 行 3 必要环境 Mac / Linux / Windows (Linux 没测过,理论上可以。Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制,已使用正则过滤) 无需登录知乎(即无需提供知乎帐号密码) 人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号) 4 人脸检测库 AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问,免费使用。 文档中心--百度 AI : ai . baidu . com 。 5 检测过滤条件 过滤所有未出现人脸图片(比如风景图、未露脸身材照等) 过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况) 过滤所有非真实人物,比如动漫人物 (AipFace

Python爬虫:一些常用的爬虫技巧总结

↘锁芯ラ 提交于 2020-10-23 13:40:32
Python实战社群Java实战社群长按识别下方二维码,按需求添加扫码关注添加客服进Python社群▲扫码关注添加客服进Java社群▲ 来源丨j_hao104 https://my.oschina.net/jhao104/blog/647308?fromerr=KzH2VGaK 用Python也差不多一年多了,Python应用最多的场景还是Web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。 1、基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com" response = urllib2.urlopen(url) print response.read() post方法 import urllib import urllib2 url = "http://abcde.com" form = {'name':'abc','password':'1234'} form_data = urllib.urlencode(form) request = urllib2.Request(url,form_data) response = urllib2.urlopen(request) print

一篇文章教会你利用Python网络爬虫抓取王者荣耀图片

北战南征 提交于 2020-10-07 05:29:50
【一、项目背景】 王者荣耀作为当下最火的游戏之一,里面的人物信息更是惟妙惟肖,但受到官网的限制,想下载一张高清的图片很难。(图片有版权)。 以彼岸桌面这个网站为例,爬取王者荣耀图片的信息。 【二、项目目标】 实现将获取到的图片批量下载。 【三、涉及的库和网站】 1、网址如下: http://www.netbian.com/s/wangzherongyao/index.htm/ 2、涉及的库: requests 、 lxml 【四、项目分析】 首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮,观察到网站的变化分别如下所示: http://www.netbian.com/s/wangzherongyao/index_2.htm http://www.netbian.com/s/wangzherongyao/index_3.htm http://www.netbian.com/s/wangzherongyao/index_4.htm 观察到只有index_()变化,变化的部分用{}代替,再用for循环遍历这网址,实现多个网址请求。 http://www.netbian.com/s/wangzherongyao/index_{}.htm 【五、项目实施】 1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self

同样是在招聘信息凌乱的网站上找工作,同学的骚操作把我给整蒙了

白昼怎懂夜的黑 提交于 2020-10-06 08:05:11
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:Python进阶者 现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息。可是招聘信息有一些是错综复杂的。而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰。 项目目标 获取招聘信息,并批量把地点、 公司名、工资 、下载保存在txt文档。 项目准备 软件:PyCharm 需要的库:requests、lxml、fake_useragent 网站如下: https://gz.58.com/job/pn2/?param7503=1&from=yjz2_zhaopin&PGTID=0d302408-0000-3efd-48f6-ff64d26b4b1c&ClickID={} 点击下一页时,ClickID={}每增加一页自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。 反爬措施 该网站上的反爬主要有两点: 1、 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据 2、同一个ip连续访问多次,直接封掉ip,起初我的ip就是这样被封掉的。 为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。 1、获取正常的 http请求头

手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

◇◆丶佛笑我妖孽 提交于 2020-10-06 01:55:50
/1 前言/ 平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片。 /2 项目准备工作/ 首先 我们第一步我们要安装一个pycham的软件。可以参考这篇文章: Python环境搭建—安利Python小白的Python和Pycharm安装详细教程 。 天堂网的网址: https://www.ivsky.com/bizhi/1920x1080/ 我们需要下载几个库,怎么下载呢?打开pycharm,依次点击File,再点开Settings,如下图所示。 打开后会出现这个界面点击你的项目名字(project:(你的项目名字)),之后在project interpreter下,点击加号,而后下载我们需要的库,如下图所示。 本项目需要用到的是库是requests、lxml、fake_useragent,如下图所示。fake_useragent一般是没有的,需要通过下面的命令进行安装: pip install fake_useragent /3 项目实现/ 1、导入需要的库(requests,lxml, fake_useragent)。 2、我用了封装方法去实现各个部分的功能。首先要写一个框架:构造一个类TianTangWebsite ,然后定义一个__init__方法里继承(self),再定义一个主方法

小伙子自从学会用Python爬取岛国“动作”电影,身体一天不如一天

社会主义新天地 提交于 2020-10-04 00:22:41
在互联网的世界里,正确的使用VPN看看外面的世界,多了解了解世界的发展。 肉身翻墙后,感受一下外面的肮脏世界。墙内的朋友叫苦不迭,由于某些原因,VPN能用的越来越少。上周我的好朋友狗子和我哭诉说自己常用的一个VPN终于也寿终正寝了,要和众多的日本小姐姐说再见了。作为"外面人",我还是要帮他一把…… 点击朋友给我网站, 然后看到的就是各种穿不起衣服的女生的卖惨视频,我赶紧闭上眼睛,默念了几句我佛慈悲。 Tokyo真的有那么hot? · 需要的准备的环境 · Python3.6 + Windows · IDE自行选择 · 模块:requests + BeautifulSoup + lxml + re + m3u8都可以直接在CMD里面pip安装。 网站解析 如果直接在网上上面爬取下来的的视频是这样子的 m3u8记录了真实的视频所在的地址。 那么就需要咱们使用开发者工具分析一下了 我们惊喜的发现,一个又一个的 .ts 文件正在载入了 不知道 .ts 文件?这是重要的知识点呀!(敲黑板!) 点开其中的一个.ts文件看一下 打码是真心累 代码 运行之后 然后,我们得到了几百个9s的.ts小视频 我们只需要把这些小视频合成一个就好了 在cmd命令行下,我们进入到这些小视频所在的路径 执行 copy/b %s*.ts %s\new.ts 然后就搞定了,虽然爬取这样的网站非常的有意思