Python爬虫 + 人脸检测 + 颜值检测 = 知乎高颜值图片抓取
本文作者:邓卓。转载已取得作者授权。 原文链接:https://zhuanlan.zhihu.com/p/34425618 声明 :文中所有文字、图片以及相关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出。无任何客观性,仅供参考。 1 数据源 知乎话题 『美女』 下所有问题中回答所出现的图片 2 抓取工具 Python 3,并使用第三方库 Requests、lxml、AipFace ,代码共 100 + 行 3 必要环境 Mac / Linux / Windows (Linux 没测过,理论上可以。Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制,已使用正则过滤) 无需登录知乎(即无需提供知乎帐号密码) 人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号) 4 人脸检测库 AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问,免费使用。 文档中心--百度 AI : ai . baidu . com 。 5 检测过滤条件 过滤所有未出现人脸图片(比如风景图、未露脸身材照等) 过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况) 过滤所有非真实人物,比如动漫人物 (AipFace