豆瓣

Python登录豆瓣并爬取影评

匿名 (未验证) 提交于 2019-12-02 22:51:30
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态、购物车、游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置、主题等) 浏览器行为跟踪(如跟踪分析用户行为等) 我们今天就用requests库来登录豆瓣然后爬取影评为例子, 用代码讲解下Cookie的 会话状态管理(登录)功能 。 此教程仅用于学习,不得商业获利!如有侵害任何公司利益,请告知删除! 一、需求背景 之前猪哥带大家爬取了优酷的弹幕并生成词云图片,发现优酷弹幕的质量并不高,有很多介词和一些无效词,比如:哈哈、啊啊、这些、那些。。。而豆瓣口碑一直不错,有些书或者电影的推荐都很不错,所以我们今天来爬取下豆瓣的影评,然后生成词云,看看效果如何吧! 二、功能描述 我们使用requests库登录豆瓣,然后爬取影评,最后生成词云! 为什么我们之前的案例(京东、优酷等)中不需要登录,而今天爬取豆瓣需要登录呢?那是因为豆瓣在没有登录状态情况下只允许你查看前200条影评,之后就需要登录才能查看,这也算是一种反扒手段! 三、技术方案 我们看下简单的技术方案,大致可以分为三部分: 分析豆瓣的登录接口并用requests库实现登录并保存cookie 分析豆瓣影评接口实现批量抓取数据 使用词云做影评数据分析 方案确定之后我们就开始实际操作吧! 四

程序员,你应该读读这些书(豆瓣高分8.0+)

空扰寡人 提交于 2019-12-02 16:16:44
架构相关 从零开始学架构(李运华) 豆瓣评分8.3 ,极客时间有专栏,跟着做,你也可以成为架构师。 企业IT架构转型之道:阿里巴巴中台战略思想与架构实战 豆瓣评分8.2 ,本书从阿里巴巴启动中台战略说起,详细阐述了共享服务理念给企业业务发展带来的业务价值。接着会分享阿里巴巴在建设共享服务体系时如何进行技术框架的选择,哪些重要的技术平台支撑起了共享服务体系,这也是迄今为止对阿里巴巴集团中间件体系对外最全面系统的介绍。 数据库相关 高性能MySQL(第3版) 豆瓣评分9.3 ,此书不但适合数据库管理员(dba)阅读,也适合开发人员参考学习。不管是数据库新手还是专家,相信都能从本书有所收获。 MySQL技术内幕_InnoDB存储引擎_姜承尧_第2版 豆瓣评分8.6 ,这本书从源代码的角度深度解析了InnoDB的体系结构、实现原理、工作机制,并给出了大量最佳实践,能帮助你系统而深入地掌握InnoDB,更重要的是,它能为你设计管理高性能、高可用的数据库系统提供绝佳的指导。 数据库查询优化器的艺术 原理解析与SQL性能优化 豆瓣评分8.3 ,从源码实现角度全方位深入分析MySQL和PostgreSQL两大主流开源数据库查询优化器的实现原理;从工程实践的角度对比了两大数据库的查询优化器的功能异同和实现异同。它是所有数据开发工程师、内核工程师、DBA以及其他数据库相关工作人员值得反复研读的一本书。

Python爬虫代码:淘宝、豆瓣、知乎、微博、QQ、简书等

给你一囗甜甜゛ 提交于 2019-12-01 09:28:13
[0] 一份Python爬虫电子书 https://zhuanlan.zhihu.com/p/28865834 [1] 爬取网易云音乐所有歌曲的评论 https://github.com/RitterHou/music-163 [2] python爬虫代理IP池(proxy pool) https://github.com/jhao104/proxy_pool [3] 一个股票数据(沪深)爬虫和选股策略测试框架 https://github.com/benitoro/stockholm [4] QQ空间爬虫(日志、说说、个人信息) https://github.com/LiuXingMing/QQSpider [5] QQ Groups Spider(QQ 群爬虫) https://github.com/caspartse/QQ-Groups-Spider [6] 用scrapy写的京东爬虫 https://github.com/taizilongxu/scrapy_jingdong [7] 链家爬虫 https://github.com/lanbing510/LianJiaSpider [8] distribute_crawler https://github.com/gnemoug/distribute_crawler [9] 新浪微博爬虫 https://github.com

OAuth2.0授权登录

一个人想着一个人 提交于 2019-11-30 15:14:02
    最近工作中遇到了多系统间的授权登录,对OAuth2.0进行了学习研究,并总结备忘。 【 场景 】 我们登录一些论坛等网站的时候,如果不想单独注册该网站账号,可以选择用微信或QQ账号进行授权登录。 这样的第三方登录方式到底是怎么实现的呢?难道是腾讯把我们微信或QQ账号信息卖给了这些网站?很显然,腾讯是不会这么干的,这种登录方式的实现,其实就是使用的 OAuth2.0 的授权登录方式。    类似地,在公司内部,如果公司有多套不同的软件系统,例如公司内网的财务报销系统、考勤系统、报销系统、人事系统等,也可以实现一个员工账号就能授权访问所有系统,而不需要每个系统都开通单独的账号,设置独立的密码。这是通常所说的 SSO单点登录, 而 OAuth2.0是单点登录的实现方式之一 。 【 定义 】 OAuth2.0是一种允许第三方应用程序使用资源所有者的 凭据 获得对资源有限访问权限的一种授权协议。 例如在上述例子中,通过微信登录论坛的过程,就相当于微信允许该论坛作为第三方应用程序在经过微信用户授权后,通过 微信颁发的授权凭证 有限地访问用户的微信头像、手机号,性别等受限制的资源,从而来构建自身的登录逻辑。   注:在OAuth2.0协议中,第三方应用程序获取的凭证并不等同于资源拥有者持有的用户名和密码,以上面例子来说,微信是不会直接将用户的用户名、密码等信息作为凭证返回给该论坛的。这种

Python爬虫 爬取豆瓣读书

我怕爱的太早我们不能终老 提交于 2019-11-30 13:37:33
最近用Python写了个豆瓣读书的爬虫玩,方便搜罗各种美美书,分享给大家 实现功能: 1 可以爬下豆瓣读书标签下的所有图书 2 按评分排名依次存储 3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet 4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封 试着爬了七八万本书,存在了book_list.xlsx中,结果截图如下: 详细代码和爬取的一些结果可移步到GitHub: https://github.com/lanbing510/DouBanSpider 转载请标明出处: http://blog.csdn.net/lanbing510/article/details/45887075 来源: CSDN 作者: lanbing510 链接: https://blog.csdn.net/lanbing510/article/details/45887075

python爬虫实践——爬取豆瓣电影排行榜

青春壹個敷衍的年華 提交于 2019-11-30 13:35:23
一、爬虫的介绍及爬虫环境的安装: 1.爬虫简介: 即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 2.爬虫的基本工作流程及框架: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待抓取URL队列; 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。 3.接下来需要爬取的豆瓣电影排行榜网页界面为: 4.人工操作步骤: 1.获取电影信息的网页; 2.找到要评分信息的位置; 3.复制、保存我们想要的评分数据。 5.爬虫操作步骤: 1.请求并下载电影页面信息; 2.解析并定位评分信息; 3.保存评分数据。 下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。 6.爬虫前python环境的安装: 打开cmd,输入以下指令: pip install requests pip install lxml 二、正式开始爬虫的步骤: 1.导入模块: 2.获取豆瓣电影目标网页并解析: 豆瓣电影排行榜的网址为: https:/

Python爬虫-爬取豆瓣读书

孤街浪徒 提交于 2019-11-30 13:35:11
爬点什么好呢?最近老是浏览豆瓣上的帖子,那就爬取下豆瓣读书吧! 网络请求,返回值是html页面。 需要对返回回来的结果进行解析。使用Beautiful Soup来解析 参见( http://beautifulsoup.readthedocs.io/zh_CN/latest/ ) 说几个再爬虫中使用到的: (1)find_all(tag,attributes,recursive,text,limit,keywords) 这个方法一般会大量使用,查找文档中含有该tag标签的所有信息 bsObj .find _all( "li" ,{ "class" : "" }) 就是查找文档中所有的li标签,并且该标签的class属性为“” (2)获取某个标签属性的值,可以使用tag.get(“属性名称”) a . get ( "href" ) (3)获取标签中的文本,可以使用get_text() 方法 如以下这种: < span class = "publisher" > 理想国 | 广西师范大学出版社 </ span > 可以使用 span .get _text() 还有其他的父节点获取,子节点获取等等很多,参见文档获取详细用法。 上图: 我先拿到li标签下的信息,因为我只获取自己感兴趣的信息,所以创建列表,再分别获取div,h4,span标签下的信息,赋值。最后将其插入mongodb。

Python爬虫之爬取豆瓣电影(一)

只谈情不闲聊 提交于 2019-11-30 13:33:11
最近闲来无事 学习python爬虫,爬取豆瓣电影 一、分析网页 打开豆瓣电影 按F12 ,刷新豆瓣网页,会发现Network的XHR中有链接 粘贴出链接 https://movie.douban.com/j/search_tags?type=movie&source= 会出现如下json: {" tags ": [ "热门" , "最新" , "经典" , "可播放" , "豆瓣高分" , "冷门佳片" , "华语" , "欧美" , "韩国" , "日本" , "动作" , "喜剧" , "爱情" , "科幻" , "悬疑" , "恐怖" , "动画" ] } 说明这个是每个分类电影的标签,是一个get请求的API,如果在python中加载成字典,则包含以恶个tags,对应的值是一个列表,里面的每一项都是一个电影标签。 我们还顺便发现另一个get请求的API: https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0 可以根据提供的标签,排序方法,每一页数量,每页开始编号等参数返回相应的电影数据,在浏览器访问此链接返回的也是一个json格式字符串,同样转换python字典在处理,如果单击记载更多按钮

Python爬虫入门 | 2 爬取豆瓣电影信息

馋奶兔 提交于 2019-11-30 13:32:41
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~ 好啦,正式开始我们的第二节课《爬取豆瓣电影信息》吧!啦啦哩啦啦,都看黑板~ 1. 爬虫原理 1.1 爬虫基本原理 听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从“爬虫原理”说起。 爬虫又称为网页蜘蛛,是一种程序或脚本。但重点在于:它能够按照一定的规则,自动获取网页信息。爬虫的通用框架如下: 1.挑选种子URL; 2.将这些URL放入待抓取的URL队列; 3.取出待抓取的URL,下载并存储进已下载网页库中。此外,将这些URL放入待抓取URL队列,进入下一循环; 4.分析已抓取队列中的URL,并且将URL放入待抓取URL队列,从而进入下一循环。 咳咳~ 还是用一个具体的例子,来说明吧! 1.2 一个爬虫例子 爬虫获取网页信息和人工获取信息,其实原理是一致的,比如我们要获取电影的“评分”信息: 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到)到评分信息的位置 3. 复制、保存我们想要的评分数据 爬虫操作步骤: 1. 请求并下载电影页面信息 2. 解析并定位评分信息 3. 保存评分数据 感觉是不是很像? 1.3 爬虫的基本流程 简单来说