豆瓣

写了一个类似与豆瓣的电影

南楼画角 提交于 2019-11-27 12:19:12
先展示页面 基本的功能是都已经实现了,更多那个地方是可以点的。只不过视频上面还用的宏,哎呀,感觉麻烦。有多麻烦呢,需要先定义一个宏,然后进行引用。我们才能是用,以我的观点,还不如直接是一个循环完事。。。 下面贴整个项目的结构图 前端页面: base.html index.html list.html 后端页面 app.py 来源: https://www.cnblogs.com/Triangle-security/p/11362556.html

豆瓣 爬虫

爷,独闯天下 提交于 2019-11-27 00:05:43
太久没有写爬虫了,掌握的知识不能让他生疏了 想了想写一个按照输入,能查询到豆瓣里的信息 首先,先打开豆瓣的搜索页面 会发现是这样的,左边有一栏标签,然后有个搜索框。 可以点击标签,观察url的变化,发现https://www.douban.com/search?cat=1001&q=中的cat也相对应的发生变化,我这边就先选取几个来,电影,书籍,音乐,游戏。发现除了游戏外,规律是1001,1002,1003.很有意思,然后q=后面的参数就是你要搜索的东西。 那我们要完成的功能,就是在我们自己地方,输入信息,然后输出豆瓣评分等一系列详情。 我这边是在跳转到他的详细页面去爬取数据,当然,如果仅是我最后的那些内容来看,在这个页面就能满足了。 而且我的代码是获得搜索到的第一条数据,如果有更多的需求的话,可以去看一些xpath,然后修改 话不多说,我先获取到修改一条需要修改的url,先写个视图, def menu(): print("*请输入对应序号,锁定查询范围*") print("********** 1 书籍 **********") print("********** 2 电影 **********") print("********** 3 音乐 **********") print("********** 4 游戏 **********") 这个菜单,表示搜索的标签时什么

豆瓣小组采集器

做~自己de王妃 提交于 2019-11-26 19:35:34
最近无心做了这个,主要是可以看管理员删除的内容,当然前提是 之前采集到了。 这个东西代码还不完善 很多自定义的东西还没做,所以代码就不发了,害怕太丑吓着大家。 写代码全靠A。 转载于:https://www.cnblogs.com/yueyue184/articles/4452191.html 来源: https://blog.csdn.net/weixin_30323961/article/details/99064114

Python登录豆瓣并爬取影评

纵饮孤独 提交于 2019-11-26 19:11:10
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态、购物车、游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置、主题等) 浏览器行为跟踪(如跟踪分析用户行为等) 我们今天就用requests库来登录豆瓣然后爬取影评为例子, 用代码讲解下Cookie的 会话状态管理(登录)功能 。 此教程仅用于学习,不得商业获利!如有侵害任何公司利益,请告知删除! 一、需求背景 之前猪哥带大家爬取了优酷的弹幕并生成词云图片,发现优酷弹幕的质量并不高,有很多介词和一些无效词,比如:哈哈、啊啊、这些、那些。。。而豆瓣口碑一直不错,有些书或者电影的推荐都很不错,所以我们今天来爬取下豆瓣的影评,然后生成词云,看看效果如何吧! 二、功能描述 我们使用requests库登录豆瓣,然后爬取影评,最后生成词云! 为什么我们之前的案例(京东、优酷等)中不需要登录,而今天爬取豆瓣需要登录呢?那是因为豆瓣在没有登录状态情况下只允许你查看前200条影评,之后就需要登录才能查看,这也算是一种反扒手段! 三、技术方案 我们看下简单的技术方案,大致可以分为三部分: 分析豆瓣的登录接口并用requests库实现登录并保存cookie 分析豆瓣影评接口实现批量抓取数据 使用词云做影评数据分析 方案确定之后我们就开始实际操作吧! 四

爬取豆瓣电影信息

时光怂恿深爱的人放手 提交于 2019-11-26 17:32:09
# 现在,我们来通过代码实现:# 爬取2018年豆瓣电影排行榜评分排名前200的电影信息from requests_html import HTMLSessionclass Spider(object): def __init__(self): self.session = HTMLSession() ##首先生成这个对象 self.api = 'https://movie.douban.com/j/new_search_subjects' ##绑定这个url def get_params(self): ##确定筛选的条件,这个也就是get请求拼接在url后面的参数 # sort=S&range=0,10&tags=&start=0&year_range=2015,2019 # genres = input("输入你要筛选的电影类型,例如动作:") ##这个字典的其他参数也可以自己输入设置,但是这里只输入一个 self.params = { 'sort': 'S', ###这个是排序方式 'range': '0,10', ###页数范围 'year_range': '2018,2018', ###年份 # 'genres': genres 'genres': '动作' } def get_film_info_dic(self): for i in range(0, 10): #

Python入门到进阶学习书单推荐

元气小坏坏 提交于 2019-11-26 16:12:42
Python 之所以这么流行得益于它适用于很多不同领域,目前 Python 使用最广泛的领域包括有 Python Web(后端)开发、数据分析挖掘、网络爬虫、机器学习人工智能、运维开发等等。不管你选择哪个方向,把Python基础学牢有利于你在该领域更好的施展拳脚。 趁京东、当当这两天搞活动,给大家推荐一波Python书单 入门系列 《Python编程:从入门到实践》 本书是一本针对所有层次的Python 读者而作的Python 入门书,理论与实践相结合,前面部分是基础知识,后面有实战项目帮助你更好的运用这些知识,之前在公众号“Python之禅”也推荐过。 豆瓣评分:9.0 推荐指数:✩✩✩✩✩ 《Python编程快速上手》 本书是一本面向实践的Python编程实用指南。本书的目的,不仅是介绍Python语言的基础知识,而且还通过项目实践教会读者如何应用这些知识和技能。 豆瓣评分: 9.3 推荐指数:✩✩✩✩✩ 《像计算机科学家一样思考Python (第2版)》 本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程,这是一本实用的学习指南,适合没有Python编程经验的程序员阅读,本书的第2版与第1版相比,做了很多更新,将编程语言从Python 2升级成Python 3 豆瓣评分: 8.7 推荐指数:✩✩✩✩ 另外像《Python核心编程》《Python学习手册

简单爬取《小丑》电影豆瓣短评生成词云

夙愿已清 提交于 2019-11-26 03:41:00
导语  在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给观众们留下的关键词是什么。 抓取数据  首先刚开始的时候 ,是通过 requests去 模拟抓取数据,发现短评 翻页翻到20页之后就需要登录豆瓣用户才有权限查看 ,所以打算通过使用 selenium 模拟浏览器动作自动化将页面中的数据爬取下来,然后存储到特定的txt文件,由于没打算做其他的分析,就不打算存放到数据库中。 关于selenium和chromedriver安装  关于流行的自动化测试框架selenium的工作原理,以及selenium和chromdriver对应的版本安装就不详细赘述,有兴趣的同学可以参考:   https://blog.csdn.net/weixin_43241295/article/details/83784692 分析豆瓣登录页面用户登录流程  从页面上看来,大概流程就是点击 导航栏中的密码登录 ,然后输入 用户名 和 密码 ,点击 登录按钮 ,至于看网上一些豆瓣爬虫时会出现的验证图片,我没有遇到过,我直接登录就OK了,所以接下来就需要通过 selenium模拟 整个登录过程。 from selenium import webdriver from

pip 豆瓣

孤街醉人 提交于 2019-11-25 21:30:16
直接在后面添加 -i “https://pypi.doubanio.com/simple/” #例如安装 keras pip install keras 变成 pip install keras -i “https://pypi.doubanio.com/simple/” 来源: CSDN 作者: 来自火星的攻城狮 链接: https://blog.csdn.net/baidu_32109835/article/details/103237277