豆瓣

pip使用豆瓣的镜像源

淺唱寂寞╮ 提交于 2020-01-11 05:01:47
豆瓣镜像地址: https://pypi.douban.com/simple/ 虽然用easy_install和pip来安装第三方库很方便 它们的原理其实就是从Python的官方源pypi.python.org/pypi 下载到本地,然后解包安装。 不过因为某些原因,访问官方的pypi不稳定,很慢甚至有些还时不时的访问不了。 跟ubuntu的apt和centos的yum有各个镜像源一样,pypi也有。 在国内的强烈推荐豆瓣的源 http://pypi.douban.com/simple/ 注意后面要有/simple目录。 使用镜像源很简单,用-i指定就行了: sudo easy_install -i http://pypi.douban.com/simple/ ipython sudo pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple ipython 每次都要这样写? no!,做个别名吧,额,类似于这样 pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com django 好像还不太好,肿么办?写在配置文件里吧。 linux/mac用户将它命名为pip

pip使用豆瓣的镜像源

落爺英雄遲暮 提交于 2020-01-11 00:08:10
豆瓣镜像地址: https://pypi.douban.com/simple/ 虽然用easy_install和pip来安装第三方库很方便 它们的原理其实就是从Python的官方源pypi.python.org/pypi 下载到本地,然后解包安装。 不过因为某些原因,访问官方的pypi不稳定,很慢甚至有些还时不时的访问不了。 跟ubuntu的apt和centos的yum有各个镜像源一样,pypi也有。 在国内的强烈推荐豆瓣的源 http://pypi.douban.com/simple/ 注意后面要有/simple目录。 使用镜像源很简单,用-i指定就行了: sudo easy_install -i http://pypi.douban.com/simple/ ipython sudo pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple ipython 每次都要这样写? no!,做个别名吧,额,类似于这样 pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com django 好像还不太好,肿么办?写在配置文件里吧。 linux/mac用户将它命名为pip

pip 使用豆瓣源

和自甴很熟 提交于 2020-01-10 14:58:12
pip 使用豆瓣源 由于pip 默认使用Python的官方源pypi.python.org/pypi,导致我们经常使用pip装包时速度过慢或者无法安装(请求超时)等问题, 所以国内用户建议使用pip 国内源。 目前常用的 pip 国内源有: 豆瓣:http://pypi.douban.com/simple/(推荐) 清华: http://pypi.tuna.tsinghua.edu.cn/simple 提示:Python3默认已经再带pip 如果没有安装pip包,可以官网下载get-pip.py文件,然后执行安装命令: curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py python get-pip.py -i http://pypi.douban.com --trusted-host pypi.douban.com 下面我们以使用豆瓣源为例来讲解,同时豆瓣源已经支持http 和 https 两种协议。 方式1:使用pip下载时指定源 pip install tornado -i http://pypi.douban.com/simple/ trusted-host = http://pypi.douban.com pip install -r req.txt -i http://pypi.douban.com

【前端开发API】豆瓣开放API

心已入冬 提交于 2020-01-08 10:52:52
转载:https://www.cnblogs.com/HuangJie-sol/articles/10884622.html#_label6 阅读目录 前言 具体api 1、正在热映 2、即将上映 3、电影top250 4、电影条目检索 5、条目详情 前言 前后端的分离,在和后端对接之前,前端开发人员调试的时候,总是面对没有真实数据的尴尬地位。虽然有mock.js可以模拟数据,但是始终只是在本地进行模拟。而豆瓣提供的这些公开的接口,相信可以满足大部分前端的开发。 遗憾的是,当我知道这些api的时候,官网似乎停止服务了,没能看到全部的API接口,但是好歹这些接口还可以用,也没有文档,但是我将这些东西总结在一起。待我慢慢将这些接口总结到这个博客里面。 具体api 1、正在热映 接口:https://api.douban.com/v2/movie/in_theaters 参数: start : 数据的开始项 count:单页条数 city:城市 如:获取“北京”热映电影“第二页”每页“25条”数据: https://api.douban.com/v2/movie/in_theaters?city=北京&start=25&count=25 2、即将上映 接口:https://api.douban.com/v2/movie/coming_soon 参数: start : 数据的开始项

微信小程序网络请求豆瓣开发者后台接口

我们两清 提交于 2020-01-07 17:40:03
开始之前先解决几个问题: 1.豆瓣开发者崩掉了,相应API在 豆瓣开放API ; 2.控制台报下面的错误:“https://api.douban.com 不在以下 request 合法域名列表中,请求API报错403 (Forbidden)”,相关解决方案在 request合法域名问题解决方案 正文: 微信小程序有相应的网络请求API,wx.request,小程序中有明确说明,其他相关知识“框架”——“基础能力”——“网络” 在app.js文件中添加url 在需要网络请求页面添加 控制台返回的数据 来源: https://www.cnblogs.com/webenjoy/p/12162426.html

爬虫小案例:豆瓣Top250电影

大城市里の小女人 提交于 2020-01-07 03:51:59
获取豆瓣Top250电影列表,然后给自己发邮件 直接上代码: import requests,os,csv,time,smtplib from email.mime.text import MIMEText from email.utils import formataddr from email.header import Header from email.header import make_header from email.mime.multipart import MIMEMultipart from bs4 import BeautifulSoup # 数据写入到文件 file_path = os.getcwd() + "/豆瓣Top250电影.csv" if not os.path.isfile(file_path): # 编码utf-8-sig:支持python3,不支持python2 with open(file_path, 'w', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) writer.writerow(['排名', '电影名称', '上映年份', '地区', '类型', '评分', '推荐语', '链接']) # 电影列表 filmlist = [] for x in

python登录豆瓣,发帖

喜欢而已 提交于 2020-01-05 03:35:35
学习了urllib、urllib2及cookielib常用方法的使用登录豆瓣,由于有验证码,采取的办法是将验证码图片下载到同目录下,查看图片后输入验证码即可登录、发帖帖子内容写死在代码中了 [Python]代码 # -- coding:gbk -- import sys, time, os, re import urllib, urllib2, cookielib loginurl = 'https://www.douban.com/accounts/login' cookie = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) params = { "form_email":"your email", "form_password":"your password", "source":"index_nav" #没有的话登录不成功 } #从首页提交登录 response=opener.open(loginurl, urllib.urlencode(params)) #验证成功跳转至登录页 if response.geturl() == "https://www.douban.com/accounts/login": html=response.read(

豆瓣书籍数据爬取与分析

二次信任 提交于 2020-01-05 03:33:10
前言 17年底,买了清华大学出版社出版的《Hadoop权威指南》(第四版)学习,没想到这本书质量之差,超越我的想象,然后上网一看,也是骂声一片。从那个时候其就对出版社综合实力很感兴趣,想通过具体数据分析各个出版社的出版质量,另外借此也可以熟悉大数据生态和相关操作。 豆瓣上的书籍数据刚好可以满足需求,所以有了思路: 1. 用python编写爬虫,爬取豆瓣上的书籍信息,并持久化到mysql数据库; 2. 使用sqoop将mysql里的数据导入hive; 3. 通过hive进行离线分析。 一、爬虫部分 这部分的代码已经传到个人的github: https://github.com/harrymore/DoubanBookSpider 1. 爬虫思路及架构 通过观察豆瓣网书籍的具体页面,我们可以发现,具体书籍网址的组成形式为: https://book.douban.com/subject/bookid/ , 其中 bookid 为具体的数字。第一种思路是设定一个比较大的数字,然后从1到这个数字的范围之内去遍历所有数字对应的网址,但是我们可以发现,这些书的id往往非常大,基本都是百万级别的数字,一个个去撞库非常不现实。 其实每本书都有很多标签,每个标签都汇集了同一类的所有书,要是可以获取到所有标签,然后根据这些标签一个个去遍历就可以获得豆瓣上所有的书了,当然不同标签之间肯定有重复的书

爬取豆瓣电影影评,生成wordcloud词云,并利用监督学习根据评论自动打星

大憨熊 提交于 2020-01-05 03:31:29
本文的完整源码在git位置:https://github.com/OceanBBBBbb/douban-ml 爬取豆瓣影评 爬豆瓣的影评比较简单,豆瓣没有做限制,甚至你都不用登陆就可以看全部,我这里用的bs4和urllib获取的页面信息: # 获取页面 def get_html(url): head = {} head[ 'User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36' target_req = request.Request(url=url, headers=head) target_response = request.urlopen(target_req) target_html = target_response.read().decode('utf-8', 'ignore') # 创建BeautifulSoup对象 listmain_soup = BeautifulSoup(target_html, 'lxml') return listmain_soup 获取页面后,解析页面上的评论内容,这里我拿了给出的评分、短评和展示的部分详细评价。

python 爬虫&爬取豆瓣电影top250

隐身守侯 提交于 2020-01-02 14:49:13
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml import etree #调用包import pickle #import timearr = [] #定义一个空数组,用来添加爬出的数据url = "https://movie.douban.com/top250?start=" #豆瓣top250网址urls = [ url+str(i) for i in range(0,250,25)] #每次步进值25,总共250个,爬取十次def aa(link): #定义一个函数aa time.sleep(1) #间隔一秒 print("正在爬取:%s"%link) #提示信息可以实时看到爬取信息 with urlopen(link) as html: #在html中打开爬取的数据 text = html.read().decode("utf-8")# 读取并且解码数据 doc = etree.HTML(text) #解析html etree这是lxml中的方法 #分别爬取电影名字titles、详细信息news、评分grade、最佳评论comment、网址links titles = doc.xpath("//ol[@class='grid