豆瓣 | 易学教程

pip使用豆瓣的镜像源

阅读更多关于 pip使用豆瓣的镜像源

豆瓣镜像地址： https://pypi.douban.com/simple/ 虽然用easy_install和pip来安装第三方库很方便它们的原理其实就是从Python的官方源pypi.python.org/pypi 下载到本地，然后解包安装。不过因为某些原因，访问官方的pypi不稳定，很慢甚至有些还时不时的访问不了。跟ubuntu的apt和centos的yum有各个镜像源一样，pypi也有。在国内的强烈推荐豆瓣的源 http://pypi.douban.com/simple/ 注意后面要有/simple目录。使用镜像源很简单，用-i指定就行了： sudo easy_install -i http://pypi.douban.com/simple/ ipython sudo pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple ipython 每次都要这样写？ no！，做个别名吧，额，类似于这样 pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com django 好像还不太好，肿么办？写在配置文件里吧。 linux/mac用户将它命名为pip

pip使用豆瓣的镜像源

阅读更多关于 pip使用豆瓣的镜像源

pip 使用豆瓣源

阅读更多关于 pip 使用豆瓣源

pip 使用豆瓣源由于pip 默认使用Python的官方源pypi.python.org/pypi，导致我们经常使用pip装包时速度过慢或者无法安装（请求超时）等问题，所以国内用户建议使用pip 国内源。目前常用的 pip 国内源有：豆瓣：http://pypi.douban.com/simple/（推荐）清华： http://pypi.tuna.tsinghua.edu.cn/simple 提示：Python3默认已经再带pip 如果没有安装pip包，可以官网下载get-pip.py文件，然后执行安装命令： curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py python get-pip.py -i http://pypi.douban.com --trusted-host pypi.douban.com 下面我们以使用豆瓣源为例来讲解，同时豆瓣源已经支持http 和 https 两种协议。方式1：使用pip下载时指定源 pip install tornado -i http://pypi.douban.com/simple/ trusted-host = http://pypi.douban.com pip install -r req.txt -i http://pypi.douban.com

【前端开发API】豆瓣开放API

阅读更多关于【前端开发API】豆瓣开放API

转载：https://www.cnblogs.com/HuangJie-sol/articles/10884622.html#_label6 阅读目录前言具体api 1、正在热映 2、即将上映 3、电影top250 4、电影条目检索 5、条目详情前言前后端的分离，在和后端对接之前，前端开发人员调试的时候，总是面对没有真实数据的尴尬地位。虽然有mock.js可以模拟数据，但是始终只是在本地进行模拟。而豆瓣提供的这些公开的接口，相信可以满足大部分前端的开发。遗憾的是，当我知道这些api的时候，官网似乎停止服务了，没能看到全部的API接口，但是好歹这些接口还可以用，也没有文档，但是我将这些东西总结在一起。待我慢慢将这些接口总结到这个博客里面。具体api 1、正在热映接口：https://api.douban.com/v2/movie/in_theaters 参数： start : 数据的开始项 count：单页条数 city：城市如：获取“北京”热映电影“第二页”每页“25条”数据： https://api.douban.com/v2/movie/in_theaters?city=北京&start=25&count=25 2、即将上映接口：https://api.douban.com/v2/movie/coming_soon 参数： start : 数据的开始项

微信小程序网络请求豆瓣开发者后台接口

阅读更多关于微信小程序网络请求豆瓣开发者后台接口

开始之前先解决几个问题： 1.豆瓣开发者崩掉了，相应API在豆瓣开放API ； 2.控制台报下面的错误：“https://api.douban.com 不在以下 request 合法域名列表中，请求API报错403 (Forbidden)”，相关解决方案在 request合法域名问题解决方案正文：微信小程序有相应的网络请求API，wx.request，小程序中有明确说明，其他相关知识“框架”——“基础能力”——“网络” 在app.js文件中添加url 在需要网络请求页面添加控制台返回的数据来源： https://www.cnblogs.com/webenjoy/p/12162426.html

爬虫小案例：豆瓣Top250电影

阅读更多关于爬虫小案例：豆瓣Top250电影

获取豆瓣Top250电影列表，然后给自己发邮件直接上代码： import requests,os,csv,time,smtplib from email.mime.text import MIMEText from email.utils import formataddr from email.header import Header from email.header import make_header from email.mime.multipart import MIMEMultipart from bs4 import BeautifulSoup # 数据写入到文件 file_path = os.getcwd() + "/豆瓣Top250电影.csv" if not os.path.isfile(file_path): # 编码utf-8-sig：支持python3，不支持python2 with open(file_path, 'w', newline='', encoding='utf-8-sig') as f: writer = csv.writer(f) writer.writerow(['排名', '电影名称', '上映年份', '地区', '类型', '评分', '推荐语', '链接']) # 电影列表 filmlist = [] for x in

python登录豆瓣，发帖

阅读更多关于 python登录豆瓣，发帖

学习了urllib、urllib2及cookielib常用方法的使用登录豆瓣，由于有验证码，采取的办法是将验证码图片下载到同目录下，查看图片后输入验证码即可登录、发帖帖子内容写死在代码中了 [Python]代码 # -- coding:gbk -- import sys, time, os, re import urllib, urllib2, cookielib loginurl = 'https://www.douban.com/accounts/login' cookie = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) params = { "form_email":"your email", "form_password":"your password", "source":"index_nav" #没有的话登录不成功 } #从首页提交登录 response=opener.open(loginurl, urllib.urlencode(params)) #验证成功跳转至登录页 if response.geturl() == "https://www.douban.com/accounts/login": html=response.read(

豆瓣书籍数据爬取与分析

阅读更多关于豆瓣书籍数据爬取与分析

前言 17年底，买了清华大学出版社出版的《Hadoop权威指南》（第四版）学习，没想到这本书质量之差，超越我的想象，然后上网一看，也是骂声一片。从那个时候其就对出版社综合实力很感兴趣，想通过具体数据分析各个出版社的出版质量，另外借此也可以熟悉大数据生态和相关操作。豆瓣上的书籍数据刚好可以满足需求，所以有了思路： 1. 用python编写爬虫，爬取豆瓣上的书籍信息，并持久化到mysql数据库； 2. 使用sqoop将mysql里的数据导入hive； 3. 通过hive进行离线分析。一、爬虫部分这部分的代码已经传到个人的github： https://github.com/harrymore/DoubanBookSpider 1. 爬虫思路及架构通过观察豆瓣网书籍的具体页面，我们可以发现，具体书籍网址的组成形式为： https://book.douban.com/subject/bookid/ ，其中 bookid 为具体的数字。第一种思路是设定一个比较大的数字，然后从1到这个数字的范围之内去遍历所有数字对应的网址，但是我们可以发现，这些书的id往往非常大，基本都是百万级别的数字，一个个去撞库非常不现实。其实每本书都有很多标签，每个标签都汇集了同一类的所有书，要是可以获取到所有标签，然后根据这些标签一个个去遍历就可以获得豆瓣上所有的书了，当然不同标签之间肯定有重复的书

爬取豆瓣电影影评，生成wordcloud词云，并利用监督学习根据评论自动打星

阅读更多关于爬取豆瓣电影影评，生成wordcloud词云，并利用监督学习根据评论自动打星

本文的完整源码在git位置：https://github.com/OceanBBBBbb/douban-ml 爬取豆瓣影评爬豆瓣的影评比较简单，豆瓣没有做限制，甚至你都不用登陆就可以看全部，我这里用的bs4和urllib获取的页面信息： # 获取页面 def get_html(url): head = {} head[ 'User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36' target_req = request.Request(url=url, headers=head) target_response = request.urlopen(target_req) target_html = target_response.read().decode('utf-8', 'ignore') # 创建BeautifulSoup对象 listmain_soup = BeautifulSoup(target_html, 'lxml') return listmain_soup 获取页面后，解析页面上的评论内容，这里我拿了给出的评分、短评和展示的部分详细评价。

python 爬虫&爬取豆瓣电影top250

阅读更多关于 python 爬虫&爬取豆瓣电影top250

爬取豆瓣电影top250from urllib.request import * #导入所有的request，urllib相当于一个文件夹，用到它里面的方法requestfrom lxml import etree #调用包import pickle #import timearr = [] #定义一个空数组，用来添加爬出的数据url = "https://movie.douban.com/top250?start=" #豆瓣top250网址urls = [ url+str(i) for i in range(0,250,25)] #每次步进值25，总共250个，爬取十次def aa(link): #定义一个函数aa time.sleep(1) #间隔一秒 print("正在爬取:%s"%link) #提示信息可以实时看到爬取信息 with urlopen(link) as html: #在html中打开爬取的数据 text = html.read().decode("utf-8")# 读取并且解码数据 doc = etree.HTML(text) #解析html etree这是lxml中的方法 #分别爬取电影名字titles、详细信息news、评分grade、最佳评论comment、网址links titles = doc.xpath("//ol[@class='grid

订阅豆瓣