豆瓣

【知乎】Java书单

半世苍凉 提交于 2019-12-30 05:07:40
有时间主要看看格局之外的书和Java之外的那几本,Java书这么多,我肯定也看不过来,浪潮之巅正在看,挺好的.. 作者:老刘 链接:https://www.zhihu.com/question/29581524/answer/684872838 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Java开发者职业生涯要看的200+本书 入门书籍 《明解Java》 - 豆瓣评分 8.5 《Java从入门到精通(第4版 附光盘)》 - 豆瓣评分 6 《入门很简单丛书:Java Web开发入门很简单》 《程序员炼成记 从小白到工程师》 《Java从小白到大牛》 《JavaWeb项目开发实战入门(全彩版)》 《Java精彩编程200例(全彩版)》 《Java轻松学》 《大话Java:程序设计从入门到精通(含DVD光盘1张)》 《Java语言袖珍指南(第二版)》 基础书籍 《Java编程思想(第4版) [thinking in java]》 - 豆瓣评分 9.1 《Java核心技术 卷I:基础知识(原书第10版)》 - 豆瓣评分 8.2 《Java核心技术卷II:高级特性(原书第10版)》 - 豆瓣评分 7.7 多线程与并发 《华章专业开发者丛书·Java并发编程实战》 - 豆瓣评分 9.1 《Java多线程编程实战指南(设计模式篇)》 - 豆瓣评分 8.5

requests+正则爬取豆瓣图书

妖精的绣舞 提交于 2019-12-26 00:26:24
1 #requests+正则爬取豆瓣图书 2 3 import requests 4 import re 5 6 def get_html(url): 7 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER'} 8 response = requests.get(url,headers=headers) 9 html = response.text 10 return html 11 12 13 def get_books(url): 14 15 html = get_html(url) 16 pattern = re.compile(r'<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S) 17 result = re.findall(pattern,html) 18 for rs in result: 19 link,book,name,data = rs 20 book =

开天辟地篇

十年热恋 提交于 2019-12-25 04:25:41
在这里插入代码片 @ TOC 时不我待! 这里是引用 https://zhuanlan.zhihu.com/p/97713129 开始之前 开始推荐书籍之前,十分有必要给大家介绍圈儿内的腕儿(排名不分先后)。 Dennis Ritchie 1941年~2011年(Keep it simple) C语言之父、UNIX之父、《C程序设计语言》 Linus Benedict Torvalds 1969年~ (50岁还在编程的大牛) Linux之父、Git的创造者 Stephen Gary Wozniak 1950年~(靠回忆01编码和分析内存解决bug的大牛) 苹果公司联合创始人、苹果电脑发明者、软件业界的偶像 W. Richard Stevens 1951年~1999年 (第一次涨薪是因为看了他的书) 《TCP/IP详解》、《UNIX网络编程》、《UNIX环境高级编程》 Rob Pike 1956年~ (获得奥运会银牌的程序员) 《程序设计实践》、UTF-8格式缔造者之一、主导开发Go语言 基础学习 《离散数学及其应用》 -豆瓣:9.1分 -作者: [美] Kenneth H·Rosen -出版社:机械工业出版社 -推荐理由:基础思维很重要。(工作十年后你会发现思维差异决定了你与牛人的距离) 《C程序设计语言》 -豆瓣:9.4分 -作者: [美]Brian W. Kernighan /

爬虫练手项目:获取豆瓣评分最高的电影并下载

时光总嘲笑我的痴心妄想 提交于 2019-12-24 02:59:45
前期回顾 上篇博文我们学习了Python爬虫的四大库 urllib , requests , BeautifulSoup 以及 selenium 爬虫常用库介绍 学习了 urllib 与 request 的常见用法 学习了使用 BeautifulSoup 来解析网页以及使用 selenium 来驱动浏览器 # 我们导入了 web 驱动模块 from selenium import webdriver # 接着我们创建了一个 Chrome 驱动 driver = webdriver.Chrome() # 接着使用 get 方法打开百度 driver.get("https://www.baidu.com") # 获取输入框并且往里面写入我们要搜索的内容 input = driver.find_element_by_css_selector('#kw') input.send_keys("波多野结衣照片") # 我们就获取到搜索这个按钮然后点击 button = driver.find_element_by_css_selector('#su') button.click() 则是上次查看波多老师图片的代码,效果如下 抓取豆瓣电影并保存本地 我们来抓取一下豆瓣上排名前250的电影 import requests from bs4 import BeautifulSoup import

selenium的使用教程1

会有一股神秘感。 提交于 2019-12-22 09:35:08
Selenium 库里有个叫 WebDriver 的 API,WebDriver 可以加载网站的浏览器,但是也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。 1.加载网页 selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容。 from selenium import webdriver # 指定driver的绝对路径,也就是制定驱动程序的位置 # driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs') driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver') # 向url发起请求 driver.get("http://www.itcast.cn/") # 把网页保存为图片 driver.save_screenshot("itcast.png") # 退出模拟浏览器,一定要退出!不退出会有残留进程! driver.quit() 2.定位和操作: 以百度搜索为例: import time from

9.MongoDB的豆瓣练习

末鹿安然 提交于 2019-12-21 13:26:19
这是数据: 要求: 1.获取每条数据中的title,count(所有评分人数),rate(评分),country(国家)的这些字段 db.tv1.aggregate ( { $project : { _id:0,title:1,count: " $rating .count" ,rate: " $rating .value" ,country: ' $tv_category ' } } ) 2.获取上述结果中的不同国家电视剧的数据量 db.tv1.aggregate ( { $project : { _id:0,title:1,count: " $rating .count" ,rate: " $rating .value" ,country: ' $tv_category ' } } , { $group : { _id: ' $country ' ,count: { $sum :1 } } } ) 3.获取上述结果中分数大于8分的不同国家电视剧的数据量** db.tv1.aggregate ( { $project : { _id:0,title:1,count: " $rating .count" ,rate: " $rating .value" ,country: ' $tv_category ' } } , { $match : { rate: { $gte :8 } }

豆瓣Top250

你离开我真会死。 提交于 2019-12-11 10:32:06
1 """ 2 爬取豆瓣电影TOP250 - 完整示例代码 3 """ 4 5 import codecs 6 7 import requests 8 from bs4 import BeautifulSoup 9 10 DOWNLOAD_URL = 'http://movie.douban.com/top250/' 11 12 13 def download_page(url): 14 return requests.get(url, headers={ 15 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36' 16 }).content 17 18 19 def parse_html(html): 20 soup = BeautifulSoup(html) 21 movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'}) 22 23 movie_name_list = [] 24 25 for movie_li in movie_list_soup.find_all('li'): 26

通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】

空扰寡人 提交于 2019-12-10 14:51:14
久旱逢甘霖 西安连着几天温度排行全国三甲,也许是《哪吒之魔童降世》的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了。不知道有多少人看了这部国产动漫,但5天破9亿的票房已然不错,可惜忙碌的我只能在朋友圈看看好友的观影评价+晒门票。 爬虫解析 最近更新爬虫的文章较多,对于这种投入量小,回报率高且装13效果好的python方向,大家都比较喜欢。其实单纯的爬虫很简单,麻烦的是网站的接口分析与数据解析。通常我们大量的时间,用在了对网站数据流的分析,最终得到数据接口的过程。这部分的内容,针对不同网站需要单独分析,没有一个可以套的公式,所以讲起来也没有太好的效果。那么,除去了网站分析,刚才提到的数据解析是否有可复用的地方呢?当然… 网站数据解析 说到网站的数据解析,那么我们首先得找一个供我们爬虫的网站,既然刚才提到了哪吒,我们就拿豆瓣评分来举例子吧: 点击网页短评的全部xxx条链接,即可进入该动画的全部影评网页: 之后我们来看看短评界面的数据结构: 我们可以看到,所有的评论都包裹在一个class=”mod-bd”和id=”comments”的div中,这里注意个html的常识,绝大多数的情况下,如果一个标签存在id和class,那么你请优先选择id作为你的定位游标,因为它具备唯一性。当然你也可以使用class定位

前端CSS规范整理-豆瓣的CSS规范

微笑、不失礼 提交于 2019-12-10 02:46:35
一、文件规范 1、文件均归档至约定的目录中。 具体要求通过豆瓣的CSS规范进行讲解: 所有的CSS分为两大类:通用类和业务类。通用的CSS文件,放在如下目录中: 基本样式库 /css/core 通用UI元素样式库 /css/lib JS组件相关样式库 /css/ui 业务类的CSS是指和具体产品相关的文件,放在如下目录中: 读书 /css/book/ 电影 /css/movie/ 音乐 /css/music/ 社区 /css/sns/ 小站 /css/site/ 同城 /css/location/ 电台 /css/radio/ 外联CSS文件适用于全站级和产品级通用的大文件。内联CSS文件适用于在一个或几个页面共用的CSS。另外一对具体的CSS进行文档化的整理。如: util-01 reset /css/core/reset.css util-02 通用模块容器 /css/core/mod.css ui-01. 喜欢按钮 /css/core/fav_btn.css ui-02. 视频/相册列表项 /css/core/media_item.css ui-03. 评星 /css/core/rating.css ui-04. 通用按钮 /css/core/common_button.css ui-05. 分页 /css/core/pagination.css ui-06. 推荐按钮