mozilla

Java微博爬虫-每日百万数据

前提是你 提交于 2020-01-12 04:21:16
没写过爬虫,赶鸭子上架,公司里有个老代码,我就拿来参考,边看边写3周后,把整个代码大换血,实现了单日单程序百万的爬取量。 使用springboot + JDK1.8 + mysql + redis。 主要有 关键词爬取、redis队列、多线程爬取程序 三部分。 一、关键词的爬取: 我用的是在微博搜索栏输入关键词的方法爬取数据,所以关键词的热度、新鲜度很重要。 我在百度、搜狗、微博这几个网站的热搜榜每隔40秒抓取一次实时的热词。 第一步,找热词质量高的网站。 # 百度热搜网址 baidu.hotnews = http://top.baidu.com/buzz?b=1&fr=topnews baidu.topcategory = http://top.baidu.com/buzz?b=2&c=12&fr=topcategory_c12 baidu.oneday.hotbuzz = http://top.baidu.com/buzz?b=341&fr=topbuzz_b1 baidu.oneday.lifehot = http://top.baidu.com/buzz?b=342&c=513&fr=topbuzz_b344_c513 # 微博热搜网址 weibo.realtimehot = https://s.weibo.com/top/summary?cate=realtimehot

拉勾网爬虫Python代码实现

你。 提交于 2020-01-11 21:02:20
爬虫目的:爬取拉勾网上数据分析岗的数据,以便分析当前数据分析岗的需求现状。 爬虫实现的功能:根据城市名称、岗位名称关键字,即可爬取拉勾网上所需的数据信息。 爬虫的主要模块:   主函数与信息存储模块main.py   网页下载模块https.py   网页解析模块parse.py   IP代理池setting.py # main.py''' 拉钩网对于同一ip的大量请求行为肯定会进行封禁,所以需要准备代理池。 为了实现高自动化,需要对一系列可能出现的异常情况进行处理,断点处理,确保程序不挂。 为了提高效率,加入多线程。 数据持久化,在持久化之前需要先进行清洗。 ''' import https,parse,setting # import https.Http , parse.Parse , setting.headers ,setting.cookies import time import logging import codecs logging.basicConfig(level=logging.ERROR, format='%(asctime)s Process%(process)d:%(thread)d %(message)s', datefmt='%Y-%m-%d %H:%M:%S', filename='diary.log', filemode='a') def

前端网站资源推荐

感情迁移 提交于 2020-01-10 20:12:27
国外网站 名称 网址 推荐理由 W3C http://www.w3.org/ 前端技术的规范标准几乎都是W3C制定的 ECMA http://www.ecmascript.org/ JavaScript最核心的内容就是ECMA Mozilla社区 https://developer.mozilla.org/zh-CN/ Mozilla社区包含了很多有关Web前端的文章,非常值得学习 H5实验室 http://html5labs.interoperabilitybridges.com/ 这个实验室是微软公司提供的,对于学习H5的内容很有帮助 国内前端博客 公司 地址 网易前端团队博客 http://uedc.163.com 腾讯前端团队博客 http://www.alloyteam.com 百度前端团队博客 http://fex.baidu.com 淘宝前端团队博客 http://ued.taobao.org/blog/ 360前端团队博客 http://www.75team.com 持续更新中… … 来源: https://www.cnblogs.com/tanlujia/p/6394262.html

常用User-Agent大全

对着背影说爱祢 提交于 2020-01-10 04:01:23
浏览器User-Agent的详细信息 PC端: safari 5.1 – MAC User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 safari 5.1 – Windows User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 IE 9.0 User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; IE 8.0 User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0) IE 7.0 User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) IE 6.0 User-Agent: Mozilla/4.0 (compatible; MSIE

User-Agent 合集

梦想的初衷 提交于 2020-01-09 21:38:53
Opera Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60 Opera/8.0 (Windows NT 5.1; U; en) Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50 Firefox Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0 Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10 Safari Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version

Python 使用代理 图片爬虫

纵饮孤独 提交于 2020-01-09 21:09:16
import urllib.requestimport reimport randomimport urllib.erroruapools=[ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',

CentOS yum的详细使用方法

半世苍凉 提交于 2020-01-09 09:37:19
yum是什么 yum = Yellow dog Updater, Modified 主要功能是更方便的添加/删除/更新RPM包. 它能自动解决包的倚赖性问题. 它能便于管理大量系统的更新问题 yum特点 可以同时配置多个资源库(Repository) 简洁的配置文件(/etc/yum.conf 自动解决增加或删除rpm包时遇到的倚赖性问题 使用方便 保持与RPM数据库的一致性 yum安装 CentOS自带(yum-*.noarch.rpm) #rpm -ivh yum-*.noarch.rpm 在第一次启用yum之前首先需要导入系统的RPM-GPG-KEY: #rpm --import /usr/share/doc/centos-release-3(4)/RPM-GPG-KEY-CentOS-3(4) yum指令 注:当第一次使用yum或yum资源库有更新时,yum会自动下载所有所需的headers放置于/var/cache/yum目录下,所需时间可能较长. rpm包的更新 检查可更新的rpm包 #yum check-update 更新所有的rpm包 #yum update 更新指定的rpm包,如更新kernel和kernel source #yum update kernel kernel-source 大规模的版本升级,与yum update不同的是,连旧的淘汰的包也升级

CentOS yum的详细使用方法

老子叫甜甜 提交于 2020-01-09 04:24:07
yum是什么 yum = Yellow dog Updater, Modified 主要功能是更方便的添加/删除/更新RPM包. 它能自动解决包的倚赖性问题. 它能便于管理大量系统的更新问题 yum特点 可以同时配置多个资源库(Repository) 简洁的配置文件(/etc/yum.conf 自动解决增加或删除rpm包时遇到的倚赖性问题 使用方便 保持与RPM数据库的一致性 yum安装 CentOS自带(yum-*.noarch.rpm) #rpm -ivh yum-*.noarch.rpm 在第一次启用yum之前首先需要导入系统的RPM-GPG-KEY: #rpm --import /usr/share/doc/centos-release-3(4)/RPM-GPG-KEY-CentOS-3(4) yum指令 注:当第一次使用yum或yum资源库有更新时,yum会自动下载所有所需的headers放置于/var/cache/yum目录下,所需时间可能较长. rpm包的更新 检查可更新的rpm包 #yum check-update 更新所有的rpm包 #yum update 更新指定的rpm包,如更新kernel和kernel source #yum update kernel kernel-source 大规模的版本升级,与yum update不同的是,连旧的淘汰的包也升级

常用浏览器user_agent大全

☆樱花仙子☆ 提交于 2020-01-09 01:57:33
PC端: safari 5.1 – MAC User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 safari 5.1 – Windows User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 IE 9.0 User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; IE 8.0 User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0) IE 7.0 User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) IE 6.0 User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5