firefox

资深阿里程序员分享:高效学习Python爬虫技术的4大步骤

[亡魂溺海] 提交于 2020-08-06 10:56:40
如何高效学习Python爬虫技术?大部分Python爬虫都是按“发送请求-获得页面-解析页面-抽取并储存内容”流程来进行抓取,模拟人们使用浏览器获取网页信息的过程。    高效学习Python爬虫技术的步骤:    1、学Python网络爬虫基础知识   学Python网络爬虫时先了解Python基本常识,变量、字符串、列表、字典、元组、操控句子、语法等,把基础打牢,在做案例时能知道运用的是哪些知识点。此外还需求了解一些网络请求的基本原理、网页结构等。    2、看Python网络爬虫视频教程学习   看视频或找一本专业的网络爬虫书本《用Python写网络爬虫》,跟着视频学习爬虫代码,多敲代码敲,弄懂每一行代码着手亲身实践,边学习边做才能学的更快。很多人有误区,觉得自己会不愿意实操,看懂和学会是两个概念,真正操作的时候才是检验知识的有效途径,实操时漏洞百出,要坚持经常敲代码找感觉。   开发建议选Python3,2020年Python2中止保护,Python3是主流。IDE选择pycharm、sublime或jupyter等,推荐运用pychram,有些相似Java中的eclipse很智能。浏览器学会运用 Chrome 或许 FireFox 浏览器去检查元素,学会运用进行抓包。了解干流的爬虫和库,如urllib、requests、re、bs4、xpath、json等

在哪里可以找到有关在JavaScript中格式化日期的文档? [关闭]

冷暖自知 提交于 2020-08-06 09:52:04
问题: I noticed that JavaScript's new Date() function is very smart in accepting dates in several formats. 我注意到JavaScript的 new Date() 函数非常聪明,可以接受多种格式的日期。 Xmas95 = new Date("25 Dec, 1995 23:15:00") Xmas95 = new Date("2009 06 12,12:52:39") Xmas95 = new Date("20 09 2006,12:52:39") I could not find documentation anywhere showing all the valid string formats while calling new Date() function. 在调用 new Date() 函数时,找不到任何显示所有有效字符串格式的文档。 This is for converting a string to a date. 这是用于将字符串转换为日期。 If we look at the opposite side, that is, converting a date object to a string, until now I was under the

评估浏览器级别,提醒升级

ぐ巨炮叔叔 提交于 2020-08-06 08:56:06
是时候拒绝一些老旧的浏览器了,诱导你的用户升级浏览器吧 = =! 这张网页以IE 各本版本为参照粗略地评估访客的浏览器等级,提醒低于IE8 级别(没办法,XP不支持IE9)的浏览器用户更换浏览器。 <! DOCTYPE html > < html > < head > < meta http-equiv ="Content-Type" content ="text/html; charset=utf-8" /> < meta http-equiv ="X-UA-Compatible" content ="Edge" /> <!-- <meta http-equiv="X-UA-Compatible" content="IE6" /> --> <!-- 哆啦A梦 css, from internet --> < link rel ="stylesheet" href ="http://files.cnblogs.com/ecalf/duolaAmeng.css" /> </ head > < body > < style > .nomoreie { width : 550px ; display: none; clear : both ; position : relative ; left : -260px ; margin-left : 50% ; margin-top :

如何在windows(博主测试了win7,10) 环境下搭建私有链IPFS(星际文件)服务

早过忘川 提交于 2020-08-06 06:27:16
1、下载ipfs服务 下载地址: https://dist.ipfs.io/#go-ipfs 直接下载地址: https://dist.ipfs.io/go-ipfs/v0.5.1/go-ipfs_v0.5.1_windows-amd64.zip 2、下载webui 很多论坛,博客上说,只要启动ipfs服务就可以访问 http://127.0.0.1:5001/webui 就能打开,其实不然,博主测试时发现,确实访问不会出现404但是很慢打不开(发现是网络原因,等一段时间就好),也可以引用webui作为IPFS的可视化界面 有以下三种方式: ipfs webui ipfs IPFS Companion (谷歌或者火狐浏览器的拓展插件) ipfs desktop 桌面可视化 具体的操作可以百度自行下载,也可以联系博主一起探讨。 3、初始化ipfs 进入到ipfs目录中,你可以看到有如下文件 打开cmd运行 ipfs.exe init 解决webui跨域以及关联,执行如下命令 ipfs config --json API.HTTPHeaders.Access-Control-Allow-Origin "[\"http://localhost:3000\"]" ipfs config --json API.HTTPHeaders.Access-Control-Allow-Methods

python深挖65万人的明星贴吧,探究上万个帖子的秘密

早过忘川 提交于 2020-08-06 04:56:10
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 最近一直在关注百度明星吧,发现很多有趣的帖子,于是我就想用python把这些帖子都爬下来,并对内容进行分析。 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:1097524789 本文的知识点: 介绍了mysql数据库内容插入及提取的简单应用; 介绍了如何从mysql数据库提取文本并进行分析; 介绍了数据分析的切入点及思路。 对于初学者想更轻松的学好Python开发技术,Python爬虫,Python大数据分析,人工智能等技术,这里给大家分享一套系统教学资源,加一下我建的Python技术的学习裙;七八四七五八二一四,一起学习。有相关开发工具,学习教程,每天还有专业的老司机在线直播分享知识与技术答疑解惑! 下面给大家详细介绍一下实现过程: 一、网站分析 贴吧的翻页通过url的变化来实现,主要是pn参数: https: //tieba.baidu.com/f?kw=明星&ie=utf-8&pn=页数*50 帖子的内容

Markdown Nice的使用

爷,独闯天下 提交于 2020-08-06 04:22:50
请使用 Chrome 浏览器。 请阅读下方文本熟悉工具使用方法,本文可直接拷贝到微信中预览。 1 Markdown Nice 简介 支持自定义样式的 Markdown 编辑器 支持微信公众号、知乎和稀土掘金 欢迎扫码回复「排版」加入用户群 2 主题 https://preview.mdnice.com/themes/ 欢迎提交主题,提供更多文章示例~~ 3 通用语法 3.1 标题 在文字写书写不同数量的 # 可以完成不同的标题,如下: 一级标题 二级标题 三级标题 3.2 无序列表 无序列表的使用,在符号 - 后加空格使用。如下: 无序列表 1 无序列表 2 无序列表 3 如果要控制列表的层级,则需要在符号 - 前使用空格。如下: 无序列表 1 无序列表 2 无序列表 2.1 无序列表 2.2 由于微信原因,最多支持到二级列表 。 3.3 有序列表 有序列表的使用,在数字及符号 . 后加空格后输入内容,如下: 有序列表 1 有序列表 2 有序列表 3 3.4 引用 引用的格式是在符号 > 后面书写文字。如下: 读一本好书,就是在和高尚的人谈话。 ——歌德 雇用制度对工人不利,但工人根本无力摆脱这个制度。 ——阮一峰 3.5 粗体和斜体 粗体的使用是在需要加粗的文字前后各加两个 * 。 而斜体的使用则是在需要斜体的文字前后各加一个 * 。 如果要使用粗体和斜体

解决文件下载在火狐浏览器出现中文文件名乱码的方法

感情迁移 提交于 2020-08-05 19:47:47
解决文件下载在火狐浏览器出现中文文件名乱码的方法 参考文章: (1)解决文件下载在火狐浏览器出现中文文件名乱码的方法 (2)https://www.cnblogs.com/zeng1994/p/7397617.html 备忘一下。 来源: oschina 链接: https://my.oschina.net/u/4323802/blog/4402814

如何防止按钮提交表单

百般思念 提交于 2020-08-05 19:00:08
问题: In the following page, with Firefox the remove button submits the form, but the add button doesn't. 在下一页中,使用Firefox,“删除”按钮提交表单,但“添加”按钮不提交。 How do I prevent the remove button from submitting the form? 如何防止“删除”按钮提交表单? <html> <head> <script type="text/javascript" src="jquery-1.3.2.min.js"></script> <script type="text/javascript"> function addItem() { var v = $('form :hidden:last').attr('name'); var n = /(.*)input/.exec(v); var newPrefix; if ( n[1].length == 0 ) { newPrefix = '1'; } else { newPrefix = parseInt(n[1])+1; } var oldElem = $('form tr:last'); var newElem = oldElem.clone(true); var

企业如何选择合适的SSL证书

ⅰ亾dé卋堺 提交于 2020-08-05 16:41:47
随着互联网的普及,互联网应用层出不穷,同时,由于互联网的爆炸性增长,接入互联网的节点不计其数,新的发展带来了机遇同时也带来了隐患。 安全高效的互联网环境对于客户的信心保障远胜过铺天盖地的广告宣传。SSL部署的过程中决定购买何种SSL网站安全证书,不仅是一个技术问题,更涉及到公司的战略、服务意识、管理等一系列问题。在一系列SSL服务商面前,企业又该如何抉择呢? 选择之前您要考虑是否需要保护多个域名。例如,如果你在一台服务器上部署多个不同域名的站点,建议购买SSL多域名证书;其次一个主域名下的多个子域,都需要证书来保护信息传输安全,你应该选择通配符证书,保护的二级子域名数量没有限制;假如需求复杂,在各个场景中都有使用的需求,还可以选择万能型SSL证书(多域名通配符证书),这些在安信证书都可以申请。 对线上购物者来说,绿色地址栏是验证网站身份及安全性的最简便可靠的方式。在包括火狐,谷歌,opera在内的新一代浏览器下,使用扩展验证(EV)SSL证书的网站的浏览器地址栏会呈现绿色,从而清晰明确地告诉用户正在访问的网站是经过严格认证的。此外绿色地址栏临近的区域还会显示网站所有者的名称和颁发证书CA机构名称。 这所有的一切,均向客户传递同一信息,该网站身份可信,信息传递安全可靠,而非钓鱼网站。 当下国内互联网环境复杂,部署SSL证书实现https加密的网站可以有效防止站点破坏、数据篡改

自从尝了 Rust,Java 突然不香了

落爺英雄遲暮 提交于 2020-08-05 12:27:10
Rust 是软件行业中相对而言比较新的一门编程语言,如果从语法上来比较,该语言与 C++ 其实非常类似,但从另一方面而言,Rust 能更高效地提供许多功能来保证性能和安全。而且,Rust 还能在无需使用传统的垃圾收集系统的情况下保证内存的安全性。 Rust 语言原本是 Mozilla 员工 Graydon Hoare 私人的项目,Graydon Hoare 当时是 Mozilla 研究部门的一位经验丰富的 IT 科学家。2009 年,Mozilla 开始赞助这个计划,并且在 2010 年首次揭露了它的存在。 随着越来越多设计者的加入,他们为该编程语言打造了浏览器引擎,并设计了 Rust 编译器。Rust 编译器是一款免费和开源的编程软件,受 MIT 许可证和 Apache 许可证保护。自 2016 年起,由于许多开发人员开始选择 Rust 而不是 Java 来进行栈溢出(Stack overflow)开发,Rust 语言开始成为人们关注的焦点。 Rust 官网链接: https://www.rust-lang.org/ 为什么 Rust 受到许多开发者的青睐? 由于 Rust 具有更强大的高并发性和高安全性,因此它可谓是栈溢出开发的完美选择。由于对函数的优秀控制能力和对内存布局的完美运用,使得 Rust 成为一种面向性能的编程语言。使用 Rust