知乎

知乎登录来学习cookie和sessions

╄→гoц情女王★ 提交于 2020-04-16 11:32:31
【推荐阅读】微服务还能火多久?>>> 简单的学习http.cookiejar的使用,因为浏览器与服务器直接连接是非连续的,我们没连接一次,服务器认证一次返回数据。那问题来了,每次连接都需要认证一番!这个时候cookie就是解决这个问题,一用户多次登录同网站页面认证问题的,每次连接都把cookie的小文本传去就可以登录。 这个过程中,cookie是存放在用户浏览器里面的,浏览器与服务器端直接传输cookie的用户名,密码等是非常不安全的,那session就能很好解决。session是存放到服务器端,cookie中存放一个session_key,在通过session_key到服务器端查找存放的用户、密码、cookie过期时间等。这样就要安全非常多了。 在写爬虫过程中,我们需要多次连接的就用session来连接,把cookie存起来,每次连接都用他。 import re,requests from lxml import etree import http.cookiejar as cookielib user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36' header =

从0到100——知乎架构变迁史

落花浮王杯 提交于 2020-04-03 17:11:07
初期架构选型 在2010年10月真正开始动手做知乎这个产品时,包含李申申在内,最初只有两位工程师;到2010年12月份上线时,工程师是四个。 知乎的主力开发语言是Python。因为Python简单且强大,能够快速上手,开发效率高,而且社区活跃,团队成员也比较喜欢。 知乎使用的是 Tornado 框架。因为它支持异步,很适合做实时Comet应用,而且简单轻量,学习成本低,再就是有FriendFeed 的成熟案例,Facebook 的社区支持。知乎的产品有个特性,就是希望跟浏览器端建立一个长连接,便于实时推送Feed和通知,所以Tornado比较合适。 最初整个团队的精力全部放在产品功能的开发上,而其他方面,基本上能节约时间、能省的都用最简单的方法来解决,当然这在后期也带来了一些问题。 最初的想法是用云主机,节省成本。知乎的第一台服务器是 512MB内存的Linode主机 。但是网站上线后,内测受欢迎程度超出预期,很多用户反馈网站很慢。跨国网络延迟比想象的要大,特别是国内的网络不均衡,全国各地用户访问的情况都不太一样。这个问题,再加上当时要做域名备案,知乎又回到了 自己买机器找机房 的老路上。 买了机器、找了机房之后又遇到了新的问题,服务经常宕掉。当时服务商的机器内存总是出问题,动不动就重启。终于有一次机器宕掉起不来了,这时知乎就做了 Web和数据库的高可用。 创业就是这样一个情况

从0到100——知乎架构变迁史

孤人 提交于 2020-03-30 05:25:05
也许很多人还不知道,知乎在规模上是仅次于百度贴吧和豆瓣的中文互联网最大的UGC(用户生成内容)社区。知乎创业三年来,从0开始,到现在已经有了100多台服务器。目前知乎的注册用户超过了1100万,每个月有超过8000万人使用;网站每个月的PV 超过2.2亿,差不多每秒钟的动态请求超过2500。 在ArchSummit全球架构师峰会上,知乎联合创始人兼CTO李申申带来了知乎创业三年多来的首次全面技术分享( 演讲视频 )。本文系根据演讲内容整理而成。 初期架构选型 知乎的主力开发语言是Python。因为Python简单且强大,能够快速上手,开发效率高,而且社区活跃,团队成员也比较喜欢。 知乎使用的是Tornado框架。因为它支持异步,很适合做实时Comet应用,而且简单轻量,学习成本低,再就是有FriendFeed的成熟案例,Facebook的社区支持。知乎的产品有个特性,就是希望跟浏览器端建立一个长连接,便于实时推送Feed和通知,所以Tornado比较合适。 最初整个团队的精力全部放在产品功能的开发上,而其他方面,基本上能节约时间、能省的都用最简单的方法来解决,当然这在后期也带来了一些问题。 最初的想法是用云主机,节省成本。知乎的第一台服务器是512MB内存的Linode主机。但是网站上线后,内测受欢迎程度超出预期,很多用户反馈网站很慢。跨国网络延迟比想象的要大

自动提取知乎专栏下面所有的文章

岁酱吖の 提交于 2020-03-03 18:34:53
这篇文章教导怎么自动化提取特定知乎专栏中所有的文章。 这里随便找一个专栏作为示例进行测试一下。 这里使用的专栏为: Dizzy In Science 在chrome下打开这个专栏的源码,可以看到对应着文章链接的xpath路径为 xpath = "/html/body/div[1]/div/main/div/section/div" 可以看到在初始打开专栏的情况下,只会一次性加载10篇文章,在对专栏进行向下滑动的时候,在到达当前最后一篇文章的时候,又会一次性加载10篇文章。 可以看到这里又额外加载了10篇文章,总共加载了20篇文章。 可以直接一次性对专栏拉到底,就可以从这个xpath中获取所有的文章列表,然后自动化提取就可以得到所有的文章链接了。 来源: CSDN 作者: oneTaken 链接: https://blog.csdn.net/u011394059/article/details/104634325

最全知乎专栏合集:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL...

与世无争的帅哥 提交于 2020-02-04 17:39:24
上一篇文章 《爬取11088个知乎专栏,打破发现壁垒》 里提到,知乎官方没有搜素专栏的功能,于是我 通过爬取几十万用户个人主页所关注的专栏从而获取到11088个知乎专栏 。 本回筛选出其中涉及: 编程、python、爬虫、数据分析、挖掘、ML、NLP、DL等 关键词的专栏, 按照排名、关注人数、专栏名称、专栏简介等顺序,罗列出史上最全专栏合集 ,以供大家顺藤摸瓜、前去观摩和学习。 筛选出来的专栏数据和全部11088个专栏数据,已经绑定到公众号“牛衣古柳”(ID:Deserts-X)后台 。本文可能遗漏少数优质专栏,可在原始数据里自行挖掘;对其他主题专栏感兴趣的也可自行筛选和整理;有兴致搞个“专栏”搜索功能的小伙伴可以尝试下! 另外 已开始对11088个专栏里更详细的数据进一步爬取 ,之后会挖掘更多数据,超详细数据集也会随后分享。 TOP29系列,1万+关注: 排名,关注人数,专栏名称,专栏简介: No.1, 157960, 数据冰山 , 微信公众号:数据冰山 (No.2, 112088, 学习编程 ,莫道君行早,更有早行人。全心敲代码,天道自酬勤)(不小心漏了 @路人甲 的TOP2专栏,简直蠢哭) No.2, 62106, 行为与认知神经科学 , 神经科学 | 认知科学 I 脑机接口 | 人工智能 No.3, 50136, 机器之心 , 关注人工智能学术和技术实现 No.4,

关于java学习的一点想法

我怕爱的太早我们不能终老 提交于 2020-02-04 05:39:20
自己学java有一段时间了,从开始什么叫jvm都不知道,到现在能独立做出一个小系统,还是挺有成就感的。当然,目前为止掌握的知识仍是九牛一毛。 刚接触java时有一种抵触感,比起C语言来说太啰嗦了,单单打印输出一句话就要好几行代码。不过用习惯eclipse之后反而爱上了它。一路上遇到各种坑,稍不小心就会哪里报错,之后到处找资料,上知乎,上CSDN,实在不行就google百度。 学习时只买了一本从入门到精通,讲的挺详细的,跟着书中的例子也能渐渐熟悉,然而还是觉得有问题。学完之后不知道能干什么,想做一些小玩意也做不出来,于是开始在网上找有没有更好的方法,后来知乎上有人推荐我一个网站https://how2j.cn/p/4440 上过这个网站之后觉得还挺不错的,知识点不算太全面,但是对于新手来说还是很友好的,每天花一两个小时能有很大进步 来源: CSDN 作者: Kuuga1998 链接: https://blog.csdn.net/weixin_44749867/article/details/104158195

导图解文 从梦想到财富(03)世界上只买卖一种商品

半腔热情 提交于 2020-01-30 10:24:13
系列文章说明: 本系列文章 主要是 使用 思维导图 对知乎 上一个专题系列文章 从梦想到财富 的 一个解读。 该系列文章 知乎专栏 首页链接为: 知乎专栏 从梦想到财富 主页 1 文章链接 本章节 对应 《从梦想到财富》专栏的 文章链接 为: 世界上只买卖一种产品 2 导图解文 该文章的思维导图如下: 3 感受分享 这个世界 多数人 是通过 零售时间 来创造价值的,然而 在这个网络时代,多数人这种采用零售时间 来 创造价值的方式依然上是最低效的,如果不提升认知,了解 经营时间的模式,恐怕很多人一辈子也不知道 为什么 别人(像网红、讲师。。。)比自己赚的钱会多 那么多。 很棒的一段话 :世界上形形色色的商品那么多,归结到底其实我们都在交易一种产品:时间。我们每个人都是时间商人。人与人之间收入有如此大的差距,看似是价值之争,其实是模式之争。本章 得出时间商人的四种经营模式,从初级到高级依次是: 零售时间:把时间单份售出,核心是如何提高时间单价。 批发时间:把同一份时间卖给尽可能多的人,要学会善用互联网技术把边际成本降为零。 买卖时间:本质是个放大器,通过买入别人的时间,来提高自己的效率、提升时间单价、扩大生产规模。 收时间税:建立一个平台,让尽可能多的人在上面出售自己的时间,通过收税来赚钱。平台不是原因而是结果,从单点出发,先想清楚你能为谁赋能。 你现在处在哪种模式呢?未来又会选择

如何实现自由复制知乎文章?

筅森魡賤 提交于 2020-01-30 09:54:44
原理: 知乎是通过JavaScript禁止用户复制文章的。所以关闭掉浏览器解析JS代码就可以实现复制。 实现: 以chrome浏览器为例。 按F12,再按F1 ,进入如下图所示界面: 勾选箭头所指按钮 选中内容,按住ctrl+c即可复制文章 粘贴效果,如图所示: 温馨提醒,完成复制文章后, 不要忘记关闭disable JavaScript。 复制知乎文章时,请注意版权,转发请注明出处并征得原作者同意 来源: CSDN 作者: 夏2同学 链接: https://blog.csdn.net/xia_yanbing/article/details/104111424

关于学习开展微信公众号前期推广

放肆的年华 提交于 2020-01-16 01:18:31
关于学习开展微信公众号前期推广 昨天已经说过微信公众号是一个去中心化的相对封闭的平台,在没有粉丝基础的时候想靠推文引流,基本无望。虽然很适合沉淀读者,但要引流,还得多去开放平台引起注意,所以以后工作会逐渐条理化,分为以下几个主题: 一,对开发平台的日常更新吸粉: 知乎 绿洲 微博 班外 二,依靠手头材料巩固公众号的后台信息量: 编程语言材料 实用性小工具 大学生活相关的实用性材料 (有待添加) 三,继续从互联网收集与发布信息相符的资料; 在此又想到了两个问题: 在其他开发性平台吸粉后怎么引导粉丝迁移; 在上传分享文件时涉及到的版权问题不可忽略; 这些问题还得今早想出解决办法 随后几天可以把中心放在吸粉和学习其他优质公众号的运营模式上赶快把自己的经营模式搭建起来。 如下知乎浏览量缓慢提升(真叫人心慌) 在这里插入代码片 来源: CSDN 作者: [ZXHZXH] 链接: https://blog.csdn.net/helloericss/article/details/103995126

test

a 夏天 提交于 2020-01-13 18:49:39
List item Helvetica, ‘Hiragino Sans GB’, ‘Microsoft YaHei’, Arial, sans-serif; background-image: linear-gradient(90deg, rgba(50, 0, 0, 0.05) 3%, rgba(0, 0, 0, 0) 3%), linear-gradient(360deg, rgba(50, 0, 0, 0.05) 3%, rgba(0, 0, 0, 0) 3%); background-size: 20px 20px; background-position: center center;"> 微信公众号: <a href="#jump_10" style="font-size : inherit; line-height: inherit; margin: 0px; padding: 0px; text-decoration: none; color: rgb(30, 107, 184); overflow-wrap: break-word;">颜家大少 关注可了解更多的教程及排版技巧。问题或建议,请公众号留言; 如果你觉得Md2All对你有帮助,欢迎赞赏 [1] 内容目录(由[TOC]自动生成) Md2All 简介 详细教程 对公众号、博客的优化 代码块显示效果 图片显示