BCC

一篇文章教会你使用Python定时抓取微博评论

独自空忆成欢 提交于 2020-07-29 07:41:53
【Part1——理论篇】 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口,如下图所示。 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。 接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示。 之后点击“参数”选项卡,可以看到参数为下图所示的内容: 可以看到总共有4个参数,其中第1、2个参数为该条微博的id,就像人的身份证号一样,这个相当于该条微博的“身份证号”,max_id是变换页码的参数,每次都要变化,下次的max_id参数值在本次请求的返回数据中。 【Part2——实战篇】 有了上文的基础之后,下面我们开始撸代码,使用Python进行实现。 1、首先区分url,第一次不需要max_id,第二次需要用第一次返回的max_id。 2、请求的时候需要带上cookie数据,微博cookie的有效期比较长,足够抓一条微博的评论数据了,cookie数据可以从浏览器分析工具中找到。 3、然后将返回数据转换成json格式,取出评论内容、评论者昵称和评论时间等数据,输出结果如下图所示。 4、为了保存评论内容,我们要将评论中的表情去掉

网站安全公司对个人隐私保护措施

≡放荡痞女 提交于 2020-07-29 04:41:28
伴随着顾客个人隐私保护观念的慢慢提高,有关政策法规的聚集颁布,个人隐私保护的总体发展趋势愈来愈严。换一个角度观察,在这般严苛的维护下获得的私人信息数据信息,具备更大的经济收益,灰产总是更为按耐不住,由于导致的危害越大,灰产盈利越高。在这类发展趋势下,本人、公司、管控组织应当怎样解决? 个人应对措施 针对普通用户来讲,妥当存放自身的账户、登陆密码、有效证件及机器设备,不一样帐户选用不一样的账户/登陆密码,关键帐户的登陆密码最好是可以按时变更。安装程序或手机应用程序时,应选择可靠的渠道,不随便开启垃圾短信、骚扰短信或扫描不能信的二维码。除开较为重要的App或服务平台,尽可能不应用手机号登录,关闭微信、支付宝钱包等【根据手机号码找到你】【根据QQ号找到你】【根据电子邮箱找到你】等作用,假如许多人想转帐让你,发送给他你的收款码就可以,确实不方便还可以临时性开启有关作用。 不一样网址尽可能应用不一样的邮箱注册和关系,能够共享的小窍门是: Gmail电子邮箱在中间随意加英文逗号”.”算为别称,和不用以前是等额的的,例如abc@gmail.com和a.b..c.@gmail.com是一个电子邮箱,发往这两个详细地址的电子邮件都是被接到,可是可以用这两个乃至大量相近的邮箱注册不一样的服务平台。此外,有的电子邮箱出示别称作用,例如Outlook,还可以做到相近实际效果,乃至更强

OSChina 周二乱弹 —— 还没上路 已经断了归途

亡梦爱人 提交于 2020-07-29 03:42:33
Osc乱弹歌单(2020)请戳( 这里 ) 【今日歌曲】 @ watergood :是时候分享一波我的这张纯音乐歌单了,过去的五年多时间里,我陆陆续续地把听到的好听的纯音乐添加了进去,目前一共65首,相信总有那么一首会带给你好心情。 《Aphrodite》 - S.E.N.S. 手机党少年们想听歌,请使劲儿戳( 这里 ) @ 说不完的明天_ :到点了个个都不下班,刚入职两周又不好意思提前走 我上班也不好意思迟到啊。 这导致我睡眠不够情绪不稳定。 “每天上班不知道为啥就有一种怨气 可能是我有点心理疾病吧。” 那去动弹转转去, @ wang_le :每天敲代码之前都要上来看看 “让我康康谁还在动弹上,没发动弹的一律按早退处理!” 尤其是那几个对你有敌意的同事, 一定要严格检查。 @ Daniel-01 :新公司一名对接的后台同事,自打进来以来感觉老是对我有意见那样,今天居然还跟我玩那种独占风扇这种小学生行为,简直了,真是老油条 工作上也不配合。 好人不长久, 祸害遗千年, 每到宣布离职的时候, 都是自己喜欢的同事离开, @ fineDD :每一个你用心带过的同事离开 都感觉好心痛 白瞎了那么多时间 因为好的同事都很上进啊, 他们都努力工作, 然后,新的环境也愿意接受这些讨喜的同事, 世界上没有不散的宴席。 哪怕是小智和皮卡丘也会分开啊。 他们分开的时候 那时候小智年纪大了,也有啤酒肚了

Linux

∥☆過路亽.° 提交于 2020-07-28 01:39:32
设置组管理员:gpasswd -A 用户名 组名 权限:- --- --- --- : 类型 u g o 添加组成员: gpasswd -a 用户名 组名 删除组成员 gpasswd -的用户名 组名 1、关于tail和head的用法 head -n 文件名 : 表示查看文件的前n行内容 tail -n 文件名 : 表示查看文件的最后n行内容 uniq -c 文件名 作用:计算每行在文件中连续出现的次数 3、cut命令 作用:对文件进行切割,并提取其中的某些列 -d选项的默认间隔符就是制表符,所以当你就是要使用制表符的时候,完全就可以省略-d选项,而直接用-f来取域就可以了 例子: cut -d " " /xyz/x1 -f 1 cut /xyz/x1 -f 1 4、sort命令 sort -u 将重复的行去除 sort -r 反向排序(从大到小) sort -n 按照数字进行排序 5、wc 命令 wc -l 文件名 : 计算文件的行数 6、crontab定时器 定时器相关的指令是存放在一个专门的文件里面 crontab -e :编辑这个文件内容 编辑好文件后,保存退出该文件,定时器即开始生效 crontab -l : 显示设置的定时器内容 crontab可以同时执行多个定时器任务。一行代表一个定时器的任务。 在 12 月内, 每天的早上 6 点到 12 点中,每隔 20

针对南亚政府和军事组织的 BackConfig 恶意软件

百般思念 提交于 2020-07-25 12:46:52
原文: Updated BackConfig Malware Targeting Government and Military Organizations in South Asia 译者:知道创宇404实验室翻译组 摘要 Unit 42安全团队在过去4个月里观察到了Hangover组织(又名Neon, Viceroy Tiger, MONSOON)使用的BackConfig恶意软件的活动。该组织使用鱼叉式钓鱼攻击,目标包括南亚的政府和军事组织。 BackConfig定制木马具有灵活的插件架构,用于提供各种特性的组件,包括收集系统和键盘记录信息以及上传和执行额外payload的能力。 最初,感染是通过一个武器化的Microsoft Excel (XLS)文档发生的,该文档通过受感染的合法网站发布,url很可能是通过电子邮件共享的。这些文档使用Visual Basic for Applications (VBA)宏代码,如果受害者启用了这些宏代码,就会启动一个由多个组件组成的安装过程,从而导致插件加载程序payload被下载和执行。模块化的特性当然允许对单个组件进行更快的更改,而且对于攻击者来说可能更重要的是,能够阻止沙箱和动态分析系统的方式拆分恶意行为,尤其是在单独分析组件时。 我们基于WildFire的威胁预防平台可以检测到与此组织相关的活动,同时更新PAN-DB

Linux 系统有效下载各版本 JDK

↘锁芯ラ 提交于 2020-07-24 12:33:01
Linux 系统有效下载各版本 JDK # wget http://mirrors.linuxeye.com/jdk/ jdk-6u45-linux-x64.bin --2020-06-08 08:55:27-- http://mirrors.linuxeye.com/jdk/jdk-6u45-linux-x64.bin Resolving mirrors.linuxeye.com (mirrors.linuxeye.com)... 183.131.200.61, 183.131.200.68, 183.131.200.69, ... Connecting to mirrors.linuxeye.com (mirrors.linuxeye.com)|183.131.200.61|:80... connected. HTTP request sent, awaiting response... 200 OK Length: 72087592 (69M) [application/octet-stream] Saving to: 'jdk-6u45-linux-x64.bin' 100%[====================================================================================================

手把手教你进行Scrapy中item类的实例化操作

筅森魡賤 提交于 2020-05-09 14:48:32
接下来我们将在爬虫主体文件中对Item的值进行填充。 1、首先在爬虫主体文件中将Item模块导入进来,如下图所示。 2、第一步的意思是说将items.py中的ArticleItem类导入到爬虫主体文件中去,将两个文件串联起来,其中items.py的部分内容如下图所示。 3、将这个ArticleItem类导入之后,接下来我们就可以对这个类进行初始化,并对其进行相应值的填充。首先去parse_detail函数下对其进行实例化,实例化的方法也十分简单,如下图所示。 4、接下来,我们将填充对应的值。实际上我们在之前通过Xpath或者CSS选择器已经获取到了目标数据,如下图所示,现在要做的就是依次填充目标字段的值。 5、我们可以像字典一样来给目标字段传值,例如item[“title”]= title,其他的目标字段的填充也是形如该格式,填充完成之后如下图所示。 其中,目标字段可以参考items.py中定义的item,这样可以加快填充的速度。 6、到这里,我们已经将需要填充的字段全部填充完成了,之后我们需要调用yield,这点十分重要。再调用yield之后,实例化后的item就会自动传递到pipeline当中去。可以看到下图中的pipelines.py中默认给出的代码,说明pipeline其实是可以接收item的。 7、到这里,关于实例化item的步骤就已经完成了,是不是比较简单呢

java中javamail收发邮件实现方法

╄→尐↘猪︶ㄣ 提交于 2020-05-08 23:44:04
概述 1、邮件相关的标准 厂商所提供的 JavaMail 服务程序可以有选择地实现某些邮件协议,常见的邮件协议包括: SMTP(Simple Mail Transfer Protocol) :即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。 POP3(Post Office Protocol – Version 3) :即邮局协议版本 3 ,用于接收电子邮件的标准协议。 IMAP(Internet Mail Access Protocol) :即 Internet 邮件访问协议。是 POP3 的替代协议。 这三种协议都有对应 SSL 加密传输的协议,分别是 SMTPS , POP3S 和 IMAPS 。 MIME(Multipurpose Internet Mail Extensions) :即多用途因特网邮件扩展标准。它不是邮件传输协议。但对传输内容的消息、附件及其它的内容定义了格式。 2、JavaMail 简介 JavaMail 是由 Sun 发布的用来处理 email 的 API 。它并没有包含在 Java SE 中,而是作为 Java EE 的一部分。 mail.jar :此 JAR 文件包含 JavaMail API 和 Sun 提供的 SMTP 、 IMAP 和 POP3 服务提供程序; activation.jar :此

基于TI KeyStone C66x系列多核架构定点/浮点TMS320C6678设计的评估板NOR FLASH、RAM

*爱你&永不变心* 提交于 2020-05-08 18:39:18
CPU处理器 TI TMS320C6678是一款 TI KeyStone C66x 多核定点/浮点 DSP 处理器 ,集成了 8个C66x核,每核心主频高达1.0/1.25GHz,支持高性能信号处理应用,拥有多种工业接口资源,以下是TMS320C66 78 CPU功能框图: NOR FLASH 核心板上采用工业级SPI NOR FLASH(1 28 Mbit),硬件如下图: RAM RAM采用工业级低功耗DDR3L(1G/2GByte),硬件如下图: 来源: oschina 链接: https://my.oschina.net/u/4169033/blog/4270739