info

python爬虫爬取微博评论案例详解

感情迁移 提交于 2020-03-10 23:21:47
这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 数据格式:{“name”:评论人姓名,“comment_time”:评论时间,“comment_info”:评论内容,“comment_url”:评论人的主页} 以上就是我们需要的信息。 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中 的内容带有相关的反爬措施,获取到的源码中的信息含有很多的转义符“\”,并且其中的相关“<”和“>”是通过html的语言直接编写的,这样会导致我们的页面解析出现一定的问题,我们可以用replace方法直接将这些转义符全部去掉,然后我们就可以对这个页面进行正则处理,同时我也尝试过用其他的解析方法,但是其中遇到了很多 的问题,所以我就不过多的介绍了。 当我们获取到了每一篇微博的链接, 智汇返佣 ,还需要获取一个很关键的值 id ,这个值有什么用呢,其主要的作用就是在评论页面的ajax页面的拼接地址上需要使用到。接下来就是需要寻找出我们找到的这两个ajax的url有什么特点或者是规律: 当我们从这些ajax中找到规律以后,不难发现,这个爬虫差不多大功告成了。 下面我就展示一下我的代码: 注意:请在headers中添加自己的cookie - - coding: utf-8 - -

Spring boot Unsatisfied dependency expressed through method的一个原因

柔情痞子 提交于 2020-03-10 20:17:46
原因 <relativePath /> 这一行需要被删掉 < parent > < groupId > org.springframework.boot </ groupId > < artifactId > spring-boot-starter-parent </ artifactId > < version > 1.5.6.RELEASE </ version > < relativePath /> <!-- lookup parent from repository --> </ parent > parent.relativePath用法详解 设定一个空值将始终从仓库中获取,不从本地路径获取,如 Maven parent.relativePath 默认值为…/pom.xml 查找顺序:relativePath元素中的地址–本地仓库–远程仓库 报错信息 2020 - 03 - 10 18 : 24 : 11.899 INFO 7276 -- - [ main ] c . q . d . e . EurekaApplication : The following profiles are active : dev 2020 - 03 - 10 18 : 24 : 15.385 WARN 7276 -- - [ main ] o . s . b . a . e .

SQL Server 基础 04 函数与分组查询数据

孤街醉人 提交于 2020-03-10 19:15:34
函数与分组查询数据 系统函数分 聚合函数、数据类型转换函数、日期函数、数学函数 . . . 1、 聚合函数 主要是对一组值进行计算,然后返回一个值。 聚合函数包括 sum(求和)、avg(求平均值)、min()、max()、count(求数量) sum函数语法 : sum(列明) select sum(sno) as 序号和 from stu_info avg select avg(sno) as 序号平均值 from stu_info . . . count 用来一组值的个数,统计 select count(sno) as 个数 from stu_info 2、类型转换函数 将日期和数字转换成字符串格式, ... 用到 convert() 、cast() convert 适合用于日期的转换,cast适合用于一般数据类型的转换。。。 convert 的语法格式 : convert ( datatype [ (length) , expression , [style] ] ) datatype 如果要转换成 char、archar 、binary 、arbinary 数据类型,还需要设置数据类型长度 expression : 表达式,进行数据类型转换的值或者列名 style : 用于日期格式的设置 1 -- 类型转换 2 --语法convert(datatype[(length)

zabbix 监控 tomcat

こ雲淡風輕ζ 提交于 2020-03-10 11:52:55
zabbix提供了一个java gateway的应用去监控jmx(Java Management Extensions,即Java管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议,灵活的开发无缝集成的系统、网络和服务管理应用。 服务端配置 zabbix server安装java gateway [root@zabbix ~]# yum install -y java java-devel zabbix-java-gateway [root@zabbix ~]# java -version openjdk version "1.8.0_181" OpenJDK Runtime Environment (build 1.8.0_181-b13) OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode) [root@zabbix ~]# service zabbix-java-gateway status Redirecting to /bin/systemctl status zabbix-java-gateway.service ● zabbix-java-gateway.service - Zabbix Java Gateway Loaded:

Execute Client code on application startup in Dynamics AX 2009

蓝咒 提交于 2020-03-10 10:25:49
question I want to execute some client code on application startup. Where should I place this code? --> answer Modify \Classes\Info\startupPost() method for Axapta 3.0 or \Classes\Info\workspaceWindowCreated() for AX 4.0 and AX 2009. workspaceWindowCreated such as AOT - > Classes - > Info - > workspaceWindowCreated() void workspaceWindowCreated(int _hWnd) { /** Put workspace window specific initialization here. -- Description: Show profile-name in the title bar Remark by Jimmy 2010-09-06 */ session s = new Session(); SysUserLog SysUserLog; Str 25 IPAdress; ; IPAdress = SysUserLog::IPAdress(S

PHP多进程编程(三)多进程抓取网页的演示

隐身守侯 提交于 2020-03-10 03:37:22
要理解这个部分的代码,请阅读: 用 Socket 和 Pcntl 实现一个多进程服务器(一) PHP多进程编程(一) PHP多进程编程(二)管道通信 我们知道,从父进程到子经常的数据传递相对比较容易一些,但是从子进程传递到父进程就比较的困难。 有很多办法实现进程交互,在php中比较方便的是 管道通信。当然,还可以通过 socket_pair 进行通信。 首先是服务器为了应对每一个请求要做的事情(发送一个url 序列,url序列用\t 分割。而结束标记是 \n) 代码 function clientHandle( $msgsock , $obj ) { $nbuf = '' ; socket_set_block( $msgsock ); do { if ( false === ( $buf = @socket_read( $msgsock , 2048 , PHP_NORMAL_READ))) { $obj -> error( " socket_read() failed: reason: " . socket_strerror(socket_last_error( $msgsock ))); break ; } $nbuf .= $buf ; if ( substr ( $nbuf , - 1 ) != " \n " ) { continue ; } $nbuf = trim (

Python WEB开发

最后都变了- 提交于 2020-03-10 03:12:50
1、Python语言 2、开发环境 Pycharm 2018.1.4永久版 导入jar包; pycharm.vmoptions and pycharm64.vmoptions分别插入: -javaagent:/opt/pycharm-2018.1.4/bin/JetbrainsCrack-3.1-release-enc.jar 3、开发框架 Django 查询 from functools import reduce lst = [ Q ( question_text__contains = 'you' ) , Q ( question_text__contains = 'who' ) ] # OR >> > Question . objects . filter ( reduce ( operator . or_ , lst ) ) [ < Question : what are you doing > , < Question : what is wrong with you > , < Question : who are you > , < Question : who am i > ] # AND >> > Question . objects . filter ( reduce ( operator . and_ , lst ) ) [ < Question : who

web实验二

心不动则不痛 提交于 2020-03-10 00:01:47
通过jQuery实现用户注册身份验证,当每个文本框失去焦点时进行该文本框内容校验,并将校验信息在文本框右侧显示出结果。 具体校验要求: 1、用户名由6-18位字符组成 2、密码由6-18位字符组成,且必须包含字母、数字和标点符号 3、确认密码必须和密码相同,否则提示密码不一致 4、电子邮件必须符合电子邮件格式 5、自我介绍不能为空 6、用户点击重置时清空所有文本框内容 7、用户点击提交是将用户信息存入对象user中,同时检查性别、出生日期是否选择,如果没有就弹出提示对话框,爱好至少选择一个,否支弹出提示。 1 <!DOCTYPE html> 2 <html> 3 4 <head> 5 <meta charset="UTF-8"> 6 <title>用户登录示例</title> 7 <script src="jquery-3.4.1.js " type="text/javascript"> </script> 8 </head> 9 <body> 10 <form id="userFrom" name="user" action="#" method="post"> 11 <table align="center" border="0" cellpadding="2" width="1000" > 12 <tr> 13 <td> 用户名</td> 14 15 <td> 16

linux service start|stop|restart

谁都会走 提交于 2020-03-09 20:27:58
用了这么些日子的linux/unix系统,也和别人一起合作开发了不少程序,发现高手都喜欢在命令行上操作,而且控制程序的运行偏好于使用脚本,加上参数如:start、restart、stop等。 后来自己开发程序,也越来越觉得这样是个好的方法: 1)节省时间,一键操作一系列步骤,需要记住的操作只有一两个。 2)降低出错概率,一次成功,次次成功。 3)提高通用性,同一套启动脚本的代码,可以被用在不同的程序上,需要修改的仅仅是待执行的程序命令。这也在另一个方面说明在命令行上操作程序的好处(其实每个linux程序归根到底都得在命令行上执行)。 4)通过启动脚本,可以做更多的控制,比如一次只运行一个程序实例,把输出的信息重定向到日志文件中,查看状态,结束进程等。 5)可以和别的命令结合使用。 具体而言,linux的系统服务大多通过start|stop这类方式操作。在目录/etc/init.d中放着linux服务的启动脚本,在安装系统时,会把一些服务的启动脚本放在这个目录下。 同时,根据系统运行级别的不同,linux会运行/etc/rc$level.d/目录下的启动脚本。 http://www.360doc.com/content/12/0820/17/9336047_231349272.shtml http://blog.csdn.net/acs713/article/details

[PHP] fastcgi_split_path_info与传递PATH_INFO

扶醉桌前 提交于 2020-03-09 19:03:38
PHP的很多框架里面都是通过获取$_SERVER['PATH_INFO']处理路由 , 这个变量是通过nginx传递过来的 , 我们在nginx中经常见到下面两句 fastcgi_split_path_info ^(.+\.php)(/.*)$; fastcgi_param PATH_INFO $fastcgi_path_info; 这两句是什么意思呢? nginx默认获取不到PATH_INFO的值,得通过fastcgi_split_path_info指定定义的正则表达式来获取值 ^(.+\.php)(/.*)$; 这个正则表达是有两个小括号 , 也就是有两个捕获 第二个捕获到的值会自动重新赋值给$fastcgi_path_info变量。 第一个捕获的值会重新赋值给$fastcgi_script_name变量。 如果访问 /index.php/test ,第二个捕获的是/test $fastcgi_path_info就是/test,因此就会把/test传递给php的$_SERVER['PATH_INFO'] 来源: https://www.cnblogs.com/taoshihan/p/12450174.html