info

拒绝低效!Python教你爬虫公众号文章和链接

99封情书 提交于 2020-02-11 23:40:10
本文首发于公众号「Python知识圈」,如需转载,请在公众号联系作者授权。 前言 上一篇文章整理了的公众号所有文章的导航链接,其实如果手动整理起来的话,是一件很费力的事情,因为公众号里添加文章的时候只能一篇篇的选择,是个单选框。 面对几百篇的文章,这样一个个选择的话,是一件苦差事。 pk哥作为一个 Pythoner,当然不能这么低效,我们用爬虫把文章的标题和链接等信息提取出来。 抓包 我们需要通过抓包提取公众号文章的请求的 URL,参考之前写过的一篇抓包的文章 Python爬虫APP前的准备 ,pk哥这次直接抓取 PC 端微信的公众号文章列表信息,更简单。 我以抓包工具 Charles 为例,勾选容许抓取电脑的请求,一般是默认就勾选的。 为了过滤掉其他无关请求,我们在左下方设置下我们要抓取的域名。 打开 PC 端微信,打开 「Python知识圈」公众号文章列表后,Charles 就会抓取到大量的请求,找到我们需要的请求,返回的 JSON 信息里包含了文章的标题、摘要、链接等信息,都在 comm_msg_info 下面。 这些都是请求链接后的返回,请求链接 url 我们可以在 Overview 中查看。 通过抓包获取了这么多信息后,我们可以写爬虫爬取所有文章的信息并保存了。 初始化函数 公众号历史文章列表向上滑动,加载更多文章后发现链接中变化的只有 offset 这个参数

service.txt

旧街凉风 提交于 2020-02-11 16:56:13
-------------- START_LICENSE SERVER localhost ANY 27000 VENDOR ARCGIS FEATURE ARC/INFO ARCGIS 10.1 01-jan-2028 2048 AF002081DF9314678F28 \ vendor_info=TZR7BHKLECYE7CFER176 ck=249 FEATURE 3DEngine ARCGIS 10.1 01-jan-2028 2048 1F30E0C13028E87F829A \ vendor_info=8A8PPHPB0PH7C2879178 ck=248 FEATURE Aeronautical ARCGIS 10.1 01-jan-2028 2048 7F30900140B9D037CFEA \ vendor_info=GZHHXHARBTNE10S0H138 ck=19 FEATURE AGSData ARCGIS 10.1 01-jan-2028 2048 4FC0E081895525801027 \ vendor_info=CRBNNC632LPTL041Y081 ck=231 FEATURE AllEurope ARCGIS 10.1 01-jan-2028 2048 2F20D001B17998369A4E \ vendor_info

MySQL 8.0版本连接报错:Could not create connection to database server.

混江龙づ霸主 提交于 2020-02-11 16:06:38
准备搭建一个Spring Boot 组合mybatis的项目,数据库采用的是MySQL 8.0.11按照以往的配置,使用插件mybatis-generator-maven-plugin生成代码时,一直报错Could not create connection to database server.如下: [INFO] Scanning for projects... [INFO] [INFO] ------------------------------------------------------------------------ [INFO] Building songci-serv 1.0-SNAPSHOT [INFO] ------------------------------------------------------------------------ [INFO] [INFO] --- mybatis-generator-maven-plugin:1.3.5:generate (default-cli) @ songci-serv --- [INFO] Connecting to the Database [INFO] ----------------------------------------------------------------------

字典

旧巷老猫 提交于 2020-02-11 04:03:18
字典操作:   字典是一种key-value的数据类型,使用就像我们上学用的字典,通过笔画、字母来查对应页的详细内容。 info = {'name': 'larry', 'sex':'nan', 'age':18 } # 增 info['height'] = 185 # 没有键值对,添加 info['name'] = 'xiaozhao' # 有键值对,则值覆盖 info.setdefault('weight', 150) # 没有添加 info.setdefault('sex', 'nv') # 有键值对,不做任何改变 # 删 info.pop('age') # 按键去删除,有返回值 info.pop('grade', None) # 可设置返回值,不会报错 # del info # 全部删除del info('name') info = {'name': 'larry', 'sex':'nan', 'age':18 } info.popitem() # 随机删除,有返回值为元祖 info.clear() # 清空列表 # 改 info = {'name':'xiaozhao', 'age': 18} info1 = {'name':'xiaoming', 'sex':'male'} info1.update(info) print(info1) # 查print(info[

第一章 Hue的安装

£可爱£侵袭症+ 提交于 2020-02-11 02:24:10
第一章 Hue的安装 1、Hue的介绍 HUE= Hadoop User Experience ​ Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。 ​ 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。 HUE链接 · Site: http://gethue.com/ · Github: https://github.com/cloudera/hue · Reviews: https://review.cloudera.org Hue的架构 核心功能 · SQL编辑器,支持Hive, Impala, MySQL, Oracle, PostgreSQL, SparkSQL, Solr SQL, Phoenix… · 搜索引擎Solr的各种图表 · Spark和Hadoop的友好界面支持 · 支持调度系统Apache Oozie,可进行workflow的编辑、查看 HUE提供的这些功能相比Hadoop生态各组件提供的界面更加友好

Oracle Spatial构建点、线、面

时光总嘲笑我的痴心妄想 提交于 2020-02-11 02:00:29
在ArcGIS中通过ArcSDE存储空间数据到Oracle中有多种存储方式,分别有:二进制Long Raw 、ESRI的ST_Geometry以及基于Oracle Spatial的SDO_Geometry等等。 最近我主要是学习基于Oracle Spatial的存储方式,通过这种存储方式的几何列Shape的字段类型为mdsys.sdo_geometry类型。 关于Oracle Spatial定义的SDO_GEOMETRY类型,我将单独在一章里来说明,个人觉得关于操作空间数据的SQL语句来说,相交于PostgreSQL、MS SQLServer麻烦一些,下面将给出在Oracle库中构建点、线、面等几何体的SQL语句: ------------单点 DECLARE geom sdo_geometry; BEGIN geom:=sdo_geometry (2001,---2001代表单点 null, sdo_point_type ( 63918.6936868593, 39300.6724619204, null), null, null ); execute immediate 'update zd_test set shape=:gm where objectid=227944' using geom; END; select objectid,shape from zd_test

系统学习python第六天学习笔记

烂漫一生 提交于 2020-02-11 00:06:27
1.补充 1.列表方法补充 reverse,反转。 v1 = [1,2,3111,32,13] print(v1) v1.reverse() print(v1) sort,排序 v1 = [11,22,3111,32,13] print(v1) # v1.sort(reverse=False) # 从小到大(默认) # v1.sort(reverse=True) # 从大到小 # print(v1) 2.字典方法补充 keys/values/items get 判断字典中是否存在键,不存在则返回None,存在则取对应的值并返回赋值给变量 info = {'k1':'v1','k2':'v2'} # v1 = info['k11111'] # v2 = info.get('k1111') # None就是Python中的空 # v3 = info.get('k1111',666) # print(v2) # None数据类型,改类型表示空(无任何功能,专门用于提供空值) pop 删除,也可以用del删除 info = {'k1':'v1','k2':'v2'} result = info.pop('k2') print(info,result) del info['k1'] update 不存在,则添加/存在,则更新 info = {'k1':'v1','k2':'v2'} #

分布式任务调度XXL-JOB初体验

和自甴很熟 提交于 2020-02-10 20:23:50
简介 XXL-JOB 是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。 官方文档很完善,不多赘述。本文主要是搭建 XXL-JOB 和简单使用的记录。 搭建xxl-job-admin管理端 运行环境 Ubuntu 16.04 64位 Mysql 5.7 安装Mysql $ sudo apt-get update $ sudo apt-get install mysql-server ## 设置mysql,主要是安全方面的,密码策略等 $ mysql_secure_installation ## 配置远程访问 $ sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf bind-address = 0.0.0.0 $ sudo service mysql restart $ sudo service mysql status ● mysql.service - MySQL Community Server Loaded: loaded (/lib/systemd/system/mysql.service; enabled; vendor preset: enabled) Active: active (running) since Wed 2019-06-05 13

基于 Serverless 企业微信打造 nCoV 疫情监控小助手

£可爱£侵袭症+ 提交于 2020-02-10 15:42:59
最近的一些疫情信息很让人揪心,为了方便大家掌握疫情信息,在空闲之余做了一个关于 nCoV 的疫情监控小助手。主要的功能是通过企业微信的 WebHook 来推送疫情信息。这里将使用 Serverless 的整体代码思路和架构方式分享给大家。 本文作者:tabor 实现效果 我们想要实现的大致的效果是这样的: 首先,我们需要解决的是数据来源问题,这里我们可以使用 python 爬虫来做这件事情,但是由于个人比较懒所以直接用的 2019-nCoV-Crawler ,这个项目已经集成了现有的 API,所以我们直接调用即可。当然有能力的同学也可以自己部署 Python,我这边是自己部署的,但是这不是本次的重点,就不在赘述。 现在,我们有了数据,但是数据怎么打到服务器呢?又该如何触发?当然使用 CVM 也是可以的,但是似乎太笨拙,并且消耗量很大,需要自己搭好所有环境。所以,这里我们选用 Serverless 方式来部署。 核心逻辑 我们来看看整体业务的代码部分吧,毕竟这里是整个机器人的核心。我们来看代码(请求三次接口): <?php function main_handler($event, $context) { // 广东省情况 $curlsz = curl_init(); curl_setopt_array($curlsz, array( CURLOPT_URL => "https:/

hdfs格式化hadoop namenode -format错误

随声附和 提交于 2020-02-10 02:36:11
在对HDFS格式化,执行 hadoop namenode -format命令时,出现未知的主机名的问题,异常信息如下所示: [shirdrn@localhost bin]$ hadoop namenode -format 11/06/22 07:33:31 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = java.net. UnknownHostException: localhost.localdomain: localhost.localdomain STARTUP_MSG: args = [-format] STARTUP_MSG: version = 0.20.0 STARTUP_MSG: build = https://svn.apache.org/repos/asf/ hadoop /core/branches/branch-0.20 -r 763504; compiled by 'ndaley' on Thu Apr 9 05:18:40 UTC 2009 ********************************