info | 易学教程

拒绝低效！Python教你爬虫公众号文章和链接

阅读更多关于拒绝低效！Python教你爬虫公众号文章和链接

本文首发于公众号「Python知识圈」，如需转载，请在公众号联系作者授权。前言上一篇文章整理了的公众号所有文章的导航链接，其实如果手动整理起来的话，是一件很费力的事情，因为公众号里添加文章的时候只能一篇篇的选择，是个单选框。面对几百篇的文章，这样一个个选择的话，是一件苦差事。 pk哥作为一个 Pythoner，当然不能这么低效，我们用爬虫把文章的标题和链接等信息提取出来。抓包我们需要通过抓包提取公众号文章的请求的 URL，参考之前写过的一篇抓包的文章 Python爬虫APP前的准备，pk哥这次直接抓取 PC 端微信的公众号文章列表信息，更简单。我以抓包工具 Charles 为例，勾选容许抓取电脑的请求，一般是默认就勾选的。为了过滤掉其他无关请求，我们在左下方设置下我们要抓取的域名。打开 PC 端微信，打开「Python知识圈」公众号文章列表后，Charles 就会抓取到大量的请求，找到我们需要的请求，返回的 JSON 信息里包含了文章的标题、摘要、链接等信息，都在 comm_msg_info 下面。这些都是请求链接后的返回，请求链接 url 我们可以在 Overview 中查看。通过抓包获取了这么多信息后，我们可以写爬虫爬取所有文章的信息并保存了。初始化函数公众号历史文章列表向上滑动，加载更多文章后发现链接中变化的只有 offset 这个参数

service.txt

阅读更多关于 service.txt

-------------- START_LICENSE SERVER localhost ANY 27000 VENDOR ARCGIS FEATURE ARC/INFO ARCGIS 10.1 01-jan-2028 2048 AF002081DF9314678F28 \ vendor_info=TZR7BHKLECYE7CFER176 ck=249 FEATURE 3DEngine ARCGIS 10.1 01-jan-2028 2048 1F30E0C13028E87F829A \ vendor_info=8A8PPHPB0PH7C2879178 ck=248 FEATURE Aeronautical ARCGIS 10.1 01-jan-2028 2048 7F30900140B9D037CFEA \ vendor_info=GZHHXHARBTNE10S0H138 ck=19 FEATURE AGSData ARCGIS 10.1 01-jan-2028 2048 4FC0E081895525801027 \ vendor_info=CRBNNC632LPTL041Y081 ck=231 FEATURE AllEurope ARCGIS 10.1 01-jan-2028 2048 2F20D001B17998369A4E \ vendor_info

MySQL 8.0版本连接报错：Could not create connection to database server.

阅读更多关于 MySQL 8.0版本连接报错：Could not create connection to database server.

准备搭建一个Spring Boot 组合mybatis的项目，数据库采用的是MySQL 8.0.11按照以往的配置，使用插件mybatis-generator-maven-plugin生成代码时，一直报错Could not create connection to database server.如下： [INFO] Scanning for projects... [INFO] [INFO] ------------------------------------------------------------------------ [INFO] Building songci-serv 1.0-SNAPSHOT [INFO] ------------------------------------------------------------------------ [INFO] [INFO] --- mybatis-generator-maven-plugin:1.3.5:generate (default-cli) @ songci-serv --- [INFO] Connecting to the Database [INFO] ----------------------------------------------------------------------

字典

阅读更多关于字典

字典操作：　　字典是一种key-value的数据类型，使用就像我们上学用的字典，通过笔画、字母来查对应页的详细内容。 info = {'name': 'larry', 'sex':'nan', 'age':18 } # 增 info['height'] = 185 # 没有键值对，添加 info['name'] = 'xiaozhao' # 有键值对，则值覆盖 info.setdefault('weight', 150) # 没有添加 info.setdefault('sex', 'nv') # 有键值对，不做任何改变 # 删 info.pop('age') # 按键去删除，有返回值 info.pop('grade', None) # 可设置返回值，不会报错 # del info # 全部删除del info('name') info = {'name': 'larry', 'sex':'nan', 'age':18 } info.popitem() # 随机删除，有返回值为元祖 info.clear() # 清空列表 # 改 info = {'name':'xiaozhao', 'age': 18} info1 = {'name':'xiaoming', 'sex':'male'} info1.update(info) print(info1) # 查print(info[

第一章 Hue的安装

阅读更多关于第一章 Hue的安装

第一章 Hue的安装 1、Hue的介绍 HUE= Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等。 HUE链接 · Site: http://gethue.com/ · Github: https://github.com/cloudera/hue · Reviews: https://review.cloudera.org Hue的架构核心功能 · SQL编辑器，支持Hive, Impala, MySQL, Oracle, PostgreSQL, SparkSQL, Solr SQL, Phoenix… · 搜索引擎Solr的各种图表 · Spark和Hadoop的友好界面支持 · 支持调度系统Apache Oozie，可进行workflow的编辑、查看 HUE提供的这些功能相比Hadoop生态各组件提供的界面更加友好

Oracle Spatial构建点、线、面

阅读更多关于 Oracle Spatial构建点、线、面

在ArcGIS中通过ArcSDE存储空间数据到Oracle中有多种存储方式，分别有：二进制Long Raw 、ESRI的ST_Geometry以及基于Oracle Spatial的SDO_Geometry等等。最近我主要是学习基于Oracle Spatial的存储方式，通过这种存储方式的几何列Shape的字段类型为mdsys.sdo_geometry类型。关于Oracle Spatial定义的SDO_GEOMETRY类型，我将单独在一章里来说明，个人觉得关于操作空间数据的SQL语句来说，相交于PostgreSQL、MS SQLServer麻烦一些，下面将给出在Oracle库中构建点、线、面等几何体的SQL语句： ------------单点 DECLARE geom sdo_geometry; BEGIN geom:=sdo_geometry (2001,---2001代表单点 null, sdo_point_type ( 63918.6936868593, 39300.6724619204, null), null, null ); execute immediate 'update zd_test set shape=:gm where objectid=227944' using geom; END; select objectid,shape from zd_test

系统学习python第六天学习笔记

阅读更多关于系统学习python第六天学习笔记

1.补充 1.列表方法补充 reverse，反转。 v1 = [1,2,3111,32,13] print(v1) v1.reverse() print(v1) sort，排序 v1 = [11,22,3111,32,13] print(v1) # v1.sort(reverse=False) # 从小到大（默认） # v1.sort(reverse=True) # 从大到小 # print(v1) 2.字典方法补充 keys/values/items get 判断字典中是否存在键，不存在则返回None，存在则取对应的值并返回赋值给变量 info = {'k1':'v1','k2':'v2'} # v1 = info['k11111'] # v2 = info.get('k1111') # None就是Python中的空 # v3 = info.get('k1111',666) # print(v2) # None数据类型，改类型表示空（无任何功能，专门用于提供空值） pop 删除，也可以用del删除 info = {'k1':'v1','k2':'v2'} result = info.pop('k2') print(info,result) del info['k1'] update 不存在，则添加/存在，则更新 info = {'k1':'v1','k2':'v2'} #

分布式任务调度XXL-JOB初体验

阅读更多关于分布式任务调度XXL-JOB初体验

简介 XXL-JOB 是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用。官方文档很完善，不多赘述。本文主要是搭建 XXL-JOB 和简单使用的记录。搭建xxl-job-admin管理端运行环境 Ubuntu 16.04 64位 Mysql 5.7 安装Mysql $ sudo apt-get update $ sudo apt-get install mysql-server ## 设置mysql，主要是安全方面的，密码策略等 $ mysql_secure_installation ## 配置远程访问 $ sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf bind-address = 0.0.0.0 $ sudo service mysql restart $ sudo service mysql status ● mysql.service - MySQL Community Server Loaded: loaded (/lib/systemd/system/mysql.service; enabled; vendor preset: enabled) Active: active (running) since Wed 2019-06-05 13

基于 Serverless 企业微信打造 nCoV 疫情监控小助手

阅读更多关于基于 Serverless 企业微信打造 nCoV 疫情监控小助手

最近的一些疫情信息很让人揪心，为了方便大家掌握疫情信息，在空闲之余做了一个关于 nCoV 的疫情监控小助手。主要的功能是通过企业微信的 WebHook 来推送疫情信息。这里将使用 Serverless 的整体代码思路和架构方式分享给大家。本文作者：tabor 实现效果我们想要实现的大致的效果是这样的：首先，我们需要解决的是数据来源问题，这里我们可以使用 python 爬虫来做这件事情，但是由于个人比较懒所以直接用的 2019-nCoV-Crawler ，这个项目已经集成了现有的 API，所以我们直接调用即可。当然有能力的同学也可以自己部署 Python，我这边是自己部署的，但是这不是本次的重点，就不在赘述。现在，我们有了数据，但是数据怎么打到服务器呢？又该如何触发？当然使用 CVM 也是可以的，但是似乎太笨拙，并且消耗量很大，需要自己搭好所有环境。所以，这里我们选用 Serverless 方式来部署。核心逻辑我们来看看整体业务的代码部分吧，毕竟这里是整个机器人的核心。我们来看代码（请求三次接口）： <?php function main_handler($event, $context) { // 广东省情况 $curlsz = curl_init(); curl_setopt_array($curlsz, array( CURLOPT_URL => "https:/

hdfs格式化hadoop namenode -format错误

阅读更多关于 hdfs格式化hadoop namenode -format错误

在对HDFS格式化，执行 hadoop namenode -format命令时，出现未知的主机名的问题，异常信息如下所示： [shirdrn@localhost bin]$ hadoop namenode -format 11/06/22 07:33:31 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = java.net. UnknownHostException: localhost.localdomain: localhost.localdomain STARTUP_MSG: args = [-format] STARTUP_MSG: version = 0.20.0 STARTUP_MSG: build = https://svn.apache.org/repos/asf/ hadoop /core/branches/branch-0.20 -r 763504; compiled by 'ndaley' on Thu Apr 9 05:18:40 UTC 2009 ********************************

订阅 info