url

Python爬虫学习==>第十一章:分析Ajax请求-抓取今日头条信息

人走茶凉 提交于 2020-02-28 20:07:16
学习目的:   解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用 正式步骤 Step1:流程分析 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果; 抓取页面详情内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息; 下载图片并保存数据库:将图片下载到本地,把页面信息及图片url保存至MongoDB; 开启循环及多线程:对多页面内容遍历,开启多线程并提高抓取效率。 Step2:实例分析 1. 打开今日头条搜索页,搜索“中超”,查看页面的请求方法为:GET 2. 创建一个Python文件:spider_ajax.py 3.网站url信息获取 4. 打印抓取的文章超链接和抓取的html内容 # -*- coding:utf-8 -*- import json from urllib.parse import urlencode from requests.exceptions import RequestException import requests def get_page_html(offset,keyword): data = { 'offset':offset, 'format':'json', 'keyword':keyword, 'autoload':'true', 'count':'20', 'cur

url-loader和file-loader的区别和使用

妖精的绣舞 提交于 2020-02-28 19:09:10
webpack是用JS写的,运行在node环境,所以默认webpack打包的时候只会处理JS之间的依赖关系!!! 如果你不相信,你可以创建如下类似的代码尝试在JS中导入图片 然后运行打包命令就发生报错现象(不要编写webpack.config.js就可以直接打包,这是webpack4新加的功能,但是入口文件必须是src/index.js文件必须要有) 提示我们需要提供相关的loader来处理图片类型的文件。 因为像 .png 这样的文件不是一个 JavaScript 模块,你需要配置 webpack 使用 file-loader 或者 url-loader 去合理地处理它们。 转换资源 URL 的好处是: file-loader 可以指定要复制和放置资源文件的位置,以及如何使用版本哈希命名以获得更好的缓存。此外,这意味着 你可以就近管理图片文件,可以使用相对路径而不用担心部署时 URL 的问题。使用正确的配置,webpack 将会在打包输出中自动重写文件路径为正确的 URL。 url-loader 允许你有条件地将文件转换为内联的 base-64 URL (当文件小于给定的阈值),这会减少小文件的 HTTP 请求数。如果文件大于该阈值,会自动的交给 file-loader 处理。 我们之前 require('./banner.jpg') 图片是为了得到图片的路径

nvm的安装及使用

爱⌒轻易说出口 提交于 2020-02-28 18:55:34
1.什么是nvm nvm主要用于管理node版本 2.安装 https://github.com/coreybutler/nvm-windows/releases 选择nvm-setup.zip下载并安装 3.安装完确认 打开cmd输入nvm 4.nvm管理node (1)nvm list [available] 显示已安装的列表。可选参数available,显示可安装的所有版本。list可简化为ls。 (2)nvm install 11.13.0 安装特定版本 (3)nvm use 11.13.0 使用特定版本 (4)nvm uninstall 11.13.0 删除特定版本 (5)nvm arch 显示node运行在32位还是64位 (6)nvm on 开启node.js版本管理 (7)nvm off 关闭node.js版本管理 (8)nvm proxy [url] 设置下载代理,不加可选参数url,显示当前代理。将url设为none则移除代理。 (9)nvm node_mirror [url] 设置node镜像,不写url则使用默认url: https://nodejs.org/dist/。 设置后在安装目录setting.txt中查看,也可直接在该文件操作 (10)nvm root [path] 设置存储不同版本node的目录。未设置,默认使用当前目录。 5.注意事项

[dubbo 源码之 ]1. 服务提供方如何发布服务

陌路散爱 提交于 2020-02-28 16:08:33
服务发布 启动流程 1.ServiceConfig#export 服务提供方在启动部署时,dubbo会调用 ServiceConfig#export 来激活服务发布流程,如下所示: Java API: // 1. 创建ServiceConfig实例 ServiceConfig<IGreetingService> serviceConfig = new ServiceConfig<>(); // 2. 设置应用程序配置 serviceConfig.setApplication(new ApplicationConfig("deep-in-dubbo-first-provider")); // 3. 设置注册中心 RegistryConfig registryConfig = new RegistryConfig("zookeeper://127.0.0.1:2181/"); serviceConfig.setRegistry(registryConfig); // 4. 设置接口和实现类 // 5. 设置服务分组和版本 // dubbo中,服务接口+服务分组+服务版本 唯一的确定一个服务,同一个接口可以有不同版本,方便维护升级 serviceConfig.setInterface(IGreetingService.class); serviceConfig.setRef(new

jquery实现图片上传之前预览的方法

余生长醉 提交于 2020-02-28 14:30:44
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title></title> <script src="jquery-1.8.1.min.js" type="text/javascript"></script> <script> /* *参数说明: Img:图片ID;Width:预览宽度;Height:预览高度;ImgType:支持文件类型;Callback:选择文件显示图片后回调方法; *使用方法: <div> <img id="ImgPr" width="120" height="120" /></div> <input type="file" id="up" /> 把需要进行预览的IMG标签外 套一个DIV 然后给上传控件ID给予uploadPreview事件 $("#up").uploadPreview({ Img: "ImgPr", Width: 120, Height: 120, ImgType: ["gif", "jpeg", "jpg", "bmp", "png"],

Ajax请求下载文件

只愿长相守 提交于 2020-02-28 14:22:03
以前我这样做,现在感觉很low: window.location.href = "http://127.0.0.1:8080/wx-sr-api/xxx/export"; 现在可以这样做,直接上代码,我这里贴的是AngularJS的HTTP请求函数,ajax也是类似的: $http({ url: "http://127.0.0.1:8080/wx-sr-api/xxx/export", method: 'GET', params: reqData, responseType: 'arraybuffer' }).success(function (data, status, headers) { <!--var type = 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet'; if (!type) throw '无效类型';--> //对象 URL 也被称为 blob URL,指的是引用保存在 File 或 Blob 中数据的 URL。使用对象 URL 的 //好处是可以不必把文件内容读取到 JavaScript 中而直接使用文件内容。为此,只要在需要文件内容的地 //方提供对象 URL 即可。 var urlCreator = window.URL || window.webkitURL; var

JDBC——抽取工具类

和自甴很熟 提交于 2020-02-28 13:45:11
目的:简化书写 分析:   1.注册驱动   2.获取连接对象   3.释放资源 1.注册驱动 2.获取连接对象 需求:不想传递参数,还能保证工具类的通用性 解决方案:配置文件 jdbc.properties url=jdbc:mysql:///girls user=root password=ROOT driver=com.mysql.jdbc.Driver 3.释放资源 package cn.itcast.util; import java.io.FileReader; import java.io.IOException; import java.net.URL; import java.sql.*; import java.util.Properties; /** * jdbc工具类 */ public class JDBCUtils { private static String url; private static String user; private static String password; private static String dirver; /* * 文件的读取,只需要读取一次即可拿到这值。 * 使用静态代码块:因为静态代码块随着类的加载而加载,只会执行一次 * */ static { //读取配置文件 try { //1

[Android]记录一下整理的使用pdfjs本地查看pdf的方法

ぐ巨炮叔叔 提交于 2020-02-28 12:55:15
感谢: https://blog.csdn.net/j236027367/article/details/78851248 上面的那篇博客已经详细地介绍了如何完整地加入这个功能,甚至还加入了双指缩放!就很厉害。 下面我记录的将会是我以后直接使用的方法: ①创建一个assets的文件夹,并将pdfjs解压到该文件夹下; 链接:https://pan.baidu.com/s/14qyy6uQIga64uvzmOUptyQ 提取码:tzq0 ②加入一个webview, 并对webview做好配置。 private void initView() { WebSettings settings = webView.getSettings(); settings.setSavePassword(false); settings.setJavaScriptEnabled(true); settings.setAllowFileAccessFromFileURLs(true); settings.setAllowUniversalAccessFromFileURLs(true); settings.setBuiltInZoomControls(true); webView.setWebViewClient(new WebViewClient() { @Override public boolean

.htaccess基本语法和应用

三世轮回 提交于 2020-02-28 11:45:50
.htaccess基本语法和应用 .htaccess是Apache服务器的一个非常强大的分布式配置文件。 正确的理解和使用.htaccess文件,可以帮助我们优化自己的服务器或者虚拟主机。 如何启用htaccess 以windows为例,进入apache/conf目录,找到httpd.conf文件,去掉 LoadModule rewrite_module modules/mod_rewrite.so 前面的#,然后设置目录属性AllowOverride All,重启apache即可 常见格式 下面是一个典型的htaccess文件 # 开启URL重写 RewriteEngine on # URL重写的作用域 RewriteBase /path/to/url # 满足怎样的条件 RewriteCond %{HTTP_HOST} !^www\.example\.com$ [NC] # 应用怎样的规则 RewriteRule .? http://www.example.com%{REQUEST_URI} [R=301,L] 来看看RewriteCond,首先有一个%,因为{HTTP_HOST}是一个apache变量,需要用%来指示。从!开始就是匹配的条件,支持 正则。!表示不等于,这句话的意思就是:如果HTTP_HOST不是www.example.com。后面的[NC](no case

打开html文件背景图片报错 Failed to load resource: net::ERR_BLOCKED_BY_CLIENT

北城以北 提交于 2020-02-28 10:35:46
用vscode预览网页没啥问题 但是直接到文件夹下打开html文件 图片和字体样式就报错 看到这BUG我气得浑身发抖,大热天的全身冷汗手脚冰凉,这个社会还能不能好了,我们秃头佬到底要怎么活着BUG才满意,眼泪不争气的流了下来,这个世界到处充斥着对菜鸡程序猿的压迫,本菜鸡何时才能真正的站起来。地狱空荡荡,魔鬼在人间! 脚也抖了,泪也流了。 写代码我唯唯诺诺,对BUG还是得重拳出击,网上找了半天 全是复读机复读机复读机复读机复读机复读机复读机复读机复读机复读机复读机复读机复读机复读机 全是转载 搞了半天还形成了一个闭环 搁这原地TP呢 操作半天没啥用 最后发现主要还是路径的问题 vscode下可以直接用绝对路径 background-image: url ( /baidu/index/img/background_header.png ) ; 但是这样的结果就是vscode预览网页没问题 但是直接打开html文件图片就加载不出来 简单说就是background的url最好用相对地址 但是起始点是css文件 ./ 是上一层文件夹 .. / 是上上一层文件夹 你看到的是第二层,而你把我只想象成第一层,实际上我在第五层 要这么写 background-image: url ( .. /img/IPad.png ) ; 芜湖 起飞~ css样式表里面引用background-image时