url

Spider 爬虫

你离开我真会死。 提交于 2020-02-13 04:34:22
今天把爬虫整理出来: 现在已从移动互联网时代过渡到大数据时代,大数据的核心就是数 据,数据的获取途径主要有以下几种: (1)企业生产的用户数据:大型互联网公司有海量的用户,他们 积累数据有天然的优势,比如百度指数、阿里指数、新浪微博指数等。 (2)数据管理咨询公司:通常只有大的公司才有数据采集团队, 根据市场调研、问卷调查、样板检测和各行各业的公司进行合作等方 式,进行数据的采集和基类。 (3)政府/机构的公开数据:政府开放的数据都是根据各地上报的 数据进行合并的,比如中华人民共和国国家统计局数据等。 (4)第三方数据平台购买数据:现在人工智能需要用到很多人脸 数据,行为动作都需要大量的数据,也有专门的平台购买,比如贵阳大 数据交易所等 HTTP & HTTPS 在百度的首页 https://www.baidu.com/ 中,URL的开头都会有http或者https,这就是访问资源需要的协议类型,当然还有其他开头的URL,在爬虫中经常抓取的页面通常都是httphuozhehttps协议 HTTP 中文叫做<超文本传输协议>,HTTP协议是用于从网络传输超文本数据到客户端本地浏览器的传送协议, HTTPS 是以安全为目标的HTTP管道,就是HTTP下的SSl层 简称HTTPS  HTTP请求过程 当我们在浏览器上输入一个URL 回车之后就会得到相应的内容

java实现下载文件到本地

陌路散爱 提交于 2020-02-13 03:33:29
代码如下: URL url = new URL("http://www.cnblogs.com/images/logo_small.gif"); URLConnection con = url.openConnection(); FileOutputStream out = new FileOutputStream("d:/sss.gif"); InputStream ins = con.getInputStream(); byte[] b = new byte[1024]; int i=0; while((i=ins.read(b))!=-1){ out.write(b, 0, i); } ins.close(); out.close(); 限时领取免费Java相关资料,涵盖了Java、Redis、MongoDB、MySQL、Zookeeper、Spring Cloud、Dubbo/Kafka、Hadoop、Hbase、Flink等高并发分布式、大数据、机器学习等技术。 资料传送门: https://mp.weixin.qq.com/s/u2b_NVNuMuAPE0w4lc45fw 关注下方公众号即可免费领取: 来源: https://www.cnblogs.com/haha12/p/6197749.html

学习爬虫记录

穿精又带淫゛_ 提交于 2020-02-13 02:29:41
使用selenium 自动化搜索 获取URL 并爬取图片,并保存总结:入口程序写的差,内容繁琐,用到知识点多 import os from chrome_Demo.handless import shaer_browser import time import requests from lxml import etree import urllib.request from urllib.request import urlparse def browser_url(): browser = shaer_browser() #构造无头浏览器 # path = './chromedriver.exe' # browser= webdriver.Chrome(path) browser.get('https://www.baidu.com/') input_key = browser.find_element_by_id('kw')#定位百度一下的输入框 input_key.send_keys('下厨房')#在输入框内输入搜素内容 time.sleep(1) bd_key = browser.find_element_by_id('su')#定位百度一下 bd_key.click()#点击百度一下 time.sleep(2) xcf_key = browser.find

php操作url 函数等

偶尔善良 提交于 2020-02-13 01:09:53
pathinfo() - Returns information about a file path parse_str() - Parses the string into variables parse_url() - Parse a URL and return its components http_build_query() - Generate URL-encoded query string http_build_url() - Build a URL dirname() - Returns a parent directory's path basename() - Returns trailing name component of path <?php // 获取文件名称 echo basename("/data/www/test/filesystem.php"),"\n"; // 获取目录名称 echo dirname("/data/www/test/filesystem.php"),"\n"; echo __DIR__,"\n"; // 操作一个url,获取相关信息(注意php函数的使用 // parse_url处理url足够了。。第二个可选参数是php常量,直接获取数组中的某个value $url_info = parse_url('http://www

微信公众平台获取客服聊天记录(服务号)

▼魔方 西西 提交于 2020-02-13 01:07:37
环境 : java语言 , 服务号, 功能 :服务号有一个客服功能,我目前需要获取所有客服的聊天记录。 环境介绍: 1.首先需要在微信公众平台开发者配置中配置一些参数 其中开发者id 和开发者密码用来获取AccessToken , 要配置IP白名单,不然调用客户聊天记录失败。 2.登录服务号,找到这个客服功能。目前我这个服务号有俩个客服,我现在需要获取这俩个客服的聊天记录。 2.找到客服功能的开发文档。 地址: https://developers.weixin.qq.com/doc/offiaccount/Customer_Service/Obtain_chat_transcript.html post 请求,传参方式如下, 注意:每次查询的时间段不能超过24小时。 3.代码实战: @GetMapping(value = "/sendCondition") public void sendCondition() throws ParseException { //1.获取AccessToken String accessToken = WeiXinParamesUtil.getAccessToken("customerService"); String url = "https://api.weixin.qq.com/customservice/msgrecord

(二)CRLF注入

╄→尐↘猪︶ㄣ 提交于 2020-02-12 23:35:09
01 漏洞描述 在《 HTTP | HTTP报文 》一文中,我们介绍了HTTP报文的结构:状态行和首部中的每行以CRLF结束,首部与主体之间由一空行分隔。或者理解为首部最后一个字段有两个CRLF,首部和主体由两个CRLF分隔。 CRLF注入漏洞,是因为Web应用没有对用户输入做严格验证,导致攻击者可以输入一些恶意字符。攻击者一旦向请求行或首部中的字段注入恶意的CRLF,就能注入一些首部字段或报文主体,并在响应中输出,所以又称为HTTP响应拆分漏洞(HTTP Response Splitting)。 02 漏洞知识拓展 CRLF 指的是 回车符 (CR,ASCII 13,\r,%0d) 和 换行符 (LF,ASCII 10,\n,%0a)。 CRLF的概念源自打字机,表明行的结束,计算机出现后沿用了这个概念。 回车符:光标移到行首, 换行符:光标垂直移到下行。 键盘上的回车键(Enter)就可以执行该操作。但是不同的操作系统,行的结束符是不一样的。 Windows:使用CRLF表示行的结束 Linux/Unix:使用LF表示行的结束 MacOS:早期使用CR表示,现在好像也用LF表示行的结束 所以同一文件在不同操作系统中打开,内容格式可能会出现差异,这是行结束符不一致导致的。 在HTTP规范中,行应该使用CRLF来结束。首部与主体由两个CRLF分隔

计算机网络HTTP:GET和POST

ε祈祈猫儿з 提交于 2020-02-12 21:57:03
幂等性:是指无论调用多少次都不会有不同结果的HTTP方法。 GET 作用:请求读取由URL所标志的信息 参数:请求参数放置在URL后面。约定:参数写在?后面,用&分割。 GET请求过程: 浏览器请求TCP连接(第一次握手) 服务器答应进行TCP连接(第二次握手) 浏览器确认,并发送GET请求头和数据(第三次握手) 服务器返回200 OK响应 POST: 作用:给服务器添加信息 参数:将数据放在HTTP请求体中。 POST请求过程: 浏览器请求TCP连接(第一次握手) 服务器答应进行TCP连接(第二次握手) 浏览器确认,并发送POST请求头(第三次握手) 服务器返回100 Continue响应 浏览器发送数据 服务器返回200 OK响应 GET和POST的对比 GET POST 后退按钮/刷新 无害 数据会被重新提交(浏览器应该告知用户数据会被重新提交) 书签 可收藏为书签 不可收藏为书签 缓存 能被缓存 不能缓存 历史 参数保留在浏览器历史中 参数不会保存在浏览器历史中 对数据长度的限制 URL的长度是受限制的(URL最大长度2048个字符) 无限制 对数据类型的限制 只允许ASCII码 没有限制。也允许二进制数据 安全性 安全性较差,因为所发送的数据是URL的一部分 更安全,因为参数不会被保存在浏览器历史或web服务器日志中 可见性 数据在URL中对所有人都是可见的

Django路由系统

天大地大妈咪最大 提交于 2020-02-12 19:37:25
URL 1、URL的作用   URL配置(URLconf)就像Django所支撑网站的目录。它的本质是URL与要为该URL调用的视图函数之间的映射表。我们就是以这种方式告诉Django,遇到哪个URL的时候,要对应执行哪个函数。 2、基本格式 # Django 2.0之前的版本的写法 from django.conf.urls import url urlpatterns = [ url(正则表达式, views视图,参数,别名), ] # Django 2.0 版本及之后的写法 from django.urls import path,re_path urlpatterns = [ path('articles/2003/', views.special_case_2003), path('articles/<int:year>/', views.year_archive), path('articles/<int:year>/<int:month>/', views.month_archive), path('articles/<int:year>/<int:month>/<slug:slug>/', views.article_detail), ] 3、参数说明 正则表达式:一个正则表达式字符串 views视图:一个可调用对象,通常为一个视图函数 参数

Flutter配置问题

折月煮酒 提交于 2020-02-12 14:50:48
Flutter配置问题 配置阿里云仓库 project 的build.gradle buildscript { ext.kotlin_version = '1.3.50' repositories { /* google() jcenter()*/ maven{ url 'https://maven.aliyun.com/repository/google'} maven{ url 'http://maven.aliyun.com/nexus/content/repositories/jcenter'} maven{url 'http://maven.aliyun.com/nexus/content/groups/public/'} } dependencies { classpath 'com.android.tools.build:gradle:3.5.0' classpath "org.jetbrains.kotlin:kotlin-gradle-plugin:$kotlin_version" } } allprojects { repositories { /* google() jcenter()*/ maven{ url 'https://maven.aliyun.com/repository/google'} maven{ url 'http://maven

伯乐身高爬虫

那年仲夏 提交于 2020-02-12 08:59:31
最近在朋友的博客里看到了一篇文章,是讲伯乐在线这个网站上有一个面向对象栏目。什么是面向对象呢,面向对象是一个专门为IT单身男女服务的征友传播平台,由伯乐在线专门为程序员爱情创立的一个公益+免费活动。简单来说,网站的女用户在这个栏目组发帖子,包括自己的相关信息,以及理想的男友条件,男生们可以付出一定代价获得女用户保存在网站上的个人联系方式,看对眼的话,就去领证:) 然后呢,我这个朋友关注的点不太主流,他不用爬虫爬妹子照片,或者通过黑客攻击拿到妹子的联系方式,反而用python将所有发表的帖子当中对身高的要求给爬了..> 下面是我将他的代码改进: import requests import re import os import sys import time from bs4 import BeautifulSoup pageNum = 10 # 所有帖子总共10页 urlsFile = os.path.join(sys.path[0],'urls.txt') # 保存帖子url的本地路径的字符串,os.path.join()知识提供文件路径拼接功能 如果想要创建文件夹 则使用os.mkdir(path) infoNum = 0 #有效信息的总条数 num = 0 #包含敏感信息的总条数 # 获取所有帖子的url def getUrls(): if(os.path.exists