url | 易学教程

Spider 爬虫

阅读更多关于 Spider 爬虫

今天把爬虫整理出来: 现在已从移动互联网时代过渡到大数据时代，大数据的核心就是数据，数据的获取途径主要有以下几种：（1）企业生产的用户数据：大型互联网公司有海量的用户，他们积累数据有天然的优势，比如百度指数、阿里指数、新浪微博指数等。（2）数据管理咨询公司：通常只有大的公司才有数据采集团队，根据市场调研、问卷调查、样板检测和各行各业的公司进行合作等方式，进行数据的采集和基类。（3）政府/机构的公开数据：政府开放的数据都是根据各地上报的数据进行合并的，比如中华人民共和国国家统计局数据等。（4）第三方数据平台购买数据：现在人工智能需要用到很多人脸数据，行为动作都需要大量的数据，也有专门的平台购买，比如贵阳大数据交易所等 HTTP & HTTPS 在百度的首页 https://www.baidu.com/ 中,URL的开头都会有http或者https,这就是访问资源需要的协议类型,当然还有其他开头的URL,在爬虫中经常抓取的页面通常都是httphuozhehttps协议 HTTP 中文叫做<超文本传输协议>,HTTP协议是用于从网络传输超文本数据到客户端本地浏览器的传送协议, HTTPS 是以安全为目标的HTTP管道,就是HTTP下的SSl层简称HTTPS 　HTTP请求过程当我们在浏览器上输入一个URL 回车之后就会得到相应的内容

java实现下载文件到本地

阅读更多关于 java实现下载文件到本地

代码如下： URL url = new URL("http://www.cnblogs.com/images/logo_small.gif"); URLConnection con = url.openConnection(); FileOutputStream out = new FileOutputStream("d:/sss.gif"); InputStream ins = con.getInputStream(); byte[] b = new byte[1024]; int i=0; while((i=ins.read(b))!=-1){ out.write(b, 0, i); } ins.close(); out.close(); 限时领取免费Java相关资料，涵盖了Java、Redis、MongoDB、MySQL、Zookeeper、Spring Cloud、Dubbo/Kafka、Hadoop、Hbase、Flink等高并发分布式、大数据、机器学习等技术。资料传送门： https://mp.weixin.qq.com/s/u2b_NVNuMuAPE0w4lc45fw 关注下方公众号即可免费领取：来源： https://www.cnblogs.com/haha12/p/6197749.html

学习爬虫记录

阅读更多关于学习爬虫记录

使用selenium 自动化搜索获取URL 并爬取图片，并保存总结：入口程序写的差，内容繁琐，用到知识点多 import os from chrome_Demo.handless import shaer_browser import time import requests from lxml import etree import urllib.request from urllib.request import urlparse def browser_url(): browser = shaer_browser() #构造无头浏览器 # path = './chromedriver.exe' # browser= webdriver.Chrome(path) browser.get('https://www.baidu.com/') input_key = browser.find_element_by_id('kw')#定位百度一下的输入框 input_key.send_keys('下厨房')#在输入框内输入搜素内容 time.sleep(1) bd_key = browser.find_element_by_id('su')#定位百度一下 bd_key.click()#点击百度一下 time.sleep(2) xcf_key = browser.find

php操作url 函数等

阅读更多关于 php操作url 函数等

pathinfo() - Returns information about a file path parse_str() - Parses the string into variables parse_url() - Parse a URL and return its components http_build_query() - Generate URL-encoded query string http_build_url() - Build a URL dirname() - Returns a parent directory's path basename() - Returns trailing name component of path <?php // 获取文件名称 echo basename("/data/www/test/filesystem.php"),"\n"; // 获取目录名称 echo dirname("/data/www/test/filesystem.php"),"\n"; echo __DIR__,"\n"; // 操作一个url，获取相关信息（注意php函数的使用 // parse_url处理url足够了。。第二个可选参数是php常量，直接获取数组中的某个value $url_info = parse_url('http://www

微信公众平台获取客服聊天记录（服务号）

阅读更多关于微信公众平台获取客服聊天记录（服务号）

环境： java语言，服务号，功能：服务号有一个客服功能，我目前需要获取所有客服的聊天记录。环境介绍： 1.首先需要在微信公众平台开发者配置中配置一些参数其中开发者id 和开发者密码用来获取AccessToken , 要配置IP白名单，不然调用客户聊天记录失败。 2.登录服务号，找到这个客服功能。目前我这个服务号有俩个客服，我现在需要获取这俩个客服的聊天记录。 2.找到客服功能的开发文档。地址： https://developers.weixin.qq.com/doc/offiaccount/Customer_Service/Obtain_chat_transcript.html post 请求，传参方式如下，注意：每次查询的时间段不能超过24小时。 3.代码实战： @GetMapping(value = "/sendCondition") public void sendCondition() throws ParseException { //1.获取AccessToken String accessToken = WeiXinParamesUtil.getAccessToken("customerService"); String url = "https://api.weixin.qq.com/customservice/msgrecord

（二）CRLF注入

阅读更多关于（二）CRLF注入

01 漏洞描述在《 HTTP | HTTP报文》一文中，我们介绍了HTTP报文的结构：状态行和首部中的每行以CRLF结束，首部与主体之间由一空行分隔。或者理解为首部最后一个字段有两个CRLF，首部和主体由两个CRLF分隔。 CRLF注入漏洞，是因为Web应用没有对用户输入做严格验证，导致攻击者可以输入一些恶意字符。攻击者一旦向请求行或首部中的字段注入恶意的CRLF，就能注入一些首部字段或报文主体，并在响应中输出，所以又称为HTTP响应拆分漏洞（HTTP Response Splitting）。 02 漏洞知识拓展 CRLF 指的是回车符 (CR，ASCII 13，\r，%0d) 和换行符 (LF，ASCII 10，\n，%0a)。 CRLF的概念源自打字机，表明行的结束，计算机出现后沿用了这个概念。回车符：光标移到行首，换行符：光标垂直移到下行。键盘上的回车键(Enter)就可以执行该操作。但是不同的操作系统，行的结束符是不一样的。 Windows：使用CRLF表示行的结束 Linux/Unix：使用LF表示行的结束 MacOS：早期使用CR表示，现在好像也用LF表示行的结束所以同一文件在不同操作系统中打开，内容格式可能会出现差异，这是行结束符不一致导致的。在HTTP规范中，行应该使用CRLF来结束。首部与主体由两个CRLF分隔

计算机网络HTTP：GET和POST

阅读更多关于计算机网络HTTP：GET和POST

幂等性：是指无论调用多少次都不会有不同结果的HTTP方法。 GET 作用：请求读取由URL所标志的信息参数：请求参数放置在URL后面。约定：参数写在？后面，用&分割。 GET请求过程：浏览器请求TCP连接（第一次握手）服务器答应进行TCP连接（第二次握手）浏览器确认，并发送GET请求头和数据（第三次握手）服务器返回200 OK响应 POST：作用：给服务器添加信息参数：将数据放在HTTP请求体中。 POST请求过程：浏览器请求TCP连接（第一次握手）服务器答应进行TCP连接（第二次握手）浏览器确认，并发送POST请求头（第三次握手）服务器返回100 Continue响应浏览器发送数据服务器返回200 OK响应 GET和POST的对比 GET POST 后退按钮/刷新无害数据会被重新提交（浏览器应该告知用户数据会被重新提交）书签可收藏为书签不可收藏为书签缓存能被缓存不能缓存历史参数保留在浏览器历史中参数不会保存在浏览器历史中对数据长度的限制 URL的长度是受限制的（URL最大长度2048个字符）无限制对数据类型的限制只允许ASCII码没有限制。也允许二进制数据安全性安全性较差，因为所发送的数据是URL的一部分更安全，因为参数不会被保存在浏览器历史或web服务器日志中可见性数据在URL中对所有人都是可见的

Django路由系统

阅读更多关于 Django路由系统

URL 1、URL的作用　　URL配置(URLconf)就像Django所支撑网站的目录。它的本质是URL与要为该URL调用的视图函数之间的映射表。我们就是以这种方式告诉Django，遇到哪个URL的时候，要对应执行哪个函数。 2、基本格式 # Django 2.0之前的版本的写法 from django.conf.urls import url urlpatterns = [ url(正则表达式, views视图，参数，别名), ] # Django 2.0 版本及之后的写法 from django.urls import path，re_path urlpatterns = [ path('articles/2003/', views.special_case_2003), path('articles/<int:year>/', views.year_archive), path('articles/<int:year>/<int:month>/', views.month_archive), path('articles/<int:year>/<int:month>/<slug:slug>/', views.article_detail), ] 3、参数说明正则表达式：一个正则表达式字符串 views视图：一个可调用对象，通常为一个视图函数参数

Flutter配置问题

阅读更多关于 Flutter配置问题

Flutter配置问题配置阿里云仓库 project 的build.gradle buildscript { ext.kotlin_version = '1.3.50' repositories { /* google() jcenter()*/ maven{ url 'https://maven.aliyun.com/repository/google'} maven{ url 'http://maven.aliyun.com/nexus/content/repositories/jcenter'} maven{url 'http://maven.aliyun.com/nexus/content/groups/public/'} } dependencies { classpath 'com.android.tools.build:gradle:3.5.0' classpath "org.jetbrains.kotlin:kotlin-gradle-plugin:$kotlin_version" } } allprojects { repositories { /* google() jcenter()*/ maven{ url 'https://maven.aliyun.com/repository/google'} maven{ url 'http://maven

伯乐身高爬虫

阅读更多关于伯乐身高爬虫

最近在朋友的博客里看到了一篇文章，是讲伯乐在线这个网站上有一个面向对象栏目。什么是面向对象呢，面向对象是一个专门为IT单身男女服务的征友传播平台,由伯乐在线专门为程序员爱情创立的一个公益+免费活动。简单来说，网站的女用户在这个栏目组发帖子，包括自己的相关信息，以及理想的男友条件，男生们可以付出一定代价获得女用户保存在网站上的个人联系方式，看对眼的话，就去领证:) 然后呢，我这个朋友关注的点不太主流，他不用爬虫爬妹子照片，或者通过黑客攻击拿到妹子的联系方式，反而用python将所有发表的帖子当中对身高的要求给爬了..> 下面是我将他的代码改进： import requests import re import os import sys import time from bs4 import BeautifulSoup pageNum = 10 # 所有帖子总共10页 urlsFile = os.path.join(sys.path[0],'urls.txt') # 保存帖子url的本地路径的字符串,os.path.join()知识提供文件路径拼接功能如果想要创建文件夹则使用os.mkdir(path) infoNum = 0 #有效信息的总条数 num = 0 #包含敏感信息的总条数 # 获取所有帖子的url def getUrls(): if(os.path.exists

订阅 url