def

aiohttp爬虫的模板,类的形式

爱⌒轻易说出口 提交于 2020-12-04 13:45:47
1 import asyncio 2 import aiohttp 3 import async_timeout 4 from lxml import html 5 from timeit import default_timer as timer 6 7 from db import DBData 8 9 10 class Crawler: 11 def __init__ (self, ** kwargs): 12 self.domains = kwargs[ " domains " ] 13 self.max_depth = kwargs[ " max_depth " ] 14 self.max_retries = 3 15 self.max_workers = 10 16 self.Q = asyncio.Queue() 17 self.db_Q = asyncio.Queue() 18 self.cache = set() 19 self.count = 0 20 self.loop = asyncio.get_event_loop() 21 self.db_data = DBData() 22 23 # Clear 24 self.db_data.clear_crawler() 25 26 async def get(self, url, timeout): 27

Google Object detection配置与使用

妖精的绣舞 提交于 2020-12-04 10:14:20
Google Object detection 前言: 本文记录了使用Google发布的Object detection(July 1st, 2019)接口,完成了对标注目标的检测。参考了很多博文,在此记录配置过程,方便之后的再次调用。 首先贴出完整的代码地址: https://github.com/tensorflow/models Tensorflow Object Detection API: https://github.com/tensorflow/models/tree/master/research/object_detection 一、环境配置 参考网址: https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/installation.md 所有的环境都搭建在Anaconda创建的环境下 在windows10和Ubuntu下我都进行了配置,下方的配置会注明操作系统的区别 依赖包安装 在上面参考网址上,已经明确给出了所需要的环境,直接用pip命令下载即可。 Protobuf 安装 下载地址: https://github.com/google/protobuf/releases win: win10系统下载了 protoc-3.9.1-win64.zip

python-django(简单的小项目)

蓝咒 提交于 2020-12-04 08:14:15
Django框架的第一个简单的小项目   --1.在项目中的urls.py中添加对应的url映射路径     在项目urls.py路由文件中添加路由 from django.conf.urls import url,include // 引入include模块 from django.contrib import admin # 定义路由 引入usrs模块路由urls urlpatterns = [   url(r ' ^admin/ ' , admin.site.urls),   url(r ' ^users/ ' , include( ' users.urls ' )) // 引入users应用中的urls.py文件 ]   --2.为了方便管理每一个应用,建议在不同应用中添加urls.py文件     在users应用中创建单独的urls.py路由文件      #导入路由模块      添加如下代码: from django.conf.urls import url # 从当前的目录内导入视图文件 from . import views urlpatterns = [ url(r ' ^$ ' ,views.hello), ]   --3.在应用的views.py文件中添加如下代码:     #从http模块导入响应模块 from django.http import

TensorFlow Wide And Deep 模型详解与应用(一)

偶尔善良 提交于 2020-12-04 08:13:57
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/heyc861221/article/details/80131369 作者简介: 汪剑,现在在出门问问负责推荐与个性化。曾在微软雅虎工作,从事过搜索和推荐相关工作。 责编: 何永灿(heyc@csdn.net) 本文首发于CSDN,未经允许不得转载。 Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型,并应用到了 Google Play 的应用推荐中 [1]。wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalization),在训练过程中同时优化 2 个模型的参数,从而达到整体模型的预测能力最优。 结合我们的产品应用场景同 Google Play 的推荐场景存在较多的类似之处,在经过调研和评估后,我们也将 wide and deep 模型应用到产品的推荐排序模型,并搭建了一套线下训练和线上预估的系统。鉴于网上对 wide and deep 模型的相关描述和讲解并不是特别多,我们将这段时间对 TensorFlow1.1 中该模型的调研和相关应用经验分享出来,希望对相关使用人士带来帮助。 wide and deep

Wide and deep 模型【一】

江枫思渺然 提交于 2020-12-04 08:00:18
一、论文概述 Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型,并应用到了 Google Play 的应用推荐中 [1]。 wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalization),在训练过程中同时优化 2 个模型的参数,从而达到整体模型的预测能力最优。 结合我们的产品应用场景同 Google Play 的推荐场景存在较多的类似之处,在经过调研和评估后,我们也将 wide and deep 模型应用到产品的推荐排序模型,并搭建了一套线下训练和线上预估的系统。鉴于网上对 wide and deep 模型的相关描述和讲解并不是特别多,我们将这段时间对 TensorFlow1.1 中该模型的调研和相关应用经验分享出来,希望对相关使用人士带来帮助。 wide and deep 模型的框架在原论文的图中进行了很好的概述。 wide 端 对应的是线性模型,输入特征可以是 连续特征,也可以是稀疏的离散特征 , 离散特征之间进行交叉后可以构成更高维的离散特征 。线性模型训练中通过 L1 正则化,能够很快收敛到有效的特征组合中。 deep 端 对应的是 DNN 模型,每个特征对应一个低维的实数向量,我们称之为特征的 embedding

Python 爬虫七 Scrapy

雨燕双飞 提交于 2020-12-04 06:43:22
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下 Scrapy主要包括了以下组件: 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址 下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 爬虫(Spiders) 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面 项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体

python爬虫基础_scrapy

狂风中的少年 提交于 2020-12-04 04:52:07
其实scrapy想要玩得好,还是需要大量全栈知识的。scrapy 被比喻为爬虫里的django,框架和django类似。 安装: Linux/mac - pip3 install scrapy Windows: - 安装twsited a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted-xxxxx.whl - 安装scrapy d. pip3 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com - 安装pywin32 e. pip3 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 快速使用 Scrapy: 创建project: scrapy startproject test cd test scrapy genspider chouti chouti.com # 开爬命令 scrapy crawl chouti --nolog 爬虫文件 chouti.py # -*- coding

python-爬虫-scrapy

人盡茶涼 提交于 2020-12-04 04:51:54
入门: 下载:pip install scrapy 工程: scrapy startproject 工程名 Spider: scrapy genspider 爬虫名 url (--nolog// 可选不显示日志 ) 简介: 持久化存储: 1 :终端存储: scrapy crawl -o aaa.text 2 : 管道存储 :items 对象即穿过来的 {} 字典,之后存储 3 : open_spider()----> 链接数据库, close_spider()--> 关闭数据库, process_item()---> 存储 代理Ip: 1 自定义下载中间件 middleware.py---》 class MyProxy(object): def process_request(self,request,spider): # 请求ip 更换 request.meta['proxy'] = "http://202.112.51.51:8082" 2 开启下载中间件 DOWNLOADER_MIDDLEWARES = { 'firstBlood.middlewares.MyProxy': 543, } 日志等级: 1 ERROR :错误 WARNING :警告 INFO :一般信息 DEBUG :调试信息(默认) 指定日志信息等级 : settings:LOG_LEVEL = ‘ERROR

Python-PostgreSQL的使用

故事扮演 提交于 2020-12-04 04:10:51
一、安装PostgreSQL模块 yum install postgresql- devel pip3 install psycopg2 注意;安装时遇到 ./psycopg/psycopg.h:35:22: fatal error: libpq-fe.h: No such file or directory,如下图, 则执行该命令安装相关依赖: yum install postgresql-devel 二、数据库连接接口 由于Python统一了数据库连接的接口,所以psycopg2和 MySQLdb 在使用方式上是类似的: pymysql.Connect()参数说明 host(str): MySQL服务器地址 port(int): MySQL服务器端口号 user(str): 用户名 password(str): 密码 database(str): 数据库名称 connection对象支持的方法 cursor() 使用该连接创建并返回游标 commit() 提交当前事务 rollback() 回滚当前事务 close() 关闭连接 cursor对象支持的方法 execute(op) 执行一个数据库的查询命令 fetchone() 取得结果集的下一行 fetchmany(size) 获取结果集的下几行 fetchall() 获取结果集中的所有行 rowcount()

mysql查询操作之单表查询、多表查询、子查询

て烟熏妆下的殇ゞ 提交于 2020-12-04 02:32:00
一、单表查询 单表查询的完整语法: 1 、完整语法(语法级别关键字的排列顺序如下) select distinct 字段1,字段2,字段3,... from 库名.表名 where 约束条件 group by 分组依据 having 过滤条件 order by 排序的字段 limit 限制显示的条数 ; 必须要有的关键字如下: select * from t1; 分析之前先将其进行占位,需要什么在进行添加 关键字执行的优先级: from where group by having distinct order by limit 上面的关键字的执行的优先级可以用伪代码的形式写出来: 运行级别: def from (dir,file): open( ' %s\%s ' %(dir,file), ' r ' ) return f def where(f,pattern): for line in f: if pattern: yield line def group(): pass def having(): pass def distinct(): pass def order(): pass def limit(): pass def select(): f = from () res1 = where(f) res2 = group(res1) res3 = having(res2