def | 易学教程

aiohttp爬虫的模板，类的形式

阅读更多关于 aiohttp爬虫的模板，类的形式

1 import asyncio 2 import aiohttp 3 import async_timeout 4 from lxml import html 5 from timeit import default_timer as timer 6 7 from db import DBData 8 9 10 class Crawler: 11 def __init__ (self, ** kwargs): 12 self.domains = kwargs[ " domains " ] 13 self.max_depth = kwargs[ " max_depth " ] 14 self.max_retries = 3 15 self.max_workers = 10 16 self.Q = asyncio.Queue() 17 self.db_Q = asyncio.Queue() 18 self.cache = set() 19 self.count = 0 20 self.loop = asyncio.get_event_loop() 21 self.db_data = DBData() 22 23 # Clear 24 self.db_data.clear_crawler() 25 26 async def get(self, url, timeout): 27

Google Object detection配置与使用

阅读更多关于 Google Object detection配置与使用

Google Object detection 前言：本文记录了使用Google发布的Object detection(July 1st, 2019)接口，完成了对标注目标的检测。参考了很多博文，在此记录配置过程，方便之后的再次调用。首先贴出完整的代码地址： https://github.com/tensorflow/models Tensorflow Object Detection API： https://github.com/tensorflow/models/tree/master/research/object_detection 一、环境配置参考网址： https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/installation.md 所有的环境都搭建在Anaconda创建的环境下在windows10和Ubuntu下我都进行了配置，下方的配置会注明操作系统的区别依赖包安装在上面参考网址上，已经明确给出了所需要的环境，直接用pip命令下载即可。 Protobuf 安装下载地址： https://github.com/google/protobuf/releases win： win10系统下载了 protoc-3.9.1-win64.zip

python-django(简单的小项目)

阅读更多关于 python-django(简单的小项目)

Django框架的第一个简单的小项目　　--1.在项目中的urls.py中添加对应的url映射路径　　　　在项目urls.py路由文件中添加路由 from django.conf.urls import url,include // 引入include模块 from django.contrib import admin # 定义路由引入usrs模块路由urls urlpatterns = [ 　　url(r ' ^admin/ ' , admin.site.urls), 　　url(r ' ^users/ ' , include( ' users.urls ' )) // 引入users应用中的urls.py文件 ] 　　--2.为了方便管理每一个应用，建议在不同应用中添加urls.py文件　　　　在users应用中创建单独的urls.py路由文件　　　　　#导入路由模块　　　　　添加如下代码： from django.conf.urls import url # 从当前的目录内导入视图文件 from . import views urlpatterns = [ url(r ' ^$ ' ,views.hello), ] 　　--3.在应用的views.py文件中添加如下代码：　　　　#从http模块导入响应模块 from django.http import

TensorFlow Wide And Deep 模型详解与应用(一)

阅读更多关于 TensorFlow Wide And Deep 模型详解与应用(一)

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/heyc861221/article/details/80131369 作者简介：汪剑，现在在出门问问负责推荐与个性化。曾在微软雅虎工作，从事过搜索和推荐相关工作。责编：何永灿（heyc@csdn.net）本文首发于CSDN，未经允许不得转载。 Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型，并应用到了 Google Play 的应用推荐中 [1]。wide and deep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。结合我们的产品应用场景同 Google Play 的推荐场景存在较多的类似之处，在经过调研和评估后，我们也将 wide and deep 模型应用到产品的推荐排序模型，并搭建了一套线下训练和线上预估的系统。鉴于网上对 wide and deep 模型的相关描述和讲解并不是特别多，我们将这段时间对 TensorFlow1.1 中该模型的调研和相关应用经验分享出来，希望对相关使用人士带来帮助。 wide and deep

Wide and deep 模型【一】

阅读更多关于 Wide and deep 模型【一】

一、论文概述 Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型，并应用到了 Google Play 的应用推荐中 [1]。 wide and deep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。结合我们的产品应用场景同 Google Play 的推荐场景存在较多的类似之处，在经过调研和评估后，我们也将 wide and deep 模型应用到产品的推荐排序模型，并搭建了一套线下训练和线上预估的系统。鉴于网上对 wide and deep 模型的相关描述和讲解并不是特别多，我们将这段时间对 TensorFlow1.1 中该模型的调研和相关应用经验分享出来，希望对相关使用人士带来帮助。 wide and deep 模型的框架在原论文的图中进行了很好的概述。 wide 端对应的是线性模型，输入特征可以是连续特征，也可以是稀疏的离散特征，离散特征之间进行交叉后可以构成更高维的离散特征。线性模型训练中通过 L1 正则化，能够很快收敛到有效的特征组合中。 deep 端对应的是 DNN 模型，每个特征对应一个低维的实数向量，我们称之为特征的 embedding

Python 爬虫七 Scrapy

阅读更多关于 Python 爬虫七 Scrapy

Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下 Scrapy主要包括了以下组件：引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 爬虫(Spiders) 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体

python爬虫基础_scrapy

阅读更多关于 python爬虫基础_scrapy

其实scrapy想要玩得好，还是需要大量全栈知识的。scrapy 被比喻为爬虫里的django，框架和django类似。安装： Linux/mac - pip3 install scrapy Windows: - 安装twsited a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twisted-xxxxx.whl - 安装scrapy d. pip3 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com - 安装pywin32 e. pip3 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 快速使用 Scrapy：创建project: scrapy startproject test cd test scrapy genspider chouti chouti.com # 开爬命令 scrapy crawl chouti --nolog 爬虫文件 chouti.py # -*- coding

python-爬虫-scrapy

阅读更多关于 python-爬虫-scrapy

入门：下载：pip install scrapy 工程： scrapy startproject 工程名 Spider: scrapy genspider 爬虫名 url (--nolog// 可选不显示日志 ) 简介：持久化存储： 1 ：终端存储： scrapy crawl -o aaa.text 2 : 管道存储 :items 对象即穿过来的 {} 字典，之后存储 3 ： open_spider()----> 链接数据库， close_spider()--> 关闭数据库， process_item()---> 存储代理Ip： 1 自定义下载中间件 middleware.py---》 class MyProxy(object): def process_request(self,request,spider): # 请求ip 更换 request.meta['proxy'] = "http://202.112.51.51:8082" 2 开启下载中间件 DOWNLOADER_MIDDLEWARES = { 'firstBlood.middlewares.MyProxy': 543, } 日志等级： 1 ERROR ：错误 WARNING ：警告 INFO ：一般信息 DEBUG ：调试信息（默认）指定日志信息等级： settings:LOG_LEVEL = ‘ERROR

Python-PostgreSQL的使用

阅读更多关于 Python-PostgreSQL的使用

一、安装PostgreSQL模块 yum install postgresql- devel pip3 install psycopg2 注意；安装时遇到 ./psycopg/psycopg.h:35:22: fatal error: libpq-fe.h: No such file or directory，如下图，则执行该命令安装相关依赖： yum install postgresql-devel 二、数据库连接接口由于Python统一了数据库连接的接口，所以psycopg2和 MySQLdb 在使用方式上是类似的： pymysql.Connect()参数说明 host(str): MySQL服务器地址 port(int): MySQL服务器端口号 user(str): 用户名 password(str): 密码 database(str): 数据库名称 connection对象支持的方法 cursor() 使用该连接创建并返回游标 commit() 提交当前事务 rollback() 回滚当前事务 close() 关闭连接 cursor对象支持的方法 execute(op) 执行一个数据库的查询命令 fetchone() 取得结果集的下一行 fetchmany(size) 获取结果集的下几行 fetchall() 获取结果集中的所有行 rowcount()

mysql查询操作之单表查询、多表查询、子查询

阅读更多关于 mysql查询操作之单表查询、多表查询、子查询

一、单表查询单表查询的完整语法： 1 、完整语法(语法级别关键字的排列顺序如下) select distinct 字段1,字段2,字段3,... from 库名.表名 where 约束条件 group by 分组依据 having 过滤条件 order by 排序的字段 limit 限制显示的条数 ; 必须要有的关键字如下： select * from t1; 分析之前先将其进行占位，需要什么在进行添加关键字执行的优先级： from where group by having distinct order by limit 上面的关键字的执行的优先级可以用伪代码的形式写出来：运行级别： def from (dir,file): open( ' %s\%s ' %(dir,file), ' r ' ) return f def where(f,pattern): for line in f: if pattern： yield line def group(): pass def having(): pass def distinct(): pass def order(): pass def limit(): pass def select(): f = from () res1 = where(f) res2 = group(res1) res3 = having(res2

订阅 def