def | 易学教程

Hive性能调优实战

阅读更多关于 Hive性能调优实战

https://search.jd.com/Search?keyword=hive%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E5%AE%9E%E6%88%98&enc=utf-8&suggest=2.def.0.V10--38s0&wq=Hive&pvid=7a052c1448af4cd5bfe7fe9730bbb110 来源： oschina 链接： https://my.oschina.net/osenlin/blog/4518833

Mask-RCNN:教你如何制作自己的数据集进行像素级的目标检测

阅读更多关于 Mask-RCNN:教你如何制作自己的数据集进行像素级的目标检测

概述 Mask-RCNN,是一个处于像素级别的目标检测手段.目标检测的发展主要历程大概是：RCNN,Fast-RCNN,Fster-RCNN,Darknet,YOLO,YOLOv2,YOLO3（参考目标检测：keras-yolo3之制作VOC数据集训练指南）,Mask-RCNN.本文参考的论文来源于 https://arxiv.org/abs/1703.06870 . 下面，开始制作用于Mask训练的数据集。首先展示一下成果，由于个人设备有限，cpu仅迭代5次的结果。使用labelme进行图片标注注意：　　**标注之前将图片的名字通过linux或者python脚本改名，改为有序即可，我的命名格式为升序，下面为linux脚本。 i= 1 ; for x in *; do mv $x $i.png; let i=i+ 1 ; done 　　**将所有图片的尺寸改为 600*800 .(一般设置为2的整数次幂，否则，后序训练时会报错). 脚本自取 https://github.com/hyhouyong/Mask-RCNN/blob/master/train_data/resize.py pip install labelme labelme 1.新建文件夹train_data,并创建子文件夹json，将标注后的json格式的文件放入该文件夹中 2

python操作Excel读写--使用xlrd

阅读更多关于 python操作Excel读写--使用xlrd

一、安装xlrd模块到python官网下载 http://pypi.python.org/pypi/xlrd 模块安装，前提是已经安装了python 环境。二、使用介绍 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excelFile.xls') 3、使用技巧获取一个工作表 table = data.sheets()[0] # 通过索引顺序获取 table = data.sheet_by_index(0) # 通过索引顺序获取 table = data.sheet_by_name(u'Sheet1')# 通过名称获取获取整行和整列的值（数组）　　 table.row_values(i) table.col_values(i) 获取行数和列数　　 nrows = table.nrows ncols = table.ncols 循环行列表数据 for i in range(nrows ): print table.row_values(i) 单元格 cell_A1 = table.cell(0,0).value cell_C4 = table.cell(2,3).value 使用行列索引 cell_A1 = table.row(0)[0].value cell_A2 = table.col(1

Theano：LSTM源码解析

阅读更多关于 Theano：LSTM源码解析

最难读的Theano代码这份LSTM代码的作者，感觉和前面Tutorial代码作者不是同一个人。对于Theano、Python的手法使用得非常娴熟。尤其是在两重并行设计上： ①LSTM各个门之间并行 ②Mini-batch让多个句子并行同时，在训练、预处理上使用了诸多技巧，相比之前的Tutorial，更接近一个完整的框架，所以导致代码阅读十分困难。本文旨在梳理这份LSTM代码的脉络。数据集：IMDB Large Movie Review Dataset 来源该数据集是来自 Stanford 的一个爬虫数据集。对IMDB每部电影的评论页面的每条评论进行爬虫，分为正面/负面两类情感标签。相比于朴素贝叶斯用于垃圾邮件分类，显然，分析一段文字的情感难度比较大。因为语义在各个词之间连锁着，有些喜欢玩梗的负面讽刺语义需要一个强力的Represention Extractor。该数据集同时也在CS224D：Deep Learning for NLP [Leture4]中演示，用于体现Pre-Training过后的词向量威力。数据读取原始数据集被Bengio组封装过，链接 http://www.iro.umontreal.ca/~lisa/deep/data/imdb.pkl cPickle封装的格式如下： train_set[0] ----> 一个包含所有句子的二重列表

Python处理Excel的案例汇总（文末有福利）

阅读更多关于 Python处理Excel的案例汇总（文末有福利）

知乎上有个提问：用python进行办公自动化都需要学习什么知识呢？这可能是很多非IT职场人士面临的问题，想把python用到工作中，却不知如何下手？python在自动化办公领域越来越受欢迎，把简单的工作进行批量处理简直是加班族的梦想。 Python自动化办公（可能是B站内容最全的~）传送门：https://www.bilibili.com/video/BV1y54y1i78U 具体说来自动化办公excel、ppt、word、邮件、文件处理、数据分析处理、爬虫这些，这次就来分享一下python自动化办公的那些知识点~ python基础 excel自动化 · 案例收集 python基础能进行自动化办公的前提是会使用Python，最起码要熟悉基本语法，可以独立完成几十行代码的编写。对于python语法的要求，你可以对照下面这个python基础教程的部分查看需要学那些，找个免费视频教程跟着学，然后多敲代码练习。如果习惯看书的话，可以买本python入门书备查。关于python的基础语法，可以参考我之前推荐过的入门书籍和入门教程: 传送门 Python入门视频： Python入门23讲（获取方式） Python入门图书：畅销30万册的Python3编程入门教程语法主要内容基本数据类型不可变数据（3 个）：Number（数字）、String（字符串）、Tuple（元组）

强化学习（九）Deep Q-Learning进阶之Nature DQN

阅读更多关于强化学习（九）Deep Q-Learning进阶之Nature DQN

　　　　在强化学习（八）价值函数的近似表示与Deep Q-Learning 中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。　　　　本章内容主要参考了ICML 2016的 deep RL tutorial 和Nature DQN的论文。 1. DQN(NIPS 2013)的问题　　　　在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现，虽然它可以训练像CartPole这样的简单游戏，但是有很多问题。这里我们先讨论第一个问题。　　　　注意到DQN(NIPS 2013)里面，我们使用的目标Q值的计算方式：$$y_j= \begin{cases} R_j& {is\_end_j\; is \;true}\\ R_j + \gamma\max_{a'}Q(\phi(S'_j),A'_j,w) & {is\_end_j \;is\; false} \end{cases}$$ 　　　　这里目标Q值的计算使用到了当前要训练的Q网络参数来计算$Q(\phi(S'_j),A'_j,w)$，而实际上，我们又希望通过$y_j$来后续更新Q网络参数。这样两者循环依赖

使用LSTM-RNN建立股票预测模型

阅读更多关于使用LSTM-RNN建立股票预测模型

　　硕士毕业之前曾经对基于LSTM循环神经网络的股价预测方法进行过小小的研究，趁着最近工作不忙，把其中的一部分内容写下来做以记录。　　此次股票价格预测模型仅根据股票的历史数据来建立，不考虑消息面对个股的影响。曾有日本学者使用深度学习的方法来对当天的新闻内容进行分析，以判断其对股价正面性/负面性影响，并将其与股票的历史数据相结合，各自赋予一定的权重来对近日的股价进行预测 [1] 。该预测方法取得了一定的效果。　　而这里我没有引入消息面的影响，主要出于以下几点考虑：　　1.消息的及时性难以保证：很多时候，在一只股票的利好/利空消息出来之前，其股价已经有了较大幅度的增长/下跌。信息的不对称性导致普通群众缺乏第一手消息源。　　2.消息的准确性难以保证：互联网上信息传播速度极快，媒体之间经常会出现相互抄袭新闻的情况，而这种抄来的新闻(非原创新闻)往往没有经过严格的审核，存在着内容虚假，夸大宣传的可能性。一旦分析模型错用了某条谣言或真实性不高的新闻，很有可能得出错误的预测结果。　　3.语言的歧义性：一条新闻，其正面性/负面性往往存在着多种解读。例如“习主席宣布中国将裁军30万”——新华每日电讯2015.09.04。这条新闻一般意义上可以解读为：中央政府深入推进改革，精兵简政，大力发展国防军工事业。这是一种正面性的解读。而在使用机器学习模型时，如传统的奇异值分解算法(SVD)

Celery: retry装饰器

阅读更多关于 Celery: retry装饰器

celery retry装饰器使用场景保存任务结果到db 从db获取任务 celery 装饰器学习 @retry retry max_retries: 默认重试3次执行成功返回. 执行失败，重试max_retries. def retry(fun): @wraps(fun) def _inner(*args, **kwargs): max_retries = kwargs.pop('max_retries', 3) for retries in range(max_retries): try: return fun(*args, **kwargs) except (DatabaseError, InvalidRequestError, StaleDataError): logger.warning( 'Failed operation %s. Retrying %s more times.', fun.__name__, max_retries - retries - 1, exc_info=True) if retries + 1 >= max_retries: raise return _inner 来源： oschina 链接： https://my.oschina.net/tplinuxhyh/blog/4530475

详解 Python 的二元算术运算，为什么说减法只是语法糖？

阅读更多关于详解 Python 的二元算术运算，为什么说减法只是语法糖？

大家对我解读属性访问的博客文章反应热烈，这启发了我再写一篇关于 Python 有多少语法实际上只是语法糖的文章。在本文中，我想谈谈二元算术运算。具体来说，我想解读减法的工作原理：a - b。我故意选择了减法，因为它是不可交换的。这可以强调出操作顺序的重要性，与加法操作相比，你可能会在实现时误将 a 和 b 翻转，但还是得到相同的结果。查看 C 代码按照惯例，我们从查看 CPython 解释器编译的字节码开始。 >>> def sub(): a - b ... >>> import dis >>> dis.dis(sub) 1 0 LOAD_GLOBAL 0 (a) 2 LOAD_GLOBAL 1 (b) 4 BINARY_SUBTRACT 6 POP_TOP 8 LOAD_CONST 0 (None) 10 RETURN_VALUE 看起来我们需要深入研究 BINARY_SUBTRACT 操作码。翻查 Python/ceval.c 文件，可以看到实现该操作码的 C 代码如下： case TARGET(BINARY_SUBTRACT): { PyObject *right = POP(); PyObject *left = TOP(); PyObject *diff = PyNumber_Subtract(left, right); Py_DECREF(right); Py

Python百度图片批量下载器的空间复核岗dskjfhe

阅读更多关于 Python百度图片批量下载器的空间复核岗dskjfhe

Python百度图片批量下载器环境 Python 3.7.4 urllib3==1.25.10 re os 4 抓取页面 def crawlPages(self): pages = [] for i in range(0 , self.number): url = self.url + ('&pn=%d' % i * self.offset) request = urllib.request.Request(headers = self.headers, url = url) response = urllib.request.urlopen(request) page = response.read().decode('utf-8') pages.append(page) return pages 提取图片URL 利用re库提取图片的URL，观察获取的页面，选择正则表达式为self.pattern = re.compile(r'"hoverURL":"(.*?)", "pageNum"', re.S) def extractLinks(self, pages): linkList = [] for page in pages: links = re.findall(self.pattern, str(page)) for link in links: if link is

订阅 def