维度

吹吹BI

折月煮酒 提交于 2019-12-06 15:21:45
我自己理解的BI环节: ETL:完成数据抽取转换并加载到数据仓库 数据分析:这里主要指基于数据集市的OLAP,使分析人员多角度理解数据,验证相应的假设 主要是在较高的汇总级别的。 数据挖掘:使用挖掘算法,获得深层次的数据洞察,发现数据中隐藏的有趣模式。 前端展示层:主要指报表,以各种图表(仪表盘,趋势图等方式),其数据可以来源于OLAP或者数据挖掘结果 BI应该是IT在企业级别应用上未来几年的发展方向,在企业完成了ERP,SAP之后,建设数据仓库和BI将是未来的主流。 29楼提到的几个环节基本cover了BI技术层面的要点;但是真正的BI,一定是以业务知识和工业实践为主导,best practice,business knowledge才是BI的核心。 未来几年将是BI的天下,大浪淘尽,最后屹立不倒的公司,一定有业务理解的独到之处;最后成为大牌专家的顾问,一定首先是业务专家 业务+模型!! 业务和技术都很重要哦,不懂业务就不明白客户管理者到底需要的是什么,该用什么方式展示。。。BI说到底还是为管理高层服务的。 BI程序员分2类:etl工程师,数据挖掘工程师 etl:你就要学好数据库,低端角色学好sql语句,高端角色学好sql DBA 数据挖掘:学好那10大算法的原理后,会用工具,会分析数据,分析业务(要求了解业务逻辑) 其实用sqlserver,还是用oracle,还是DB2

数据分析:Numpy

拟墨画扇 提交于 2019-12-06 08:40:40
Numpy 一.Numpy简介 二.Numpy使用 前提:安装和导入 jupyter notebook实例: 1.ndarray -多维数组对象 简介:通过ndarray这个多维数组对象可以让这些批量计算变得更加简单,当然这只它其中一种优势。 ndayyary多种创建方式 #1.np.array:将列表转换为数组,可选择显式指定dtype #第一种:np.array(列表) np.array([1,2,3,4,5]) #2.np.arange(数字) ### 类似于python的range版本 #第二种创建方式:np.arange(数字) ### 类似于python的range版本 #3.linspace:类似arange(),np.linspace(初始值,结束值, num=分割份数默认是50,endpoint=False是否包含结束值) 示例1: 示例2: #4.zero创建0数组:np.zeros((维度数默认为1,每个列表元素数)) 示例1: 示例2: #4.zero创建1数组:np.zeros((维度数默认为1,每个列表元素数)) 示例1: 示例2: #5.empty:根据指定形状和dtype创建空数组(随机值):np.empty(维度数默认为1,每个列表元素数) 示例1: 示例2: #6.eye:根据指定边长和dtype创建单位矩阵:np.eye(维度数和每个列表元素数

对Attention is all you need 的理解

南楼画角 提交于 2019-12-05 22:13:56
本文参考的原始论文地址: https://arxiv.org/abs/1706.03762 谷歌昨天在arxiv发了一篇论文名字教Attention Is All You Need,提出了一个只基于attention的结构来处理序列模型相关的问题,比如机器翻译。传统的神经机器翻译大都是利用RNN或者CNN来作为encoder-decoder的模型基础,而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式,并没有用任何CNN或者RNN的结构。该模型可以高度并行地工作,所以在提升翻译性能的同时训练速度也特别快。 以下是谷歌Transformer的结构示意图。 模型分为编码器和解码器两个部分,编码器由6个相同的层堆叠在一起,每一层又有两个支层。第一个支层是一个多头的自注意机制,第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接,然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是 d m o d e l = 512 //--> . 模型的解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层,解码器还加入了第三个支层,如图中所示同样也用了residual以及layer normalization。具体的细节后面再讲。

pytorch: Tensor 常用操作

大兔子大兔子 提交于 2019-12-05 21:16:49
pytorch: Tensor 常用操作 torch.tensor是一个包含多个同类数据类型数据的多维矩阵。 常用参数 dtype : tessor的数据类型,总共有八种数据类型。其中默认的类型是 torch.FloatTensor ,而且这种类型的别名也可以写作 torch.Tensor 。 Data type dtype CPU tensor GPU tensor 32-bit floating point torch.float32 or torch.float torch.FloatTensor torch.cuda.FloatTensor 64-bit floating point torch.float64 or torch.double torch.DoubleTensor torch.cuda.DoubleTensor 16-bit floating point torch.float16 or torch.half torch.HalfTensor torch.cuda.HalfTensor 8-bit integer (unsigned) torch.uint8 torch.ByteTensor torch.cuda.ByteTensor 8-bit integer (signed) torch.int8 torch.CharTensor torch.cuda

Pytorch Tensor的索引与切片

你离开我真会死。 提交于 2019-12-05 21:11:03
1. Pytorch风格的索引 根据Tensor的shape,从前往后索引,依次在每个维度上做索引。 示例代码: import torch a = torch.rand(4, 3, 28, 28) print(a[0].shape) #取到第一个维度 print(a[0, 0].shape) # 取到二个维度 print(a[1, 2, 2, 4]) # 具体到某个元素 上述代码创建了一个shape=[4, 3, 28, 28]的Tensor,我们可以理解为4张图片,每张图片有3个通道,每个通道是28x28的图像数据。a代表这个Tensor,a后面跟着的列表[]表示对Tensor进行索引,a的维度dim = 4,决定了[]中的元素个数不能超过4个,[]中的值表示对应维度上的哪一个元素,比如 a[0]表示取第一个维度上的第一个元素,可以理解为第一张图片,a[1]表示取第一个维度上的第二个元素,可以理解为第二张图片。a[0, 0]表示取第一个维度上第一个元素的与第二个维度上的第一个元素,也就是第一张图片第一个通道的元素。a[1, 2, 2, 4]表示取第第一个维度上的第二个元素与第二个维度上的第三个元素与第三个维度上的第三个元素与第四个维度上的第5个元素,也就是第二张图片第三个通道第三行第四列的像素值是一个标量值。 输出结果: torch.Size([3, 28, 28]) torch

安全的边界在哪里

那年仲夏 提交于 2019-12-05 15:26:43
安全的边界在哪里? 信息安全是什么,信息安全的边界又在哪里。 1、加密是为了安全,但是即使在过去很复杂且所谓不可逆(在当时的条件下)的加密,现在也有了可解密的方法,更别谈可解密的加密。 2、区块链的出现,很大程度上提高了安全系数,但也仅仅是提升了安全系数;在量子计算的世界里,区块链又像是婴儿一样容易被暴力针对,更别谈区块链也有坏区的可能(参考“历史是由胜利者书写的”)。 3、量子计算的出现,又可以提升安全等级,注意,量子计算提升了安全的等级;可这也并不是安全的边界,在时间的流逝里,量子计算也会成土成埃。 4、安全的边界里,需要引入时间的概念,因为时间是可知范围内,最不可逆的东西;但是时间在信息里是可以被定义的,所以需要量子计算和区块链中引入时间的概念。 5、破坏是时间也无法逆转的非安全因素(所以在2里并未引入以太坊和基因链),这里可以参考地球的几次严重毁灭(按照学者的理论,这里叫地球的毁灭),所以时间也不是安全的边界。 6、破坏是单点的,也可能是多点的,我们要以时间为基础,再加上“联系”,至少在能预见的时间里,这种“联系”无法被完全摧毁,所以我们需要“联系”,引入地球之外的“东西”。 7、“联系”不能被联系的作用者看到,否则也会导致破坏的发生,这大概是人类暂时找不到其他星系文明的原因,我们没办法破坏地球之外的“联系”。 8、地球之外的星系文明,在现阶段没有被发现的可能

Kylin 精确去重在用户行为分析中的妙用

无人久伴 提交于 2019-12-05 14:49:26
作者:史少锋,Apache Kylin committer & PMC,2019/10/11 在上次文章 《如何在 1 秒内做到大数据精准去重》 中,我们介绍了 Apache Kylin 为什么要支持大数据集上的精确去重,以及基于 Bitmap 的精确去重原理等。看到今天的文章标题,你肯定要问,精确去重跟用户行为分析又能有什么关系呢?原来啊,Kylin 采用 Bitmap 完整记录了每个维度组合下的用户集合,利用 Bitmap 提供的或(or)运算方法来高效精准地回答了各种条件下的去重用户数。其实 Bitmap 除了支持或(or)运算外,还支持与(and)运算。因此,稍加扩展,Kylin 就可以基于 Bitmap 的中间结果,轻松实现诸如留存、漏斗等大量使用交集运算的分析,从而非常方便地运用在用户行为、用户画像等领域中。可以说精确去重功能有着一石两鸟的价值,本文将为您介绍如何使用 Kylin 来实现精准的用户行为分析。 示例 先从一个简单的例子说起吧。现在有一个 app 的用户访问记录表 access_log,它包含三个字段:DT (访问日期),User ID(用户标示)和 Page(访问页): DT User ID Page 20190101 100 index.html 20190101 101 search.html 20190101 102 detail.html … …

DCGAN论文笔记+源码解析

筅森魡賤 提交于 2019-12-05 08:26:04
论文地址: UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS 源码地址: DCGAN in TensorFlow DCGAN,Deep Convolutional Generative Adversarial Networks是生成对抗网络(Generative Adversarial Networks)的一种延伸,将卷积网络引入到生成式模型当中来做无监督的训练,利用卷积网络强大的特征提取能力来提高生成网络的学习效果。 DCGAN有以下特点: 1.在判别器模型中使用strided convolutions来替代空间池化(pooling),而在生成器模型中使用fractional strided convolutions,即deconv,反卷积层。 2.除了生成器模型的输出层和判别器模型的输入层,在网络其它层上都使用了Batch Normalization,使用BN可以稳定学习,有助于处理初始化不良导致的训练问题。 3.去除了全连接层,而直接使用卷积层连接生成器和判别器的输入层以及输出层。 4.在生成器的输出层使用Tanh激活函数,而在其它层使用ReLU;在判别器上使用leaky ReLU。 原论文中只给出了在LSUN实验上的生成器模型的结构图如下:

DCGAN论文笔记+源码解析

血红的双手。 提交于 2019-12-05 07:58:14
DCGAN论文笔记+源码解析 论文地址: UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS 源码地址: DCGAN in TensorFlow DCGAN,Deep Convolutional Generative Adversarial Networks是生成对抗网络(Generative Adversarial Networks)的一种延伸,将卷积网络引入到生成式模型当中来做无监督的训练,利用卷积网络强大的特征提取能力来提高生成网络的学习效果。 DCGAN有以下特点: 1.在判别器模型中使用strided convolutions(跨步卷积)来替代空间池化(pooling),而在生成器模型中使用fractional strided convolutions,即deconv,反卷积层。 2.除了生成器模型的输出层和判别器模型的输入层,在网络其它层上都使用了Batch Normalization,使用BN可以稳定学习,有助于处理初始化不良导致的训练问题。 3.去除了全连接层,而直接使用卷积层连接生成器和判别器的输入层以及输出层。 4.在生成器的输出层使用Tanh激活函数,而在其它层使用ReLU;在判别器上使用leaky ReLU。

[转帖]OLAP引擎这么多,为什么苏宁选择用Druid?

限于喜欢 提交于 2019-12-05 05:51:02
OLAP引擎这么多,为什么苏宁选择用Druid? 原创 51CTO 2018-12-21 11:24:12 【51CTO.com原创稿件】随着公司业务增长迅速,数据量越来越大,数据的种类也越来越丰富,分析人员对数据处理的响应延时要求也越来越高,传统的大数据处理工具已经无法满足业务的需求。 https://www.toutiao.com/a6637282053438046734/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1&timestamp=1545368509&app=news_article&utm_source=weixin&iid=52835443443&utm_medium=toutiao_android&group_id=6637282053438046734 请处理一下. 特别是 OLAP 分析场景,需要对各种维度和度量进行上卷、下钻、切片和切块分析,并要求分析结果能够实时返回。 因此我们调研和对比了一些目前主流的 OLAP 分析工具,针对聚合计算的实时分析,我们引入了开源分析工具 Druid。 Druid 介绍 说起 Druid,大家首先想到的是阿里的 Druid 数据库连接池,而本文介绍的 Druid 是一个在大数据场景下的解决方案,是需要在复杂的海量数据下进行交互式实时数据展现的 BI