维度

Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction论文笔记

て烟熏妆下的殇ゞ 提交于 2020-01-07 14:12:07
四个INOUT.h5文件 每一个h5文件有两个子集: ' date ':与**data**关联的时间段列表。 “data”:一个4D的形状张量(number_of_timeslots, 2,32,32),其中“data[i]”是一个时间块“date[i]”的形状三维张量(2,32,32),“data[i][0]”是一个“32x32”的流入矩阵,“data[i][1]”是一个“32x32”的流出矩阵。 文件名称:“BJ_Meteorology.h5’,它有以下四个子集: *“日期”:一个时间段列表,它与以下类型的数据相关联。 *“温度”:连续值的列表,其中“i^{th}”值是“日期[i]”的分时段“温度”。 *“风速”:连续值的列表,其中“i^{th}”值是“日期[i]”处的“风速”。 *“天气”:2D矩阵,每一个都是一个热向量(“dim=17”),显示以下天气类型之一: Sunny = 0, Cloudy = 1, Overcast = 2, Rainy = 3, Sprinkle = 4, ModerateRain = 5, HeavyRain = 6, Rainstorm = 7, Thunderstorm = 8, FreezingRain = 9, Snowy = 10, LightSnow = 11, ModerateSnow = 12, HeavySnow = 13,

一个 Blink 小白的成长之路

无人久伴 提交于 2020-01-03 14:27:50
写在前面 写过blink sql的同学应该都有体会,明明写的时候就很顺滑,小手一抖,洋洋洒洒三百行代码,一气呵成。结果跑的时候,吞吐量就是上不去。导致数据延迟高,消息严重积压,被业务方疯狂吐槽。这时候,老鸟就会告诉你,同学,该优化优化你的代码了,再丢过来一个链接,然后留下一脸懵逼的你。笔者就是这么过来的,希望本文能帮助到跟我有过同样困惑,现在还一筹莫展的同学。 背景故事 先说一下相关背景吧,笔者作为一个刚入职阿里的小白,还处在水土不服的阶段,就被临危受命,改造数据大屏。为什么说临危受命呢,首先是此时距双十一仅剩一个月,再者,去年的双十一,这个大屏刚过零点就出现问题,数据一动不动,几个小时后开始恢复,但仍然延迟严重。此前,笔者仅有的实时计算开发经验是storm,用的是stream API,对于blink这种sql式的API完全没接触过。接到这个需求的时候,脑子里是懵的,灵魂三问来了,我是谁?我即将经历什么?我会死得有多惨?不是“此时此刻,非我莫属”的价值观唤醒了我,是老大的一句话,在阿里,不是先让老板给你资源,你再证明你自己,而是你先证明你自己,再用结果赢得资源,一席话如醍醐灌顶。然后就开始了一段有趣的故事~ 压测血案 要找性能问题出在哪儿,最好的方法就是压测。这里默认大家都对节点反压有一定的了解,不了解的请先移步 典型的节点反压案例及解法 。 一开始是跟着大部队进行压测的

Numpy学习笔记(二)

余生长醉 提交于 2020-01-03 02:18:40
(1)NumPy - 切片和索引 l ndarray对象中的元素遵循基于零的索引。 有三种可用的索引方法类型: 字段访问,基本切片和高级索引。 l 基本切片 Python 中基本切片概念到 n 维的扩展。切片只是返回一个观图。 l 如果一个ndarray是非元组序列,数据类型为整数或布尔值的ndarray,或者至少一个元素为序列对象的元组,我们就能够用它来索引ndarray。高级索引始终返回数据的副本。 有两种类型的高级索引:整数和布尔值。 整数索引实例 import numpy as np x = np.array([[1, 2], [3, 4], [5, 6]]) y = x[[0,1,2], [0,1,0]] print y 输出如下:[1 4 5] 布尔索引实例 import numpy as np a = np.array([np.nan, 1,2,np.nan,3,4,5]) print a[~np.isnan(a)] 输出如下[ 1. 2. 3. 4. 5.] (2)NumPy广播 广播是指 NumPy 在算术运算期间处理不同形状的数组的能力。 如果两个阵列具有完全相同的形状,则这些操作被无缝执行。如果两个数组的维数不相同,则元素到元素的操作是不可能的。 然而,在 NumPy 中仍然可以对形状不相似的数组进行操作,因为它拥有广播功能。 较小的数组会 广播

Pytorch框架应用系列 之 BPNet 4-2:全连接层到矩阵计算!FC近在眼前!

核能气质少年 提交于 2020-01-01 17:05:27
专题介绍及文章命名 2020年第一更!!祝愿大家新年快乐!撸起袖子加油干!越是艰险越向前!! 专题介绍在此!希望各位读者对这个专题的各篇博客定位有全局性质的把握~~ 再次提醒:该系列专题不涉及网络细节讲解,仅限于 工程实现 与 框架学习 。想更多了解该专题内容请点击上文专题介绍链接。 该专题中,文章命名方式为: Pytorch框架应用系列 之 《项目名称》 《总章节-当前章节》:《当前章节项目名称》 BP网络专题综述在此!想了解BP网络章节的文章构成?点击此处! 目录 一. 任务模型展示 二. 函数讲解   2.1 全连接层扛把子:torch.nn.Linear    2.1.1 函数的定义及参数功能    2.1.2 函数的数学表达与数据格式 《子任务章节》    2.1.3 函数的调用实例   2.2 激活函数:torch.nn.Sigmoid    2.2.1 函数的定义及参数功能    2.2.2 函数的调用实例   2.3 网络结构容器:torch.nn.Sequential    2.3.1 函数的定义及参数功能    2.3.2 函数的调用实例 三. 专题及章节位置信息查询 一. 任务模型展示 二. 函数讲解 2.1 全连接层扛把子:torch.nn.Linear; 注:明星函数 2.1.1 函数的定义及参数功能 首先我们先来看看官方的完整定义:

【datamining】OLTP,OLAP,维度数据库,事实表,维度表、星形和雪花模式、数据立方体、概念分层

六月ゝ 毕业季﹏ 提交于 2020-01-01 00:55:16
一、 联机事务处理(OLTP) OLTP系统是设计用来允许高并发性的,这样很多用户就能够访问同一个数据源并进行所需的处理。 OLTP系统是面向在数据库上进行事务处理的理念的。而事务则进一步蕴含着发生在表中数据上的受控的变更,这些变更包括在商务运作过程中发生的插入、更新和删除操作。通常,一个OLTP系统将会有大量的客户端应用程序通过各种各样的方式(插入、更新、删除--实际上可以是任何操作)访问数据库以查询一小块信息。 OLTP系统的实例包括数据输入程序,如银行处理、订票、联机销售和库存管理系统。 二、联机分析处理(OLAP) 联机分析处理(或OLAP)是一种广义上的决策支持系统(DSS),或者最近越来越流行的商业智能(BI)。BI系统的目标是分析海量数据,然后以很多不同的方式(包括每天、每周、每季和年度报告)生成小结和总结以把精力高度集中在记分卡和仪表盘上,它们通常用于帮助那些准备好根据这些数据采取一定的措施的特定用户来获取竞争优势。 一旦数据进入数据仓库之后就很少会发生变化。数据被保存在那里用于查询和生成报表,以便帮助决策者规划企业的未来。它不需要关心插入、更新和删除操作。因此与高度规范的事务数据库不同,在这种情况下通常会使用所谓的 维度数据库 (dimensional database) ,它将遵循特定的结构或模式。 维度数据库可以用来构建数据立方体 ,

BI学习之一创建一个简单的Olap多维数据集的展现

心已入冬 提交于 2020-01-01 00:54:59
项目背景   '博客园'是一家国内的大型日化用品,生活用品生产,销售公司,它的一部分销售是放在淘宝网上进行的,在淘宝网上这家公司有多个网店,线下有系统对每个网店的销售数据通过淘宝API进行抓取保存,用于每周,月出销售情况的报表.由于报表设计到多个方面, 每一次有新的搭配或者比较的话就必须让程序人员修改代码,增加修改报表的内容 .现在,'博客园'想通过数据分析人员自己来控制想得到的数据报表, 想到什么,得到什么 ,并且能 多角度,多层面 的对数据进行分析. 使用BI数据分析与传统报表的比较      从上面这个比较图可以看出,右边的olap数据展示的话,操作者可以通过手动拖拽树中的度量值,KPI,维度使右边图片及表格动态变化,图片和表格能根据自己的需求进行点击(钻取)查看得到更细的,想要关注的报表,我们可以看到,olap数据分析让我们知道了目前是这样,还能知道为什么是这样,以及以往到如今,甚至未来的发展趋势 BI中的基本概念介绍(结合Analysis Services) 维度(Dimension) :   维度理解为数据的属性,是我们分析数据的角度,比如分析公司在全国各地的各种商品的销售情况,那么商品类别,地区,店铺等就是维度,维度中包含层级,比如说地区,省和省(湖北省,湖南省..)之间就是 水平层及 ,省下面有市和县等,比如湖北省->恩施市->来凤县,这就是 垂直层级

Kylin 在一点资讯的实践

筅森魡賤 提交于 2019-12-28 10:14:34
在近期的 Apache Kylin Meetup 北京站上,我们邀请到了一点资讯的大数据平台高级工程师毛洪玥来分享 Kylin 在一点资讯的应用。本次分享由一点资讯 OLAP 发展历程和系统基础架构开始,以 Kylin 在一点资讯的业务需求和实践经验为依托,分享针对数据量较大的Cube如何提高查询响应速度,如何缩短构建时间,如何缓解 HBase 压力来提升稳定性,及使用过程中遇到的特殊数据问题与解决方案等。 发展历程 2016 年 9 月开始,一点资讯选择了综合性能优秀的 Druid 来承接大数据部门、算法部门和广告部门的多维分析查询需求。2017 年 9 月,接入刚刚开源的 Doris,承接明细查询和 SQL 分析业务。 至今年 5 月,随着业务增长和数据积累,冷数据占比增高,机器利用率降低。大部分数据月查询次数不超过 1 次,却需要长期存储,因而造成大量机器资源浪费。如何提高有限资源的利用率,支持维度高达 27 个,日志量达 1 T/天,查询周期长达 1 年的业务呢?经过一系列调研,一点资讯决定使用 Kylin 系统。Kylin 支持Hive、Kafka等形式的数据源,Cube存储及查询使用HBase,构建任务可以利用运行在Yarn上的MapReduce或Spark任务,这些都是一点资讯使用中的大数据组件,它们的存储计算均为PB级或以上级别,只需要再搭建轻量级 Kylin

Numpy 基础知识

匆匆过客 提交于 2019-12-26 14:59:54
   1、使用ipython --pylab 自动加载 Numpy、Scipy、Matplotlib模块。 创建数组 a = arange(10) b = arange(10,dtype='f') c = arange(10,dtype=inti) 创建多维数组 b = array([arange(3),arange(3)]) 使用array创建数组时,默认指定了数据类型——浮点型 c = array([[1,2],[3,4]])(创建的是2维数组) b = arange(10).reshape(2,5) 查看数组数据类型 a.dtype 查看数组每个维度的大小(是元组形式,每个数字代表一个维度内元素的个数。几个数字代表几维) a.shape 查看数组维度个数 a.ndim 数组元素个数 a.size 数组单个元素在内存中所占大小 a.itemsize 整个数组所占大小 a.nbytes 查看单个元素所占字节数 a.dtype.itemsize 转置数组 a.T 效果和 transpose()一样 复数数组中元素的实部 b.real 复数数组中元素的实部 b.imag 遍历数组元素 b.flat 会生成一个flatiter对象。是一个可迭代对象。可以迭代访问数组内的元素。 b.flat[2] 直接获取元素 b.flat[1,4] b.flat = 7 直接导致所有数组内元素值的改变

Sqlserver存储过程生成日期维度

浪尽此生 提交于 2019-12-25 18:22:50
话不多说,之前已经有一篇日志是利用oracle的存储过程生成日期维度表,接下来我们就用sqlserver来实现这个操作,如下面的步骤所示 1:创建日期维度表(Dim_time) USE [DW] GO /****** Object: Table [dbo].[Dim_time] Script Date: 12/19/2015 15:29:26 ******/ SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO CREATE TABLE [dbo].[Dim_time]( [the_date] [int] NOT NULL, [date_name] [nvarchar](30) NULL, [the_year] [int] NULL, [year_name] [nvarchar](30) NULL, [the_quarter] [int] NULL, [quarter_name] [nvarchar](30) NULL, [the_month] [int] NULL, [month_name] [nvarchar](30) NULL, [the_week] [int] NULL, [week_name] [nvarchar](30) NULL, [week_day] [int] NULL, [week_day_name]