空间维度

小诀窍:不妨尝试从交付质量上打败对手

╄→尐↘猪︶ㄣ 提交于 2019-12-03 23:56:00
小诀窍:不妨尝试从交付质量上打败对手 关于作者:小姬,某知名互联网公司产品专家,对数据采集、生产、加工有所了解,期望多和大家交流数据知识,以数据作为提出好问题的基础,发觉商业价值。 0x00 前言 我将整理文章分享数据工作中的经验,因为业务内容上的差异,可能导致大家的理解不一致,无法体会到场景中的诸多特殊性,不过相信不断的沟通和交流,可以解决很多问题。今天我们首先分析一下 职场基本功,为什么要重视需求质量,常见的数据需求文档改怎么写。 以下,Enjoy: 0x01 为什么要重视需求质量 如果想快速的提高自己,但是不知道从哪里开始,不妨尝试从工作中将最为常见的需求文档质量提高,相信我,一份有优秀的需求文档,就可以让你打败了大多数的数据同行。 为什么要重视需求质量 PRD是产品经理最直接,最重要的交付物; PRD的功底最容易体现专业能力,依靠逻辑和描述能力,直观反映产品思路; PRD曝光次数较高,是最佳的印象产品,产品的开发依赖技术人员,PRD的设计才是产品人员的核心; 最佳赢得口碑,给人以靠谱的感觉的交付物; 锻炼编导能力,梳理思维逻辑,提高业务水平的最好方式。 我的数据需求产品文档主要有: 项目背景 、 项目范围 、 目标收益 、 需求详述 、 交互原型 、 功能说明 、 校验测试 七大模块。在实际的工作场景中会根据情况做调整,基本情况下形成自身的特点(产品文档规范)

pytorch基础

回眸只為那壹抹淺笑 提交于 2019-12-03 09:34:23
基本数据类型和tensor 1 import torch 2 import numpy as np 3 4 #array 和 tensor的转换 5 array = np.array([1.1,2,3]) 6 tensorArray = torch.from_numpy(array) #array对象变为tensor对象 7 array1 = tensorArray.numpy()#tensor对象变为array对象 8 print(array,'\t', tensorArray, '\t', array1 ) 9 10 #torch拥有和numpy一样的处理数据的能力 11 print(torch.sin(tensorArray)) 12 print(np.ones([2,5]))#两行五列 13 print(np.ones(2))#一行两个数字 14 a = torch.randn(2, 3)#两行三列的正态分布 15 print(a) 16 print(a.size(0),a.size(1),a.shape[1])#2,3,3 0代表行,1代表对应的列数 17 print(a.shape)#torch.Size([2,3]) 18 print(a.type())#torch.FloatTensor 19 isinstance(a, torch.DoubleTensor)

kaldi中特征变换

匿名 (未验证) 提交于 2019-12-03 00:22:01
简介 Kaldi 目前支持多种特征和模型空间的变换与映射。特征空间变换和映射通过工具来处理(本质上就是矩阵),以下章节将介绍: 全局线性或仿射变换 说话人无关或单一说话人( per-speaker )或者( per-utterance )单一句子自适应 句子-说话人( Utterance-to-speaker )和说话人-句子( speaker-to-utterance )映射 组合变换 估计变换时的静音权重 变换,投影或者其他没有特定说话人的特征操作包括: 线性判别性分析(LDA) 帧拼接和差分特征计算 异方差的线性判别性分析(HLDA) 全局半协方差/最大似然线性变换 全局变换主要通过说话人自适应的方式应用: 全局GMLLR/fMLLR变换 线性声道长度归一化 指数变换 谱均值和方差归一化 下面我们将介绍回归树以及用到回归树的变换: 为自适应构建回归类树 全局线性或仿射特征变换 Matrix<BaseFloat> The Tableconcept )中。 变换可以通过程序transform-feats应用于特征上,语法如下 Specifying Tableformats: wspecifiers and rspecifiers Extendedfilenames: rxfilenames and wxfilenames ).这个程序通常用于管道的一部分。

构建饿了么销售端与商家端的数据分析服务

匿名 (未验证) 提交于 2019-12-03 00:14:01
构建饿了么销售端与商家端的数据分析服务 今年8月,销售侧需要开始进行数据作战,我在支援销售侧业务的时候发现数据分析服务现状比较低效&不准,便和leader谈了我的想法与设计,自动请缨干这个事情,最后和总监过下方案,做一个通用的数据服务出来。这个项目我组了个小团队做到11月份,因为组织架构变更问题与领域拆分,业务移交到其他组。年底总结,写下此文,记下当时做事的思路与历程。 每一个数据分析页面的需求过来,都需要经历开发在数据仓库中聚合各种数据推到mysql,在写接口读mysql数据。然后前后端联调,测试验收。 存在两个问题:1.重复开发;2.数据口径不一致;3.每次都新写代码,代码越多bug越多,数据测试也不过关。 销售侧各个层级的经理与销售人员需要看其销售数据,基本需求如下: 查看维度:组织架构、BD、店铺、网格 时间维度:昨天、前天、最近一周、上周、本月、上月、最近30天、前30天 业务筛选聚合维度:店铺的各种标签 数据量大,算60天订单,sum类聚合运算需提前算好 标签组合太多 与产品确认好聚合维度,固定住可以不变的 各种标签筛选、排序、算商户数都可以支持 与ER建模方法不同,数据建模不以实体为要,以维度为核心,进行维度建模。 1.根据业务定好维度,设计星形模型(即维度模型),做到算的快可复用 2.针对服务层做语义化接口,类似于ES client API。 以订单管理的需求

numpy的基本使用(一)

匿名 (未验证) 提交于 2019-12-03 00:06:01
numpy概述 numpy(Numerical Python)提供了python对多维数组对象的支持: ndarray ,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 NumPy支持比Python更多种类的数值类型。NumPy数值是 dtype (数据类型)对象的实例,每个对象具有唯一的特征。 创建ndarray数组 ndarray :N维数组对象(矩阵),所有元素必须是相同类型。 ndarray属性:ndim属性,表示维度个数;shape属性,表示各维度大小;dtype属性,表示数据类型。 ndarray 内部由以下内容组成: 一个指向数据(内存或内存映射文件中的一块数据)的指针。 数据类型或 dtype,描述在数组中的固定大小值的格子。 一个表示数组形状(shape)的元组,表示各维度大小的元组。 一个跨度元组(stride),其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。 数组创建函数 创建一个 ndarray 只需调用 NumPy 的 array 函数 即可: numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0) 参数说明: import numpy as np

用易观方舟预置的指标体系来进行用户行为分析

匿名 (未验证) 提交于 2019-12-02 23:43:01
作者:易观数字营销经理 赵岩 易观方舟预定义指标,指的是易观方舟在开始使用之后,不用进行埋点,初始化就可以得到的数据,这样的一系列指标就形成了方舟独特的指标体系。易观方舟预定义维度指的是初始化默认的细分维度。 预定义指标: 访问级指标,事件级指标,用户级指标。 预定义维度: 设备维度,地域维度,用户来源。 下面我们将分别介绍上述预定义指标体系和预定义维度的具体含义以及应用场景。 12个访问级指标(仅限Web): 实际应用举例: (一)通过访问级指标,进行应用状态监测 在易观方舟为客户预置的指标体系中,访问级指标是非常重要的。 网站、APP、小程序的运营过程中避免不了出现突发情况,比如突然有一天我们的UV(APP下载量)突然增加了几倍,或者突然有一天,我们的数据衰减了很严重,运营者需要知道原因,此时访问级指标会帮助我们进行及时的预警。 某日:网站的任意事件触发数量突然剧增,经调查发现,出现大量不明攻击事件,技术部紧急做了安全防护,次日攻击事件被拦截。 (二)访问级指标是分析的重要部分 访问级指标是事件分析和漏斗分析里的重要指标,比如想通过了解页面访问到提交订单的转化率来判断页面的引导效率是否足够? 在拥有这样的指标体系后,我们可以通过漏斗分析进行用户留存率的统计。浏览商品详情页的用户和提交订单的用户,发现有将近50%的流失率,接下来我们可以通过分析流失原因来进行转化率优化。

大数据模块开发之数据仓库设计

匿名 (未验证) 提交于 2019-12-02 22:56:40
1. 维度建模基本概念 维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。 维度表(dimension) 维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析。这样的按..分析就构成一个维度。再比如"昨天下午我在星巴克花费200元喝了一杯卡布奇诺"。那么以消费为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天下午),地点维度(星巴克), 商品维度(卡布奇诺)。通常来说维度表信息比较固定,且数据量小。 事实表(fact table) 表示对分析主题的度量。事实表包含了与各维度表相关联的外键,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。比如上面的消费例子,它的消费事实表结构示例如下: 消费事实表:Prod_id(引用商品维度表), TimeKey(引用时间维度表), Place_id(引用地点维度表), Unit(销售量)。 总的说来,在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析,以查询为主,不涉及数据更新操作。事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则。 2. 维度建模三种模式2.1.

企业数据仓库构架(Kimball架构)

断了今生、忘了曾经 提交于 2019-12-02 15:08:41
1、建立维度模型的时候不一定要求维度模型满足3范式,维度表存储空间的权衡往往需要关注简单性和 可关注简单性和可访问性 2、维度模型 星型和OLAP多维数据库 3、粒度 每行中的数据是一个特定级别的细节数据,称为粒度 4、维度建模的核心 事实表中的所有度量必须具有相同的粒度 5、事实表的粒度划分为三类 事务、周期性快照和累计快照 6、展现区数据特点 维度化的、原子的、以业务过程为中心的 # 在整个项目的过程中,都要关注数据的质量、一致性和完整性A 系统框架主要有三部分组成:源事务、后端、前端 Kimball的DW/BI架构 Kimball DW/BI 架构的核心元素 Kimball 分工明确,资源占用更加合理,调用链路少,整个DW/BI系统更加稳定、高效、有保障。 ETL系统高度关注数据质量、完整性、一致性。输入数据在进入时要检查其质量。一致的获取增值度量和属性的业务规则由ETL系统中的有技能的专业人员开发,这样会给客户发布更好的、保持一致性的产品。 展现区根据客户要求使用统一维度组织数据。方便,高效为BI应用提供数据服务。 来源: https://blog.csdn.net/Jmayday/article/details/102778207

Kylin 入门

心已入冬 提交于 2019-12-02 10:31:45
1 Kylin 概述 1.1 Kylin定义 Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多个维度分析(MOLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的 Hive 表。 1.2 术语解释 Data Warehouse(数据仓库):数据仓库是一个各种数据(包括历史数据和当前数据)的中心存储系统,是BI( business intelligence ,商业智能)的核心部件 Business Intelligence(商业智能):商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具 OLAP(online analytical processing):OLAP(online analytical processing)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,从各方面观察信息,也就是从不同的维度分析数据,因此 OLAP 也成为多个维度分析 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0HJ5DNxT-1571934654744)(https://oscimg.oschina.net/oscnet/bf3b2155496868c5d12b129ee5774992daa.jpg)] 星型模型:

使用PCA进行特征降维

孤人 提交于 2019-12-02 05:44:50
特征降维: 特征降维是无监督学习的另一个应用,目的有二:其一,我们会经常在实际项目中遭遇特征维度非常之高的训练样本,而往往又无法借助自己的领域知识人工构建有效特征; 其二,在数据表现方面,我们无法用肉眼观测超过三个维度的特征。因此,特征降维不仅重构了有效的低维度特征向量,同时也为数据展现提供了可能。 在特征降维的方法中,主成分分析是最为经典和实用的特征降维技术,特别在辅助图像识别方面有突出的表现。 如何用矩阵的秩来判别向量组的线性相关性: m×n 矩阵 A ,如果 r(A) = m < n,则行向量组无关,列向量组相关, 如果 r(A) = k < min(m,n),则行向量组、列向量组都相关, 如果 r(A) = n < m,则列向量组无关,行向量组相关。 如果 r(A) = m = n ,则行向量组、列向量组都无关。 如下图代码所示,我们有一组2*2的数据[(1,2),(2,4)]。假设这两个数据都反映到一个类别(分类)或者一个类簇(聚类)。如果我们的学习模型模型是线性模型,那么这两个数据其实只能帮助权重参数更新一次,因为他们线性相关,所有的特征数值都只是扩张了相同的倍数;如果使用PCA分析的话,这个矩阵的“秩”是1,也就是说,在多样性程度上,这个矩阵只有一个自由度。 #--线性相关矩阵秩计算样例 #导入numpy工具包 import numpy as np #初始化一个2