维度

RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 1 #805

筅森魡賤 提交于 2020-01-25 02:24:50
具体错误日志如下: The resulting error log is as follows Traceback (most recent call last): File "train.py", line 441, in <module> train() # train normally File "train.py", line 324, in train dataloader=testloader) File "F:\train\yolov3hat\test.py", line 85, in test inf_out, train_out = model(imgs) # inference and training outputs File "D:\Program Files\Python\Python37\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__ result = self.forward(*input, **kwargs) File "F:\train\yolov3hat\models.py", line 260, in forward return torch.cat(io, 1), p RuntimeError: invalid argument 0: Sizes of

sklearn中的PCA模型

蹲街弑〆低调 提交于 2020-01-25 01:01:37
sklearn中提供了较为丰富的PCA模型来解决数据的降维问题,其包括: (1)PCA:最原始的PCA算法; (2)TruncatedSVD:原始数据不做中心化处理的PCA算法,可用于文本数据(TF-IDF处理后)的隐藏语义分析(LSA); (3)SparsePCA:添加L1正则化处理后的PCA算法,用最小角回归算法求解,可在一定程度上解决数据噪声的问题,进一步降低分解后的数据维度; (4)MiniBatchSparsePCA:添加L1正则化处理后PCA算法,基于小批量数据的PCA算法。 (5)IncrementalPCA:增量学习的PCA算法,通过partial_fit解决数据量过大情况下内存限制的问题。 (6)KernelPCA:样本协方差矩阵中的元素均为样本内积,因此可利用核技巧,将其它应用到非线性空间上。 本文仅详细介绍最原始的PCA算法。 1. 模型的主要参数 模型参数 Parameter含义 备注 n_components 主成分数 用于空值分解后的目标维度,其可选值包括:1.整数,指定具体的值;2. 百分比,分解后的维度包含的信息量(方差)必须大于原始信息量*百分比;3. 'mle'采用极大似然估计法,预估目标维度;4.None, 默认为数据特征数目和数据行数中最小的那个值,注意当solver为'arpack',还需在上述值基础上减1; whiten 白化 布尔值

数据仓库维度建模

戏子无情 提交于 2020-01-23 02:43:49
概述 数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容: 以Hadoop、Spark、Hive等组件为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。 我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。 因此,下面的将详细地阐述数据建模中的典型代表:维度建模,对它的的相关理论以及实际使用做深入的分析。 文章结构 本文将按照下面的顺序进行阐述: 先介绍比较经典和常用的数据仓库模型,并分析其优缺点。 详细介绍维度建模的基本概念以及相关理论。 为了能更真切地理解什么是维度建模,我将模拟一个大家都十分熟悉的电商场景,运用前面讲到的理论进行建模。 理论和现实的工作场景毕竟会有所差距,这一块,我会分享一下企业在实际的应用中所做出的取舍。 0x01 经典数据仓库模型 下面将分别介绍四种数据仓库模型,其中前三种模型分别对应了三本书:《数据仓库》、《数据仓库工具箱》和《数据架构 大数据 数据仓库以及Data Vault》,这三本书都有中文版,非常巧的是,我只有三本数据仓库的书,正好对应了这三种理论。 Anchor模型我并不是特别熟悉,放在这里以供参考。 一、实体关系(ER)模型 数据仓库之父Immon的方法从全企业的高度设计一个3NF模型

网站分析总结

强颜欢笑 提交于 2020-01-22 06:45:29
网站分析的步骤:收集完整真实的数据,并分析问题的本质,然后改进和落实,最后监控改进的结果。 网站分析要求 : 业务方法的知识,网站的业务模式,使用的推广手段,也包括技术方面的知识,了解网络营销知识和常见广告模式。 工具有: google analytics , js 和 html 语言, excel 和 ppt 。 数据来源见另外一篇文章(网站分析---数据和指标),这里放不下。 网站分析方法 : 有了指标之后,怎么分析呢? 趋势分析,对比分析和细分分析 数据分析的目的,发现数据的特征和变化规则,找出是否有问题。 数据分析需要有参考系,比如单单的 10 万 UV 能代表什么意思呢? 数据来源:点击流数据 ( 网站日志等 ) ,业务运营数据,临时测试数据,用户调研数据,行业发展数据。 数据要求:及时性,准确性,完整性。 网站数据趋势分析:同比,环比,定基比,监控自动化 : 网站数据趋势分析: 1) 百分比比较法,即把指标的值转化为百分比的形式 网站数据多维度细分: 指标:访问者,停留时间,访问次数,转化率,跳出率,退出率,流失率,访问深度,时间总数,综合浏览量。 维度:访问者属性维度(新,回访老用户,男女),时间维度(年月日,工作休息),流量来源维度(浏览器,推荐网站),内容维度(新产品,促销),地理纬度(国家,地区,语言),浏览器,接入方式,语言,分辨率。 网站流量分析 :

百万TPS高吞吐、秒级低延迟,阿里​搜索离线平台如何实现?

廉价感情. 提交于 2020-01-21 02:37:55
简介: 作者 | 鸿历 作者简介:王伟骏,花名鸿历,阿里巴巴搜索推荐事业部高级开发工程师。2016年硕士毕业于南京邮电大学。Apache Hadoop && Flink && Eagle Contributor。目前负责阿里巴巴搜索离线平台Runtime层相关工作。 另外,陈华曦(昆仑)给了本文很多建议,文中部分图由李国鼎(石及)贡献。 阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢? 前言 在阿里搜索工程体系中我们把搜索引擎、在线算分等ms级响应用户请求的服务称之为“在线”服务;与之相对应的,将各种来源数据转换处理后送入搜索引擎等“在线”服务的系统统称为“离线”系统。搜索离线平台作为搜索引擎的数据提供方,是集团各业务接入搜索的必经之路,也是整个搜索链路上极为重要的一环,离线产出数据的质量和速度直接影响到下游业务的用户体验。 搜索离线平台经过多年沉淀,不仅承载了集团内大量搜索业务,在云上也有不少弹外客户,随着平台功能的丰富,Blink(阿里内部版本的Flink) 版本的领先。我们在2019年年初开始计划把主搜(淘宝天猫搜索)迁移到搜索离线平台上。

Tableau的Fixed函数

我是研究僧i 提交于 2020-01-20 17:45:44
Fixed 函数 — 固定聚合维度 在 Tableau 中,度量值在视图中以聚合的方式呈现,聚合的级别由视图中的维度来控制,比如原本视图中只有 “AAA” 这一个维度. 如果我们再向颜色标记拖放一个维度“BBB”的话,那么tableau就会依据"AAA"和“”BBB“两个维度做聚合了。 假如我们仍只希望根据“”AAA“这一个维度做聚合呢? 就可以用Fixed函数固定聚合的维度。 {FIXED [AAA] : SUM([Sales])} Fixed 后接聚合依据的维度,可以输入多个,冒号后输入聚合的度量。 LOD 表达式的类型 您可以在 Tableau 中创建三种类型的 LOD 表达式: FIXED INCLUDE EXCLUDE 您也可以将 LOD 表达式的作用域限定为表。这种表达式称为表范围LOD 表达式。 来源: 51CTO 作者: 北京看看 链接: https://blog.51cto.com/kankan/2393468

Hive分析窗口函数

谁说我不能喝 提交于 2020-01-19 15:31:17
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。 今天简单整理一下,以务以后自己快速查询,也给看到的朋友作个参考。 分析函数主要用于实现分组内所有和连续累积的统计。 一. AVG,MIN,MAX,和SUM 如果不指定ROWS BETWEEN,默认为从起点到当前行; 如果不指定ORDER BY,则将分组内所有值累加; 关键是理解ROWS BETWEEN含义,也叫做WINDOW子句: PRECEDING:往前 FOLLOWING:往后 CURRENT ROW:当前行 UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING:表示到后面的终点 二. NTILE,ROW_NUMBER,RANK,DENSE_RANK 1) NTILE NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值 NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) 如果切片不均匀,默认增加第一个切片的分布 2)ROW_NUMBER ROW_NUMBER() –从1开始,按照顺序,生成分组内记录的序列,比如,按照pv降序排列

python的Numpy库入门

空扰寡人 提交于 2020-01-19 10:15:21
介绍NumPy NumPy是一个开源的Python科学计算基础库,包含: 1、一个强大的N维数组对象 ndarray 2、 广播功能函数 3、整合C/C++/Fortran代码的工具 4、线性代数、傅里叶变换、随机数生成等功能 NumPy是SciPy、Pandas等数据处理或科学计算库的基础 NumPy的引用 import numpy as np(引入模块的别名) N维数组对象:ndarray ndarray是一个多维数组对象,由两部分构成: 1、实际的数据 2、描述这些数据的元数据(数据维度、数据类型等) ndarray数组一般要求所有元素类型相同(同质),数组下标从0开始 ndarray对象的属性 属性 说明 .ndim 秩,即轴的数量或维度的数量 .shape ndarray对象的尺度,对于矩阵,n行m列 .size ndarray对象元素的个数,相当于.shape中n*m的值 .dtype ndarray对象的元素类型 .itemsize ndarray对象中每个元素的大小,以字节为单位 ndarray实例 ndarray的元素类型(1) 数据类型 说明 bool 布尔类型,True或False intc 与C语言中的int类型一致,一般是int32或int64 intp 用于索引的整数,与C语言中ssize_t一致,int32或int64 int8 字节长度的整数,取值:

keras学习(1)

∥☆過路亽.° 提交于 2020-01-18 20:26:17
Keras是Python中以CNTK、Tensorflow或者Theano为计算后台的一个深度学习建模环境。相对于其他深度学习的计算软件,如:Tensorflow、Theano、Caffe等,Keras在实际应用中有一些显著的优点,其中最主要的优点就是Keras已经高度模块化了,支持现有的常见模型(CNN、RNN等),更重要的是建模过程相当方便快速,加快了开发速度。 笔者使用的是基于Tensorflow为计算后台。接下来将介绍一些建模过程的常用层、搭建模型和训练过程,而Keras中的文字、序列和图像数据预处理,我们将在相应的实践项目中进行讲解。 1.核心层(各层函数只介绍一些常用参数,详细参数介绍可查阅Keras文档) 1.1全连接层:神经网络中最常用到的,实现对神经网络里的神经元激活。 Dense(units, activation=’relu’, use_bias=True) 参数说明: units: 全连接层输出的维度,即下一层神经元的个数。 activation:激活函数,默认使用Relu。 use_bias:是否使用bias偏置项。 1.2激活层:对上一层的输出应用激活函数。 Activation(activation) 参数说明: Activation:想要使用的激活函数,如:’relu’、’tanh’、‘sigmoid’等。 1.3Dropout层

tensor维度变换

你说的曾经没有我的故事 提交于 2020-01-18 08:37:36
维度变换是tensorflow中的重要模块之一,前面mnist实战模块我们使用了图片数据的压平操作,它就是维度变换的应用之一。 在详解维度变换的方法之前,这里先介绍一下View(视图)的概念。所谓View,简单的可以理解成我们对一个tensor不同维度关系的认识。举个例子,一个[ b,28,28,1 ]的tensor(可以理解为mnist数据集的一组图片),对于这样一组图片,我们可以有一下几种理解方式: (1)按照物理设备储存结构,即一整行的方式(28*28)储存,这一行有连续的784个数据,这种理解方式可以用[ b,28*28 ]表示 (2)按照图片原有结构储存,即保留图片的行列关系,以28行28列的数据理解,这种方式可以用[ b,28,28 ]表示 (3)将图片分块(比如上下两部分),这种理解方式与第二种类似,只是将一张图变为两张,这种方式可以用[ b,2,14*28 ]表示 (4)增加channel通道,这种理解方式也与第二种类似,只是这种对rgb三色图区别更明显,可以用[ b,28 28,1 ]表示 通过维度的等价变换,就可以实现思维上View的转换 维度变换的方式: 方式1:tf.reshape (可通过破坏维度之间的关系改变tensor的维度,但不会改变原有数据的存储顺序) a = tf.random.normal([4,28,28,3]) print(a.shape)