空间维度

python学习笔记(2):科学计算及数据可视化入门

拈花ヽ惹草 提交于 2020-02-26 22:10:08
一、NumPy   1.NumPy:Numberical Python   2.高性能科学计算和数据分析的基础包   3.ndarray,多维数组(矩阵),具有矢量运算的能力,快速、节省空间     (1)ndarray,N维数组对象(矩阵)     (2)所有元素必须是相同类型     (3)ndim属性,维度个数     (4)shape属性,各维度的大小     (5)dtype属性,数据类型   4.矩阵运算,无需循环,可完成类似Matlab中的矢量计算   5.线性代数、随机数生成   6.import numpy as np narray多维数组 import numpy as np #生成指定维度的随机多维数组 data = np.random.rand(2,3) //生成一个两行三列的多维数组 print dataprint type(data)      //查看数据类型,这个地方数据类型是numpy.ndarray的数据类型 [[0.16088508 0.86321185 0.25653982] [0.42456419 0.33277194 0.30046417]] <class 'numpy.ndarray'># print '维度个数', data.ndim    //维度个数 2     维度个数有两个,第0个维度大小是2,第一个维度大小是3print

如何构建阿里小蜜算法模型的迭代闭环?

女生的网名这么多〃 提交于 2020-02-24 18:23:51
导读:伴随着AI的兴起,越来越多的智能产品诞生,算法链路也会变得越来越复杂,在工程实践中面临着大量算法模型的从0到1快速构建和不断迭代优化的问题,本文将介绍如何打通数据分析-样本标注-模型训练-监控回流的闭环,为复杂算法系统提供强有力的支持。 新技术/实用技术点: 实时、离线场景下数据加工的方案选型 高维数据的可视化交互 面对不同算法,不同部署场景如何对流程进行抽象 01. 背景 技术背景及业务需求 小蜜系列产品是阿里巴巴为消费者和商家提供的智能服务解决方案,分别在用户助理、电商客服、导购等方面做了很多工作,双十一当天提供了上亿轮次的对话服务。其中用到了问答、预测、推荐、决策等多种算法模型,工程和算法同学在日常运维中会面临着如何从0到1快速算法模型并不断迭代优化,接下来将从工程角度介绍如何打通数据->样本->模型->系统的闭环,加速智能产品的迭代周期。 实现 实现这一过程分为2个阶段: 0->1阶段: 模型冷启动,这一阶段更多关注模型的覆盖率。 实现步骤: A. 抽取对话日志作为数据源 B. 做一次知识挖掘从日志中挑出有价值的数据 C. 运营人员进行标注 D. 算法对模型进行训练 E. 运营人员和算法端统一对模型做评测 F. 模型发布 1->100阶段: badcase反馈和修复阶段,主要目标是提升模型的准确率。 实现步骤: A. 运营端根据业务反馈(顶踩按钮)、用户不满意会话(如

如何构建阿里小蜜算法模型的迭代闭环?

感情迁移 提交于 2020-02-18 05:22:08
导读:伴随着AI的兴起,越来越多的智能产品诞生,算法链路也会变得越来越复杂,在工程实践中面临着大量算法模型的从0到1快速构建和不断迭代优化的问题,本文将介绍如何打通数据分析-样本标注-模型训练-监控回流的闭环,为复杂算法系统提供强有力的支持。 新技术/实用技术点: 实时、离线场景下数据加工的方案选型 高维数据的可视化交互 面对不同算法,不同部署场景如何对流程进行抽象 01. 背景 技术背景及业务需求 小蜜系列产品是阿里巴巴为消费者和商家提供的智能服务解决方案,分别在用户助理、电商客服、导购等方面做了很多工作,双十一当天提供了上亿轮次的对话服务。其中用到了问答、预测、推荐、决策等多种算法模型,工程和算法同学在日常运维中会面临着如何从0到1快速算法模型并不断迭代优化,接下来将从工程角度介绍如何打通数据->样本->模型->系统的闭环,加速智能产品的迭代周期。 实现 实现这一过程分为2个阶段: 0->1阶段: 模型冷启动,这一阶段更多关注模型的覆盖率。 实现步骤: A. 抽取对话日志作为数据源 B. 做一次知识挖掘从日志中挑出有价值的数据 C. 运营人员进行标注 D. 算法对模型进行训练 E. 运营人员和算法端统一对模型做评测 F. 模型发布 1->100阶段: badcase反馈和修复阶段,主要目标是提升模型的准确率。 实现步骤: A. 运营端根据业务反馈(顶踩按钮)、用户不满意会话(如

神经网络数据预处理,正则化与损失函数

血红的双手。 提交于 2020-02-13 06:09:17
1 数据预处理 关于数据预处理我们有3个常用的符号,数据矩阵 \(X\) ,假设其尺寸是 \([N \times D]\) ( \(N\) 是数据样本的数量, \(D\) 是数据的维度)。 1.1 均值减去 均值减法(Mean subtraction)是预处理最常用的形式。它对数据中每个独立特征减去平均值,从几何上可以理解为在每个维度上都将数据云的中心都迁移到原点。 在numpy中,该操作可以通过代码 \(X-=n p \cdot \operatorname{mean}(X, \text { axis }=0)\) 实现。 而对于图像,更常用的是对所有像素都减去一个值,可以用 \(\mathrm{X}-=\mathrm{np} \cdot \operatorname{mean}(\mathrm{X})\) 实现,也可以在3个颜色通道上分别操作。 1.2 归一化 归一化(Normalization)是指将数据的所有维度都归一化,使其数值范围都近似相等。 有两种常用方法可以实现归一化。 第一种 是先对数据做零中心化(zero-centered)处理,然后每个维度都除以其标准差,实现代码为 \(\mathrm{X} /=\mathrm{np} . \mathrm{std}(\mathrm{X}, \mathrm{axis}=0)\) 。 第二种 是对每个维度都做归一化

pytorch_study

此生再无相见时 提交于 2020-01-28 11:28:56
文章目录 **1 资源汇总 ** 2 常见深度学习框架中的Tensor的通道顺序 **3 常见颜色通道顺序 1 PyTorch Tutorials 1: [入门-1 60分钟闪电战](https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html) 1.1 [什么是PyTorch](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py) 1.1.1 tensor 1.1.2 operations (1) 加法的语法: (2) tensor的索引与NumPy的索引类似 (3) 调整大小:torch.view (4) .item() 1.1.3 NumPy Bridge 1.1.4 Converting NumPy Array to Torch Tensor 将NumPy数组转换为Torch张量 1.1.5 CUDA Tensors 1.2 [Autograd: 自动分化](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner

推荐算法—ctr预估

妖精的绣舞 提交于 2020-01-27 07:54:16
文章目录 总览 传统CTR模型演化的关系图 深度学习CTR模型的演化图谱 算法比对与总结 LR——CTR模型的核心和基础 FM模型——因子分解和特征交叉 LR+GBDT——特征工程模型化的开端 FTRL——在线实时训练模型 LS-PLM(MLR)——阿里曾经的主流CTR模型 Deep Neural Network (DNN) ——多层感知机器模拟特征组合 Deep Crossing(2016年)——DNN中deep加了resnet FNN(2016年)——用FM的隐向量完成Embedding初始化 PNN (2016年)——丰富特征交叉的方式 Google Wide&Deep(2016年)——记忆能力和泛化能力的综合权衡 华为 DeepFM (2017年)——用FM代替Wide部分 Google Deep&Cross(2017年)——使用Cross网络代替Wide部分 NFM(2017年)——对Deep部分的改进 AFM(2017年)——引入Attention机制的FM 阿里DIN(2018年)——阿里加入Attention机制的深度学习网络 阿里DIEN(2018年)——DIN的“进化” 参考 总览 传统CTR模型演化的关系图 向下为了解决特征交叉的问题,演化出PLOY2,FM,FFM等模型; 向右为了使用模型化、自动化的手段解决之前特征工程的难题

迁移学习五——GFK

点点圈 提交于 2020-01-26 03:14:00
本篇文章是对《Geodesic Flow Kernel for Unsupervised Domain Adaptation》的学习。 格拉斯曼流形 在讲述GFK之前我们先引入一个概念,即格拉斯曼流形。百度百科中的定义: 设W是n维向量空间,考虑W中全体k维子空间构成的集合G=Grass(k,W),因为G上有自然的流形结构,所以我们将它称为格拉斯曼流形。 关于这个定义我们并不需要深究,只要知道n维空间的所有k维子空间构成了一个流形结构即可。 1 SGF 之前博客讲的方法均是将源域和目标域数据映射到同一个空间中,SGF(Sampling Geodesic Flow)则引入了格拉斯曼流形,将源域和目标域看做这个流形结构中的两个点,并构建从源域到目标域的测地线,测地线上的每个点可以看作是一个子空间,通过将数据映射在该测地线上的不同子空间,并进行分析,学习算法可以很好地提取较为恒定的特征(即在子空间变化的过程中较为稳定的一部分)。一个直观的理解就是汽车出发地驶向目的地,这个过程中车身会位移,会旋转,运气不好出现点剐蹭还会发生一些形变,但整个过程车的型号、车牌号、具体的一些硬件配置等等是不会变化的,对车辆在行驶过程的影像进行分析,可以获取这些稳定的特征,用于接下来的特定任务场景中。 SGF的步骤大体如下:(1)构建连接源域和目标域的测地线;(2)对测地线进行采样,获取若干子空间;(3

张量网络学习笔记[1]

前提是你 提交于 2020-01-25 17:23:05
0. 简介与前置知识 本笔记着重学习Zhao Qibin教授等发表的"关于利用张量网络缩减维度和大规模优化"(Tensor Networks for dimensionality Reduction and Large-Scale Optimization)等张量网络相关的内容. 就目前来看, 网上并没有公开资源, 而前述学术文章的官方中文据悉仍在制作中. 本笔记视作笔者自己的一个自学概要, 其目的为加深理解, 方便回顾. 同时, 也希望能用我自己的理解串联有关内容, 给大家呈现更清晰地知识布局. 本笔记将不是一个完整的翻译作品, 而是一个根据自己理解有选择性的, 摘要性的翻译与整理工作. 希望为互联网上, 特别是中文圈内学习张量领域的热情贡献自己的一份力量. 由于笔者写过关于张量综述的笔记, 很多入门内容就不重复记述. 若有必要, 会提及"笔记系列"以指代该系列. 如果读者不理解什么是张量(tensor) 不理解什么是CP, TUCKER, KRONECKER及KHATRI-RAO乘法, 以及张量秩, mode-n乘法以及低秩分解的基本知识, 欢迎查阅我的另外一个笔记系列, 张量学习笔记. (笔者也经常查阅, 如果不熟悉大可放心. 只要学过, 随学随查即可) 为了方便顺应原作对公式的引用及方便大家查阅原书, 会将公式在原书内的tag写出 0.1. 本文所用图表与符号

线性代数-MIT-第11讲

牧云@^-^@ 提交于 2020-01-22 07:16:16
线性代数-MIT-第11讲 目录 线性代数-MIT-第11讲 1.新向量空间的基 2.矩阵的秩 3.小世界图 1.新向量空间的基 矩阵构成向量空间: 以3x3矩阵构成的空间M为例,加法和数乘仍停留在3x3的矩阵空间中, 存在若干种子空间,如对称矩阵的子空间,上三角阵子空间,下三角阵子空间, 那子空间的基和维度是多少? 整个3x3矩阵空间的维度是9,基是九个数分别为1其他为零的矩阵; 对称矩阵的维度是6,上三角阵的维度是6,下三角阵的维度是6,对角阵维度是3; 对称矩阵空间S,上三角阵空间U,则两则交集仍是子空间维度是3,并集则不是, 但S+U,即对称矩阵空间取一元素与上三角阵取一元素求和,则得到向量空间,即3x3矩阵空间; S+U的维度是9,则dim(S+U)=dim(S)+dim(U)-dim(二者交集); 微分方程构成向量空间: 该方程的解是什么?y=cosx和y=sinx、 都是一个解; 一个微分方程的零空间或者说解空间,该空间即是微分方程所有的解; 完整解即 ,则该解空间的维度和基是什么? 一组基是cosx和sinx,维度是2; 线性微分方程的一个重要内容就是寻找解空间的一组基; 2.矩阵的秩 秩为1的矩阵:简单 dim(C(A))=rank=dim(A的转置)=1 所有秩为1的矩阵都可以写成: 一列乘以一行的形式,列向量乘以行向量,即主列乘以倍数; 举例

事实表 和 维度表

谁都会走 提交于 2020-01-10 12:23:59
维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。 下面是两个常见的维度表结构: 产品维度表:Prod_id, Product_Name, Category, Color, Size, Price 时间维度表:TimeKey, Season, Year, Month, Date 而事实表是数据聚合后依据某个维度生成的结果表。它的结构示例如下: 销售事实表:Prod_id(引用产品维度表), TimeKey(引用时间维度表), SalesAmount(销售总量,以货币计), Unit(销售量) 上面的这些表就是存在于数据仓库中的。从这里可以看出它有几个特点: 1. 维度表的冗余很大,主要是因为维度一般不大(相对于事实表来说的),而维度表的冗余可以使事实表节省很多空间。 2. 事实表一般都很大,如果以普通方式查询的话,得到结果一般发的时间都不是我们可以接受的。所以它一般要进行一些特殊处理。如SQL Server 2005就会对事实表进行如预生成处理等。 3. 维度表的主键一般都取整型值的标志列类型,这样也是为了节省事实表的存储空间。 事实表和维度表的分界线