空间维度 | 易学教程

python学习笔记(2)：科学计算及数据可视化入门

阅读更多关于 python学习笔记(2)：科学计算及数据可视化入门

一、NumPy 　　1.NumPy:Numberical Python 　　2.高性能科学计算和数据分析的基础包　　3.ndarray,多维数组(矩阵)，具有矢量运算的能力，快速、节省空间　　　　(1)ndarray，N维数组对象(矩阵) 　　　　(2)所有元素必须是相同类型　　　　(3)ndim属性，维度个数　　　　(4)shape属性，各维度的大小　　　　(5)dtype属性，数据类型　　4.矩阵运算，无需循环，可完成类似Matlab中的矢量计算　　5.线性代数、随机数生成　　6.import numpy as np narray多维数组 import numpy as np #生成指定维度的随机多维数组 data = np.random.rand(2,3) //生成一个两行三列的多维数组 print dataprint type(data)　　　　　　//查看数据类型,这个地方数据类型是numpy.ndarray的数据类型 [[0.16088508 0.86321185 0.25653982] [0.42456419 0.33277194 0.30046417]] <class 'numpy.ndarray'># print '维度个数', data.ndim　　　　//维度个数 2 　　　　维度个数有两个，第0个维度大小是2，第一个维度大小是3print

如何构建阿里小蜜算法模型的迭代闭环？

阅读更多关于如何构建阿里小蜜算法模型的迭代闭环？

导读：伴随着AI的兴起，越来越多的智能产品诞生，算法链路也会变得越来越复杂，在工程实践中面临着大量算法模型的从0到1快速构建和不断迭代优化的问题，本文将介绍如何打通数据分析-样本标注-模型训练-监控回流的闭环，为复杂算法系统提供强有力的支持。新技术/实用技术点：实时、离线场景下数据加工的方案选型高维数据的可视化交互面对不同算法，不同部署场景如何对流程进行抽象 01. 背景技术背景及业务需求小蜜系列产品是阿里巴巴为消费者和商家提供的智能服务解决方案，分别在用户助理、电商客服、导购等方面做了很多工作，双十一当天提供了上亿轮次的对话服务。其中用到了问答、预测、推荐、决策等多种算法模型，工程和算法同学在日常运维中会面临着如何从0到1快速算法模型并不断迭代优化，接下来将从工程角度介绍如何打通数据->样本->模型->系统的闭环，加速智能产品的迭代周期。实现实现这一过程分为2个阶段： 0->1阶段：模型冷启动，这一阶段更多关注模型的覆盖率。实现步骤： A. 抽取对话日志作为数据源 B. 做一次知识挖掘从日志中挑出有价值的数据 C. 运营人员进行标注 D. 算法对模型进行训练 E. 运营人员和算法端统一对模型做评测 F. 模型发布 1->100阶段： badcase反馈和修复阶段，主要目标是提升模型的准确率。实现步骤： A. 运营端根据业务反馈（顶踩按钮）、用户不满意会话（如

如何构建阿里小蜜算法模型的迭代闭环？

阅读更多关于如何构建阿里小蜜算法模型的迭代闭环？

神经网络数据预处理，正则化与损失函数

阅读更多关于神经网络数据预处理，正则化与损失函数

1 数据预处理关于数据预处理我们有3个常用的符号，数据矩阵 \(X\) ，假设其尺寸是 \([N \times D]\) （ \(N\) 是数据样本的数量， \(D\) 是数据的维度）。 1.1 均值减去均值减法（Mean subtraction）是预处理最常用的形式。它对数据中每个独立特征减去平均值，从几何上可以理解为在每个维度上都将数据云的中心都迁移到原点。在numpy中，该操作可以通过代码 \(X-=n p \cdot \operatorname{mean}(X, \text { axis }=0)\) 实现。而对于图像，更常用的是对所有像素都减去一个值，可以用 \(\mathrm{X}-=\mathrm{np} \cdot \operatorname{mean}(\mathrm{X})\) 实现，也可以在3个颜色通道上分别操作。 1.2 归一化归一化（Normalization）是指将数据的所有维度都归一化，使其数值范围都近似相等。有两种常用方法可以实现归一化。第一种是先对数据做零中心化（zero-centered）处理，然后每个维度都除以其标准差，实现代码为 \(\mathrm{X} /=\mathrm{np} . \mathrm{std}(\mathrm{X}, \mathrm{axis}=0)\) 。第二种是对每个维度都做归一化

pytorch_study

阅读更多关于 pytorch_study

文章目录 **1 资源汇总 ** 2 常见深度学习框架中的Tensor的通道顺序 **3 常见颜色通道顺序 1 PyTorch Tutorials 1: [入门-1 60分钟闪电战](https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html) 1.1 [什么是PyTorch](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py) 1.1.1 tensor 1.1.2 operations (1) 加法的语法： (2) tensor的索引与NumPy的索引类似 (3) 调整大小：torch.view (4) .item() 1.1.3 NumPy Bridge 1.1.4 Converting NumPy Array to Torch Tensor 将NumPy数组转换为Torch张量 1.1.5 CUDA Tensors 1.2 [Autograd: 自动分化](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner

迁移学习五——GFK

阅读更多关于迁移学习五——GFK

本篇文章是对《Geodesic Flow Kernel for Unsupervised Domain Adaptation》的学习。格拉斯曼流形在讲述GFK之前我们先引入一个概念，即格拉斯曼流形。百度百科中的定义：设W是n维向量空间，考虑W中全体k维子空间构成的集合G=Grass(k,W)，因为G上有自然的流形结构，所以我们将它称为格拉斯曼流形。关于这个定义我们并不需要深究，只要知道n维空间的所有k维子空间构成了一个流形结构即可。 1 SGF 之前博客讲的方法均是将源域和目标域数据映射到同一个空间中，SGF（Sampling Geodesic Flow）则引入了格拉斯曼流形，将源域和目标域看做这个流形结构中的两个点，并构建从源域到目标域的测地线，测地线上的每个点可以看作是一个子空间，通过将数据映射在该测地线上的不同子空间，并进行分析，学习算法可以很好地提取较为恒定的特征（即在子空间变化的过程中较为稳定的一部分）。一个直观的理解就是汽车出发地驶向目的地，这个过程中车身会位移，会旋转，运气不好出现点剐蹭还会发生一些形变，但整个过程车的型号、车牌号、具体的一些硬件配置等等是不会变化的，对车辆在行驶过程的影像进行分析，可以获取这些稳定的特征，用于接下来的特定任务场景中。 SGF的步骤大体如下：（1）构建连接源域和目标域的测地线；（2）对测地线进行采样，获取若干子空间；（3

张量网络学习笔记[1]

阅读更多关于张量网络学习笔记[1]

0. 简介与前置知识本笔记着重学习Zhao Qibin教授等发表的"关于利用张量网络缩减维度和大规模优化"(Tensor Networks for dimensionality Reduction and Large-Scale Optimization)等张量网络相关的内容. 就目前来看, 网上并没有公开资源, 而前述学术文章的官方中文据悉仍在制作中. 本笔记视作笔者自己的一个自学概要, 其目的为加深理解, 方便回顾. 同时, 也希望能用我自己的理解串联有关内容, 给大家呈现更清晰地知识布局. 本笔记将不是一个完整的翻译作品, 而是一个根据自己理解有选择性的, 摘要性的翻译与整理工作. 希望为互联网上, 特别是中文圈内学习张量领域的热情贡献自己的一份力量. 由于笔者写过关于张量综述的笔记, 很多入门内容就不重复记述. 若有必要, 会提及"笔记系列"以指代该系列. 如果读者不理解什么是张量(tensor) 不理解什么是CP, TUCKER, KRONECKER及KHATRI-RAO乘法, 以及张量秩, mode-n乘法以及低秩分解的基本知识, 欢迎查阅我的另外一个笔记系列, 张量学习笔记. (笔者也经常查阅, 如果不熟悉大可放心. 只要学过, 随学随查即可) 为了方便顺应原作对公式的引用及方便大家查阅原书, 会将公式在原书内的tag写出 0.1. 本文所用图表与符号

线性代数-MIT-第11讲

阅读更多关于线性代数-MIT-第11讲

线性代数-MIT-第11讲目录线性代数-MIT-第11讲 1.新向量空间的基 2.矩阵的秩 3.小世界图 1.新向量空间的基矩阵构成向量空间：以3x3矩阵构成的空间M为例，加法和数乘仍停留在3x3的矩阵空间中，存在若干种子空间，如对称矩阵的子空间，上三角阵子空间，下三角阵子空间，那子空间的基和维度是多少？整个3x3矩阵空间的维度是9，基是九个数分别为1其他为零的矩阵；对称矩阵的维度是6，上三角阵的维度是6，下三角阵的维度是6，对角阵维度是3；对称矩阵空间S,上三角阵空间U,则两则交集仍是子空间维度是3，并集则不是，但S+U,即对称矩阵空间取一元素与上三角阵取一元素求和，则得到向量空间，即3x3矩阵空间； S+U的维度是9，则dim(S+U)=dim(S)+dim(U)-dim(二者交集)；微分方程构成向量空间：该方程的解是什么？y=cosx和y=sinx、都是一个解；一个微分方程的零空间或者说解空间，该空间即是微分方程所有的解；完整解即 ,则该解空间的维度和基是什么？一组基是cosx和sinx,维度是2；线性微分方程的一个重要内容就是寻找解空间的一组基； 2.矩阵的秩秩为1的矩阵：简单 dim(C(A))=rank=dim(A的转置)=1 所有秩为1的矩阵都可以写成：一列乘以一行的形式,列向量乘以行向量，即主列乘以倍数；举例

事实表和维度表

阅读更多关于事实表和维度表

维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度：类型和区域。另外每个维度还可以有子维度（称为属性），例如类别可以有子类型，产品名等属性。下面是两个常见的维度表结构：产品维度表：Prod_id, Product_Name, Category, Color, Size, Price 时间维度表：TimeKey, Season, Year, Month, Date 而事实表是数据聚合后依据某个维度生成的结果表。它的结构示例如下：销售事实表：Prod_id(引用产品维度表), TimeKey(引用时间维度表), SalesAmount(销售总量，以货币计), Unit(销售量) 上面的这些表就是存在于数据仓库中的。从这里可以看出它有几个特点： 1. 维度表的冗余很大，主要是因为维度一般不大(相对于事实表来说的)，而维度表的冗余可以使事实表节省很多空间。 2. 事实表一般都很大，如果以普通方式查询的话，得到结果一般发的时间都不是我们可以接受的。所以它一般要进行一些特殊处理。如SQL Server 2005就会对事实表进行如预生成处理等。 3. 维度表的主键一般都取整型值的标志列类型，这样也是为了节省事实表的存储空间。事实表和维度表的分界线

订阅空间维度