特征向量 | 易学教程

均值、方差、协方差、协方差矩阵、特征值、特征向量

阅读更多关于均值、方差、协方差、协方差矩阵、特征值、特征向量

均值：描述的是样本集合的中间点。方差：描述的是样本集合的各个样本点到均值的距离之平均，一般是用来描述一维数据的。协方差：是一种用来度量两个随机变量关系的统计量。只能处理二维问题。计算协方差需要计算均值。如下式：方差与协方差的关系方差是用来度量单个变量 “ 自身变异”大小的总体参数，方差越大表明该变量的变异越大协方差是用来度量两个变量之间 “协同变异”大小的总体参数，即二个变量相互影响大小的参数，协方差的绝对值越大，则二个变量相互影响越大。协方差矩阵：协方差矩阵能处理多维问题；协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差。协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。样本矩阵中若每行是一个样本，则每列为一个维度，所以计算协方差时要按列计算均值。如果数据是3维，那么协方差矩阵是：特征值与特征向量线性变化：线性变换 (线性映射)是在作用于两个向量空间之间的函数，它保持向量加法和标量乘法的运算，从一个向量空间变化到另一个向量空间。实际上线性变换表现出来的就是一个矩阵。特征值和特征向量是一体的概念：对于一个给定的线性变换（矩阵A），它的特征向量 ξ 经过这个线性变换之后，得到的新向量仍然与原来的 ξ 保持在同一條直線上，但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

机器学习数学基础

阅读更多关于机器学习数学基础

向量空间定义集和　　 - 具备某种特定性质的事物的总体,可有限,可无限, 可以理解为某种相似数据的集成 ( 如, 整数集, 实数集 ) 空间　　 - 满足一定条件的集和向量　　 - 具备大小和方向的量向量空间　　 - 满足了加乘运算的集和例子较为常见的是 n 维空间 , n 表示空间的维度, 当 n = 3 的时候, 可以理解为一个被取定了坐标系的三维空间空间内的每一个组都可以被一组实数列表来进行表示, 列表中的每个点为该坐标轴上的投影向量的定义与运算定义向量　　 - 向量空间的元素为向量运算加法代数角度　　- 同位置相加, 几何角度　　- 按照某一个向量平移后首位相连, 计算新向量乘法代数角度　　- 变量于实数相乘, 变量中的所有数字于实数相乘即可几何角度　　- 变量在空间中的伸缩向量组的线性组合定义向量组　　 - 若干个同维度的列向量( 或行向量 ) 所组成的集和线性组合　　- ↓ 意义帮助理解基的概念向量空间中的任何一个变量. 都可以看做是对基向量的缩放和相加操作都可以写成两个向量的线性组合, 如图的帮助理解 span(张成空间) 的概念不断的调整和可以得到无数的新向量, 而这些新向量的组成的集和, 就叫做张成空间向量组的线性相关性定义内积和范数定义内积从代数的角度来说 ,

文本挖掘预处理之向量化与Hash Trick

阅读更多关于文本挖掘预处理之向量化与Hash Trick

　　　　在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型　　　　在讲向量化与Hash Trick之前，我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。　　　　词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起，就是我们常说的向量化。向量化完毕后一般也会使用TF-IDF进行特征的权重修正，再将特征进行标准化。再进行一些其他的特征工程后，就可以将数据带入机器学习算法进行分类聚类了。　　　　总结下词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）。　　　　与词袋模型非常类似的一个模型是词集模型(Set of Words,简称SoW)，和词袋模型唯一的不同是它仅仅考虑词是否在文本中出现，而不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。在大多数时候

[吴恩达机器学习笔记]16推荐系统5-6协同过滤算法/低秩矩阵分解/均值归一化

阅读更多关于 [吴恩达机器学习笔记]16推荐系统5-6协同过滤算法/低秩矩阵分解/均值归一化

16.推荐系统 Recommender System 觉得有用的话,欢迎一起讨论相互学习~ Follow Me 16.5 向量化：低秩矩阵分解Vectorization_ Low Rank Matrix Factorization 示例 当给出一件产品时，你能否找到与之相关的其它产品。一位用户最近看上一件产品，有没有其它相关的产品，你可以推荐给他 协同过滤算法 我将要做的是：实现一种选择的方法，写出协同过滤算法的预测情况我们有关于五部电影的数据集，我将要做的是，将这些用户的电影评分，进行分组并存。我们有五部电影，以及四位用户，那么这个矩阵 Y 就是一个 5 行 4 列的矩阵，它将这些电影的用户评分数据都存在矩阵里：使用协同过滤算法对参数进行学习，并使用公式$(\theta^{(n_u)})^{T}(x^{(n_m)})$ 对推荐的结果进行预测，得到一个预测值的矩阵，这个矩阵的预测结果和用户评分数据矩阵Y中数据一一对应： 低秩矩阵分解 你也可以将电影的特征按照样本的顺序1,2,3...$n_m$按行排列成矩阵X，将用户的特征按照用户的顺序1,2,3...$n_u

机器学习基础---神经网络（属于逻辑回归）（构建假设函数）

阅读更多关于机器学习基础---神经网络（属于逻辑回归）（构建假设函数）

一：为什么需要神经网络（一）案例为了很好的拟合数据，我们需要保留较多的相关参数，虽然可以使用正则化进行优化。但是无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。之前我们已经看到过，使用非线性的多项式项，能够帮助我们建立更好的分类模型。假设我们有非常多的特征，例如大于 100 个变量。我们希望用这 100 个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合：我们也会有接近 5000 个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。所以，当特征个数n很大时（许多实际的机器学习问题特征都是很大的），将这些高阶多项式项数包含到特征里面，会导致特征空间急剧膨胀。（二）案例二：计算机视觉假设我们希望训练一个模型来识别视觉对象（例如识别一张图片上是否是一辆汽车），我们怎样才能这么做呢？假设使用机器学习算法，来训练一个分类器，使它检测一个图像，来判断图像是否为一辆汽车。我们取出这幅图片中的一小部分，将其放大：当人眼看到一辆汽车时，计算机实际上看到的却是这个：一个数据矩阵，表示了像素强度值因此，对于计算机视觉来说问题就变成了：根据这个像素点亮度矩阵，来告诉我们，这些数值代表一个汽车门把手。具体而言，当用机器学习算法构造一个汽车识别器时，我们要做的就是提供一个带标签的样本集

三维点云处理技术二：三维点云表征概述

阅读更多关于三维点云处理技术二：三维点云表征概述

课程来源：睿慕课《三维点云处理技术和深度学习在点云处理中的应用》讲师:索传哲三维点云数据获取方式及原理主要分为立体视觉测量法、结构光3D成像法、飞行时间TOF法。立体视觉测量法相机成像模型视觉SLAM14讲——相机模型介绍世界坐标系下的三维坐标点 P w ⟶ P_w\longrightarrow P w ⟶ 相机坐标系下的坐标 P c ⟶ P_c\longrightarrow P c ⟶ 归一化坐标 P n o r m ⟶ P_{norm}\longrightarrow P n o r m ⟶ 畸变后的坐标 P d ⟶ P_d\longrightarrow P d ⟶ 像素坐标 U ( u , v ) U(u,v) U ( u , v ) 被动双目立体视觉双目立体视觉是利用视差原理来计算深度。两幅图片因为相机视角不同带来的图像差别构成视差，过程如下： 1，首先需要对双目相机进行标定，得到两个相机的内外参数、单应矩阵。 2，根据标定结果对原始图像校正，校正后的两张图像位于同一平面且互相平行。 3，对校正后的两张图像根据极线约束进行像素点匹配。 4，根据匹配结果计算每个像素的深度，从而获得深度图。优点: 1、对相机硬件要求低，成本也低。因为不需要像TOF和结构光那样使用特殊的发射器和接收器，使用普通的消费级RGB相机即可。 2、室内外都适用

第4章探索性数据分析（多因子与复合分析）

阅读更多关于第4章探索性数据分析（多因子与复合分析）

4.1、多因子 4.1.1 假设检验与方差检验　　假设检验适用于（数据样本较小时）　　方差检验适用于（数据样本较大时） import numpy as np import scipy.stats as ss #生成一20个数的标准正态分布 norm_dist = ss.norm.rvs(size=20) #检测norm_dist是否是正态分布，使用的方法是基于峰度和偏度的 print(ss.normaltest(norm_dist)) #结果：NormaltestResult(statistic=0.2025598777545946, pvalue=0.9036800223028876) #第一个是统计值，第二个值是p值（1） P分布检验常用于比较两种样本是否一致（例如：临床医疗上药物是否有效）；（2）独立分布 t检验用于检测两组值的均值是都有比较大的差异性 print(ss. ttest_ind (ss.norm.rvs(size=10),ss.norm.rvs(size=20))) #结果：Ttest_indResult(statistic=-0.575484958550556, pvalue=0.5695598474341583) 　　由于 p值大于 0.05（假定），可以接受该假设（3）卡方检验常常用于确定两因素件是否有比较强的联系

Discrete Cosine Transform

阅读更多关于 Discrete Cosine Transform

离散余弦变换由于实信号傅立叶变换的共轭对称性，导致 DFT后在频域中有一半的数据冗余。离散余弦变换(DCT)在处理实信号时比离散傅立叶(DFT)变换更具优势。在处理声音信号这类实信号时，DFT得到的结果是复功率谱，其结果中的一半数据是没利用价值的。相比之下，DCT得到的结果是实谱，从而节省了不必要的运算。一个序列的DFT就是将其周期拓展后取其DFS系数的一个周期。如果序列的开始及结尾处的幅值差异较大，那么这个周期拓展的序列便会有较多的高频分量。而序列的DCT（实序列）相当于一个长度是它两倍的实偶序列的DFT（普通序列的DFT＝实序列＋虚序列），在储存同样个数的数据的情况下，DCT的能量更集中在低频。 DCT还有一个很重要的性质（能量集中特性）：大多书自然信号（声音、图像）的能量都集中在离散余弦变换后的低频部分，因而 DCT在（声音、图像）数据压缩中得到了广泛的使用。由于 DCT是从 DFT推导出来的另一种变换，因此许多 DFT的属性在 DCT中仍然是保留下来的。（归一化之后，会在高频产生很多0系数，说明DCT比FFT变换具有更好的能量聚集度。） DCT在图像处理中优于DFT的性质是更高的能量聚集度，根本原因是二维DCT和二维DFT变换空间的基底不同。二维DFT的变换空间基底（谐平面波分量）是由sin和cos平面波共同构成的。而二维DCT的变换空间基底（谐平面波分量

实时智能决策引擎在蚂蚁金服风险管理中的实践

阅读更多关于实时智能决策引擎在蚂蚁金服风险管理中的实践

摘要：以“数字金融新原力(The New Force of Digital Finance)”为主题，蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。金融智能专场分论坛上，蚂蚁金服数据技术专家王修坤做了主题为《实时智能决策引擎在蚂蚁金服风险管理中的实践》的精彩分享。在演讲中，王修坤分享了互联网保险产品场景化、高频化和碎片化的典型特征以及在风险控制方面所面临的诸多挑战，并为大家介绍了实时智能决策引擎在蚂蚁金服风险管理中的实践。王修坤蚂蚁金服保险事业群数据技术专家我们团队先后推出保障消费者退货权益的退货运费险、保障支付宝资金资金安全的账号安全险以及基于AI模型的车险定损产品的定损宝等，这些产品背后都离不开数据能力支撑，本文将简单分享过去一年风控相关工作。互联网保险特征：场景化、高频化、碎片化分享之前，简单介绍一下互联网保险的三个典型特征：场景化、高频化、碎片化。场景化：我们的产品覆盖了我们的衣食住行各方面，“衣”有保障服饰质量的质量保证保险，“食”有保障食品安全的食品安全险，“住”有提供信用住的担保保险，“行”有提供骑行意外险等；高频化：互联网的便捷可以帮助我们通过产品可以同我们的用户高频交互，提供优质体验；碎片化：相比较传统保险，我们可以随时投保、分期缴纳保费；风控所面临的问题风控场景复杂：我们的产品覆盖了衣食住行方方面面

Deep Snake : 基于轮廓调整的SOTA实例分割方法，速度32.3fps | CVPR 2020

阅读更多关于 Deep Snake : 基于轮廓调整的SOTA实例分割方法，速度32.3fps | CVPR 2020

论文提出基于轮廓的实例分割方法Deep snake，轮廓调整是个很不错的方向，引入循环卷积，不仅提升了性能还减少了计算量，保持了实时性，但是Deep snake的大体结构不够优雅，应该还有一些工作可以补，推荐大家阅读来源：晓飞的算法工程笔记公众号论文: Deep Snake for Real-Time Instance Segmentation 论文地址： https://arxiv.org/abs/2001.01629 论文代码： https://github.com/zju3dv/snake/ Introduction 实例分割是许多计算机视觉任务中的重要手段，目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法。受snake算法和Curve-GCN的启发，论文采用基于轮廓的逐步调整策略，提出了Deep snake算法进行实时实例分割，该算法将初始轮廓逐渐优化为目标的边界，如图1所示，达到很好的性能且依然保持很高的实时性(32.3fps)。论文的主要贡献如下：提出基于学习的snake算法用于实时实例分割，对初始轮廓调整至目标边界，并且引入循环卷积(circular convolution)进行轮廓特征的学习。提出two-stage流程进行实例分割，先初始化轮廓再调整轮廓，两个步骤均可以用于修正初始定位的误差。 Deep

订阅特征向量