特征向量

均值、方差、协方差、协方差矩阵、特征值、特征向量

蓝咒 提交于 2020-05-05 12:56:07
均值: 描述的是样本集合的中间点。 方差: 描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差: 是一种用来度量两个随机变量关系的统计量。 只能处理二维问题。 计算协方差需要计算均值。 如下式: 方差与协方差的关系 方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大 协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。 协方差矩阵: 协方差矩阵能处理多维问题; 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要 按列计算均值 。 如果数据是3维,那么协方差矩阵是: 特征值与 特征向量 线性变化: 线性变换 (线性映射)是在作用于 两个向量空间之间的函数 ,它保持 向量加法和标量乘法 的运算,从一个向量空间变化到另一个向量空间。 实际上线性变换表现出来的就是一个矩阵 。 特征值和特征向量 是一体的概念: 对于一个给定的线性变换(矩阵A),它的特征向量 ξ 经过这个线性变换之后,得到的新向量仍然与原来的 ξ 保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

机器学习数学基础

随声附和 提交于 2020-05-05 12:55:51
向量空间 定义 集和   - 具备某种特定性质的事物的总体,可有限,可无限, 可以理解为某种相似数据的集成 ( 如, 整数集, 实数集 ) 空间   - 满足一定条件的集和 向量   - 具备大小和方向的量 向量空间   - 满足了加乘运算的集和 例子 较为常见的是 n 维空间 , n 表示空间的维度, 当 n = 3 的时候, 可以理解为一个被取定了坐标系的三维空间 空间内的每一个组都可以被一组实数列表来进行表示, 列表中的每个点为该坐标轴上的投影 向量的定义与运算 定义 向量    - 向量空间的元素为向量 运算 加法 代数角度  - 同位置相加, 几何角度  - 按照某一个向量平移后首位相连, 计算新向量 乘法 代数角度  - 变量于实数相乘, 变量中的所有数字于实数相乘即可 几何角度  - 变量在空间中的伸缩 向量组的线性组合 定义 向量组    - 若干个 同维度 的列向量( 或 行向量 ) 所组成的 集和 线性组合   - ↓ 意义 帮助理解 基 的概念 向量空间中的任何一个变量. 都可以看做是对基向量的缩放和相加操作 都可以写成两个向量的线性组合, 如图的 帮助理解 span(张成空间) 的概念 不断的调整 和 可以得到无数的新向量, 而这些新向量的组成的集和, 就叫做张成空间 向量组的线性相关性 定义 内积和范数 定义 内积 从代数的角度来说 ,

文本挖掘预处理之向量化与Hash Trick

醉酒当歌 提交于 2020-05-04 10:40:14
    在 文本挖掘的分词原理 中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型     在讲向量化与Hash Trick之前,我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。     词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用TF-IDF进行特征的权重修正,再将特征进行标准化。 再进行一些其他的特征工程后,就可以将数据带入机器学习算法进行分类聚类了。     总结下词袋模型的三部曲:分词(tokenizing),统计修订词特征值(counting)与标准化(normalizing)。     与词袋模型非常类似的一个模型是词集模型(Set of Words,简称SoW),和词袋模型唯一的不同是它仅仅考虑词是否在文本中出现,而不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。在大多数时候

[吴恩达机器学习笔记]16推荐系统5-6协同过滤算法/低秩矩阵分解/均值归一化

一曲冷凌霜 提交于 2020-05-04 03:38:58
16.推荐系统 Recommender System 觉得有用的话,欢迎一起讨论相互学习~ Follow Me <font color=deeppink>16.5 向量化:低秩矩阵分解Vectorization_ Low Rank Matrix Factorization</font> <font color=Orange>示例</font> 当给出一件产品时,你能否找到与之相关的其它产品。 一位用户最近看上一件产品,有没有其它相关的产品,你可以推荐给他 <font color=Orange>协同过滤算法</font> 我将要做的是:实现一种选择的方法,写出 协同过滤算法 的预测情况 我们有关于五部电影的数据集,我将要做的是,将这些用户的电影评分,进行分组并存。我们有五部电影,以及四位用户,那么 这个矩阵 Y 就是一个 5 行 4 列的矩阵,它将这些电影的用户评分数据都存在矩阵里: 使用 协同过滤算法 对参数进行学习,并使用公式$(\theta^{(n_u)})^{T}(x^{(n_m)})$ 对推荐的结果进行预测,得到一个预测值的矩阵,这个矩阵的预测结果和用户评分数据矩阵Y中数据一一对应: <font color=green>低秩矩阵分解</font> 你也可以将电影的特征按照样本的顺序1,2,3...$n_m$按行排列成矩阵X,将用户的特征按照用户的顺序1,2,3...$n_u

机器学习基础---神经网络(属于逻辑回归)(构建假设函数)

爷,独闯天下 提交于 2020-05-03 14:51:47
一:为什么需要神经网络 (一)案例 为了很好的拟合数据,我们需要保留较多的相关参数,虽然可以使用正则化进行优化。但是 无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大。 之前我们已经看到过,使用非线性的多项式项,能够帮助我们建立更好的分类模型。假设我们有非常多的特征,例如大于 100 个变量。 我们希望用这 100 个特征来构建一个非线性的多项式模型,结果将是数量非常惊人的特征组合,即便我们只采用两两特征的组合: 我们也会有接近 5000 个组合而成的特征。 这对于一般的逻辑回归来说需要计算的特征太多了。所以,当特征个数n很大时(许多实际的机器学习问题特征都是很大的),将这些高阶多项式项数包含到特征里面,会导致特征空间急剧膨胀。 (二)案例二:计算机视觉 假设我们希望训练一个模型来识别视觉对象(例如识别一张图片上是否是一辆汽车),我们怎样才能这么做呢? 假设使用机器学习算法, 来训练一个分类器,使它检测一个图像,来判断图像是否为一辆汽车。 我们取出这幅图片中的一小部分,将其放大: 当人眼看到一辆汽车时,计算机实际上看到的却是这个: 一个数据矩阵,表示了像素强度值 因此,对于计算机视觉来说问题就变成了:根据这个像素点亮度矩阵,来告诉我们,这些数值代表一个汽车门把手。 具体而言,当用机器学习算法构造一个汽车识别器时, 我们要做的就是提供一个带标签的样本集

三维点云处理技术二:三维点云表征概述

て烟熏妆下的殇ゞ 提交于 2020-05-02 17:39:37
课程来源: 睿慕课《三维点云处理技术和深度学习在点云处理中的应用》 讲师:索传哲 三维点云数据获取方式及原理 主要分为立体视觉测量法、结构光3D成像法、飞行时间TOF法。 立体视觉测量法 相机成像模型 视觉SLAM14讲——相机模型介绍 世界坐标系下的三维坐标点 P w ⟶ P_w\longrightarrow P w ​ ⟶ 相机坐标系下的坐标 P c ⟶ P_c\longrightarrow P c ​ ⟶ 归一化坐标 P n o r m ⟶ P_{norm}\longrightarrow P n o r m ​ ⟶ 畸变后的坐标 P d ⟶ P_d\longrightarrow P d ​ ⟶ 像素坐标 U ( u , v ) U(u,v) U ( u , v ) 被动双目立体视觉 双目立体视觉是利用视差原理来计算深度。两幅图片因为相机视角不同带来的图像差别构成视差,过程如下: 1,首先需要对双目相机进行标定,得到两个相机的内外参数、单应矩阵。 2,根据标定结果对原始图像校正,校正后的两张图像位于同一平面且互相平行。 3,对校正后的两张图像根据极线约束进行像素点匹配。 4,根据匹配结果计算每个像素的深度,从而获得深度图。 优点: 1、对相机硬件要求低,成本也低。因为不需要像TOF和结构光那样使用特殊的发射器和接收器,使用普通的消费级RGB相机即可。 2、室内外都适用

第4章 探索性数据分析(多因子与复合分析)

被刻印的时光 ゝ 提交于 2020-05-02 10:28:40
4.1、多因子 4.1.1 假设检验与方差检验   假设检验适用于( 数据样本较小时 )   方差检验适用于( 数据样本较大时 ) import numpy as np import scipy.stats as ss #生成一20个数的标准正态分布 norm_dist = ss.norm.rvs(size=20) #检测norm_dist是否是正态分布,使用的方法是基于峰度和偏度的 print(ss.normaltest(norm_dist)) #结果:NormaltestResult(statistic=0.2025598777545946, pvalue=0.9036800223028876) #第一个是统计值,第二个值是p值 (1) P分布 检验常用于比较 两种样本是否一致 (例如:临床医疗上药物是否有效); (2) 独立分布 t检验 用于检测 两组值的均值是都有比较大的差异性 print(ss. ttest_ind (ss.norm.rvs(size=10),ss.norm.rvs(size=20))) #结果:Ttest_indResult(statistic=-0.575484958550556, pvalue=0.5695598474341583)   由于 p值大于 0.05(假定),可以接受该假设 (3) 卡方检验 常常用于确定 两因素件是否有比较强的联系

Discrete Cosine Transform

我只是一个虾纸丫 提交于 2020-05-02 05:54:04
离散余弦变换 由于实信号傅立叶变换的共轭对称性,导致 DFT后在频域中有一半的数据冗余。 离散余弦变换(DCT)在处理实信号时比离散傅立叶(DFT)变换更具优势。在处理声音信号这类实信号时,DFT得到的结果是复功率谱,其结果中的一半数据是没利用价值的。相比之下,DCT得到的结果是实谱,从而节省了不必要的运算。 一个序列的DFT就是将其周期拓展后取其DFS系数的一个周期。如果序列的开始及结尾处的幅值差异较大,那么这个周期拓展的序列便会有较多的高频分量。 而序列的DCT(实序列)相当于一个长度是它两倍的实偶序列的DFT(普通序列的DFT=实序列+虚序列),在储存同样个数的数据的情况下,DCT的能量更集中在低频。 DCT还有一个很重要的性质(能量集中特性):大多书自然信号(声音、图像)的能量都集中在离散余弦变换后的低频部分,因而 DCT在(声音、图像)数据压缩中得到了广泛的使用。由于 DCT是从 DFT推导出来的另一种变换,因此许多 DFT的属性在 DCT中仍然是保留下来的。(归一化之后,会在高频产生很多0系数,说明DCT比FFT变换具有更好的能量聚集度。) DCT在图像处理中优于DFT的性质是更高的能量聚集度,根本原因是二维DCT和二维DFT变换空间的基底不同。二维DFT的变换空间基底(谐平面波分量)是由sin和cos平面波共同构成的。而二维DCT的变换空间基底(谐平面波分量

实时智能决策引擎在蚂蚁金服风险管理中的实践

試著忘記壹切 提交于 2020-05-01 14:37:01
摘要 :以“数字金融新原力(The New Force of Digital Finance)”为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。金融智能专场分论坛上,蚂蚁金服数据技术专家王修坤做了主题为《实时智能决策引擎在蚂蚁金服风险管理中的实践》的精彩分享。 在演讲中,王修坤分享了互联网保险产品场景化、高频化和碎片化的典型特征以及在风险控制方面所面临的诸多挑战,并为大家介绍了实时智能决策引擎在蚂蚁金服风险管理中的实践。 王修坤 蚂蚁金服保险事业群数据技术专家 我们团队先后推出保障消费者退货权益的退货运费险、保障支付宝资金资金安全的账号安全险以及基于AI模型的车险定损产品的定损宝等,这些产品背后都离不开数据能力支撑,本文将简单分享过去一年风控相关工作。 互联网保险特征:场景化、高频化、碎片化 分享之前,简单介绍一下互联网保险的三个典型特征:场景化、高频化、碎片化。 场景化:我们的产品覆盖了我们的衣食住行各方面,“衣”有保障服饰质量的质量保证保险,“食”有保障食品安全的食品安全险,“住”有提供信用住的担保保险,“行”有提供骑行意外险等; 高频化:互联网的便捷可以帮助我们通过产品可以同我们的用户高频交互,提供优质体验; 碎片化:相比较传统保险,我们可以随时投保、分期缴纳保费; 风控所面临的问题 风控场景复杂: 我们的产品覆盖了衣食住行方方面面

Deep Snake : 基于轮廓调整的SOTA实例分割方法,速度32.3fps | CVPR 2020

江枫思渺然 提交于 2020-05-01 13:33:48
论文提出基于轮廓的实例分割方法Deep snake,轮廓调整是个很不错的方向,引入循环卷积,不仅提升了性能还减少了计算量,保持了实时性,但是Deep snake的大体结构不够优雅,应该还有一些工作可以补,推荐大家阅读   来源:晓飞的算法工程笔记 公众号 论文: Deep Snake for Real-Time Instance Segmentation 论文地址: https://arxiv.org/abs/2001.01629 论文代码: https://github.com/zju3dv/snake/ Introduction   实例分割是许多计算机视觉任务中的重要手段,目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法。受snake算法和Curve-GCN的启发,论文采用基于轮廓的逐步调整策略,提出了Deep snake算法进行实时实例分割,该算法将初始轮廓逐渐优化为目标的边界,如图1所示,达到很好的性能且依然保持很高的实时性(32.3fps)。   论文的主要贡献如下: 提出基于学习的snake算法用于实时实例分割,对初始轮廓调整至目标边界,并且引入循环卷积(circular convolution)进行轮廓特征的学习。 提出two-stage流程进行实例分割,先初始化轮廓再调整轮廓,两个步骤均可以用于修正初始定位的误差。 Deep