特征向量 | 易学教程

矩阵特征值分解与奇异值分解含义解析及应用

阅读更多关于矩阵特征值分解与奇异值分解含义解析及应用

特征值与特征向量的几何意义矩阵的乘法是什么，别只告诉我只是“前一个矩阵的行乘以后一个矩阵的列”，还会一点的可能还会说“前一个矩阵的列数等于后一个矩阵的行数才能相乘”，然而，这里却会和你说——那都是表象。矩阵乘法真正的含义是变换，我们学《线性代数》一开始就学行变换列变换，那才是线代的核心——别会了点猫腻就忘了本——对，矩阵乘法就是线性变换，若以其中一个向量A为中心，则B的作用主要是使A发生如下变化： 1、伸缩 clf; A = [0, 1, 1, 0, 0;... 1, 1, 0, 0, 1]; % 原空间 B = [3 0; 0 2]; % 线性变换矩阵 plot(A(1,:),A(2,:), '-*');hold on grid on;axis([0 3 0 3]); gtext('变换前'); Y = B * A; plot(Y(1,:),Y(2,:), '-r*'); grid on;axis([0 3 0 3]); gtext('变换后'); 从上图可知，y方向进行了2倍的拉伸，x方向进行了3倍的拉伸，这就是B=[3 0; 0 2]的功劳,3和2就是伸缩比例。请注意，这时B除了对角线元素为各个维度的倍数外，非正对角线元素都为0，因为下面将要看到，对角线元素非0则将会发生切变及旋转的效果。 2、切变 clf; A = [0, 1, 1, 0, 0;... 1, 1, 0

simhash简介

阅读更多关于 simhash简介

先贴一张网上的图片：解释一下图片：这里feature可以指一篇文档分词后的某个词，即将文档中的某个词作为一个特征。weight是这个词的权重，这里可以是这个词在这个句子中出现的次数。这里的hash算法就是传统的hash算法，通过调用一个hash函数实现的。 simhash是为了计算一篇文档之间的相似度存在的，通过simhash算法可以计算出文档的simhash值，通过各个文档计算出的二进制值来计算文档之间的汉明距离，然后根据汉明距离来比较文档之间的相似度。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：分词给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重（如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数）。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN 博客结构之法算法之道的作者 July”，然后为每个特征向量赋予权值：CSDN(4) 博客(5) 结构(3) 之(1) 法(2) 算法(3) 之(1) 道(2) 的(1) 作者(5) July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。 hash

海量数据处理---simhash算法

阅读更多关于海量数据处理---simhash算法

方法介绍背景如果某一天，面试官问你如何设计一个比较两篇文章相似度的算法？可能你会回答几个比较传统点的思路：一种方案是先将两篇文章分别进行分词，得到一系列特征向量，然后计算特征向量之间的距离（可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等），从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash，我们考虑为每一个web文档通过hash的方式生成一个指纹（finger print）。下面，我们来分析下这两种方法。采取第一种方法，若是只比较两篇文章的相似性还好，但如果是海量数据呢，有着数以百万甚至亿万的网页，要求你计算这些网页的相似度。你还会去计算任意两个网页之间的距离或夹角余弦么？想必你不会了。而第二种方案中所说的传统加密方式md5，其设计的目的是为了让整个分布尽可能地均匀，但如果输入内容一旦出现哪怕轻微的变化，hash值就会发生很大的变化。举个例子，我们假设有以下三段文本： the cat sat on the mat the cat sat on a mat we all scream for ice cream 使用传统hash可能会得到如下的结果： irb(main):006:0> p1 = 'the cat sat on the mat' irb(main):007:0> p1.hash => 415542861 irb(main):005

【python 走进NLP】simhash 算法计算两篇文章相似度

阅读更多关于【python 走进NLP】simhash 算法计算两篇文章相似度

互联网网页存在大量的重复内容网页，无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪，还是社交媒体等文本去重和聚类，都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型，计算分词后的文本的特征向量的相似性，这种方法存在效率的严重弊端，无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点，对每个文本构造一个指纹，来作为该文本的标识，从形式上来看指纹一般为固定长度较短的字符串，相同指纹的文本可以认为是相同文本。最简单的指纹构造方式就是计算文本的 md5 或者 sha 哈希值，除非输入相同的文本，否则会发生“雪崩效应”，极小的文本差异通过 md5 或者 sha计算出来的指纹就会不同（发生冲撞的概率极低），那么对于稍加改动的文本，计算出来的指纹也是不一样。因此，一个好的指纹应该具备如下特点： 1、指纹是确定性的，相同的文本的指纹是相同的； 2、指纹越相似，文本相似性就越高； 3、指纹生成和匹配效率高。业界关于文本指纹去重的算法众多，如 k-shingle 算法、google 提出的simhash 算法、Minhash 算法、百度top k 最长句子签名算法等等。下面介绍下simhash算法以及python应用 SimHash算法 simhash算法的主要思想是降维，将高维的特征向量映射成一个f-bit的指纹

SimHash算法原理

阅读更多关于 SimHash算法原理

刚到公司项目中用到了simhash，但没有详细的了解，后来被问到原理，结果就狗带了。。下面是自己查资料和自己的一些理解，不愧是google出品，比较符合google的风格，简单实用。先贴一张网上的图片：解释一下图片：这里feature可以指一篇文档分词后的某个词，即将文档中的某个词作为一个特征。weight是这个词的权重，这里可以是这个词在这个句子中出现的次数。这里的hash算法就是传统的hash算法，通过调用一个hash函数实现的。 simhash是为了计算一篇文档之间的相似度存在的，通过simhash算法可以计算出文档的simhash值，通过各个文档计算出的二进制值来计算文档之间的汉明距离，然后根据汉明距离来比较文档之间的相似度。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：分词给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重（如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数）。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN 博客结构之法算法之道的作者 July”，然后为每个特征向量赋予权值：CSDN(4) 博客(5) 结构(3) 之(1)

特征值与特征向量

阅读更多关于特征值与特征向量

特征值分解如果一个向量v是方阵A的特征向量，可以表示成如下形式：其中λ称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。需要注意的是：只有方阵才能进行特征分解。特征值分解是将一个矩阵分解成下面的形式：其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。代码实现 python： //方阵A dataA = np.array([[0.00178, -0.00296, 0.000427], [-0.00296, 0.00704, -0.00093], [0.00043, -0.00093, 0.000197]]) //求特征值和特征向量 eigVals, eigVectors = np.linalg.eig(dataA) //定义特征值的对角阵 smat = np.zeros((3, 3)) smat = np.diag(eigVals) //根据特征值和特征向量重新计算A = QΣQ(-1) result = np.dot(eigVectors, np.dot(smat, np.linalg.inv(eigVectors))) print(result) print(dataA) //对比两个矩阵值是否相同 print(np.allclose(dataA, result)) 来源： https://my.oschina

特征值与特征向量

阅读更多关于特征值与特征向量

特征值分解如果一个向量v是方阵A的特征向量，可以表示成如下形式：其中λ称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。需要注意的是：只有方阵才能进行特征分解。特征值分解是将一个矩阵分解成下面的形式：其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。特征值的性质设n阶矩阵A=(aij) 的特征值为λ1,λ2,...λn λ1+λ2+...+λn = a11+ a22+…+ann，trail(A)=特征值的和； λ1λ2… λn =|A|，特征值的乘积=A的行列式；如果A是实对称矩阵，则特征向量两两正交，任意两个向量的叉积(np.cross)等于第三个特征向量；如果A是实对称矩阵，则特征向量构成的矩阵Q有：Q的转置等于Q的逆，即 Q.T = np.linalg.inv(Q); 如果A是实对称矩阵，则特征向量构成的矩阵Q单位正交阵，即np.dot(Q, Q.T) = E; 代码实现 python： # 方阵A 此处为实对称矩阵 dataA = np.array([[0.00178, -0.00296, 0.000427], [-0.00296, 0.00704, -0.00093], [0.00043, -0.00093, 0.000197]]) # 求特征值和特征向量 #

[转载]什么是白化(whitening)?

阅读更多关于 [转载]什么是白化(whitening)?

[转载]什么是白化(whitening)? 来源： https://blog.csdn.net/hjimce/article/details/50864602 白化whitening 原文地址： http://blog.csdn.net/hjimce/article/details/50864602 作者：hjimce 一、相关理论白化这个词，可能在深度学习领域比较常遇到，挺起来就是高大上的名词，然而其实白化是一个比PCA稍微高级一点的算法而已，所以如果熟悉PCA，那么其实会发现这是一个非常简单的算法。白化的目的是去除输入数据的冗余信息。假设训练数据是图像，由于图像中相邻像素之间具有很强的相关性，所以用于训练时输入是冗余的；白化的目的就是降低输入的冗余性。输入数据集X，经过白化处理后，新的数据X'满足两个性质： (1)特征之间相关性较低； (2)所有特征具有相同的方差。其实我们之前学的PCA算法中，可能PCA给我们的印象是一般用于降维操作。然而其实PCA如果不降维，而是仅仅使用PCA求出特征向量，然后把数据X映射到新的特征空间，这样的一个映射过程，其实就是满足了我们白化的第一个性质：除去特征之间的相关性。因此白化算法的实现过程，第一步操作就是PCA，求出新特征空间中X的新坐标，然后再对新的坐标进行方差归一化操作。二、算法概述白化分为PCA白化、ZCA白化

PCA(主成分分析)方法浅析

阅读更多关于 PCA(主成分分析)方法浅析

PCA(主成分分析)方法浅析降维、数据压缩找到数据中最重要的方向：方差最大的方向，也就是样本间差距最显著的方向在与第一个正交的超平面上找最合适的第二个方向 PCA算法流程上图第一步描述不正确，应该是去中心化，而不是中心化具体来说，投影这一环节就是：将与特征值对应的k个特征向量分别作为行向量组成特征向量矩阵P 直接乘以特征变量就好。原来是二维数据，降维之后只有一维。我们想保留几个维度的特征，就留下几个特征值和对应的特征向量。来源： https://www.cnblogs.com/jiading/p/11963861.html

均值、方差、协方差、协方差矩阵、特征值、特征向量

阅读更多关于均值、方差、协方差、协方差矩阵、特征值、特征向量

均值：描述的是样本集合的中间点。方差：描述的是样本集合的各个样本点到均值的距离之平均，一般是用来描述一维数据的。协方差：是一种用来度量两个随机变量关系的统计量。只能处理二维问题。计算协方差需要计算均值。如下式：方差与协方差的关系方差是用来度量单个变量 “ 自身变异”大小的总体参数，方差越大表明该变量的变异越大协方差是用来度量两个变量之间 “协同变异”大小的总体参数，即二个变量相互影响大小的参数，协方差的绝对值越大，则二个变量相互影响越大。协方差矩阵：协方差矩阵能处理多维问题；协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差。协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。样本矩阵中若每行是一个样本，则每列为一个维度，所以计算协方差时要按列计算均值。如果数据是3维，那么协方差矩阵是：特征值与特征向量线性变化：线性变换 (线性映射)是在作用于两个向量空间之间的函数，它保持向量加法和标量乘法的运算，从一个向量空间变化到另一个向量空间。实际上线性变换表现出来的就是一个矩阵。特征值和特征向量是一体的概念：对于一个给定的线性变换（矩阵A），它的特征向量 ξ 经过这个线性变换之后，得到的新向量仍然与原来的 ξ 保持在同一條直線上，但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

订阅特征向量