矩阵特征值

奇异值分解(SVD)原理及应用

若如初见. 提交于 2019-12-23 13:45:11
一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧: 1)特征值: 如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式: 这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先,要明确的是,一个矩阵其实就是一个线性变换,因为一个矩阵乘以一个向量后得到的向量,其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵: 它其实对应的线性变换是下面的形式: 因为这个矩阵M乘以一个向量(x,y)的结果是: 上面的矩阵是对称的,所以这个变换是一个对x,y轴的方向一个拉伸变换(每一个对角线上的元素将会对一个维度进行拉伸变换,当值>1时,是拉长,当值<1时时缩短),当矩阵不是对称的时候,假如说矩阵是下面的样子: 它所描述的变换是下面的样子:   这其实是在平面上对一个轴进行的拉伸变换(如蓝色的箭头所示),在图中,蓝色的箭头是一个最主要的变化方向(变化方向可能有不止一个),如果我们想要描述好一个变换

机器学习数学基础-线性代数

≡放荡痞女 提交于 2019-12-23 00:04:45
前言 AI(人工智能)现在火的一塌糊涂,其实在AI领域,机器学习已广泛应用在搜索引擎、自然语言处理、计算机视觉、生物特征识别、医学诊断、证券市场分析等领域,并且机器学习已经是各大互联网公司的基础设施,不再是一个新鲜的技术。但当你真的开始学习机器学习的时候,就会发现上手门槛其实还挺高的,这主要是因为机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 本文主要介绍一下机器学习涉及到的一些最常用的的数学知识,方便大家在学习机器学习的时候,能扫除一些基础障碍。 标量(scalar) 标量是一个单独的数,一般用普通小写字母或希腊字母表示,如 等。 向量(vector)相关 向量的定义 把数排成一列就是向量,比如: 向量一般用粗体小写字母或粗体希腊字母表示,如 等(有时候也会用箭头来标识,如 ),其元素记作 。 向量默认为列向量,行向量需要用列向量的转置表示,例如 等。 物理专业视角:向量是空间中的箭头,决定一个向量的是它的长度和方向 计算机专业视角:向量是有序的数字列表 数学专业视角:向量可以是任何东西,只要保证两个向量相加以及数字与向量相乘是有意义的即可 运算规则 向量的加法和数量乘法定义: 加法 相同维数的向量之间的加法为: 数量乘法 任意的常数 和向量的乘法为: 在给定数 及向量 的情况下 张成空间 张成空间是向量 和

线性方程组求解

眉间皱痕 提交于 2019-12-17 22:36:34
1.矩阵基本知识 (1)正交矩阵相乘仍然是正交矩阵 A、B是正交矩阵,那么AA'=E BB'=E (AB)*(AB)'=AB*B'A'=A(BB')A'=AEA'=AA'=E (2)一个矩阵乘以正交矩阵,范数不变 ||Ux||^2=(Ux)^T(Ux)=x^TU^TUx=x^Tx=||x||^2 (3)一个矩阵乘以可逆矩阵秩不变 (4)初等变换只是不影响矩阵的秩,其他的特性都改变了。对于计算矩阵的行列式,不能进行初等变换,但是可以做行列的进 加减,不能乘以系数。 (5)矩阵的迹:矩阵的主对角线上各个元素的总和,是矩阵所有特征值的和 (6)对角矩阵的特征值是其对角线上的各个元素 (7)矩阵的秩等于非零奇异值的个数,等于非零特征值的个数 (8)任意矩阵都能进行奇异值分解,只有方阵才可以进行特征值分解 特征值分解: 如果一个向量 v 是方阵 A的特征向量,将可以表示成下面的形式: Av= λv,λ 称为特征向量 v 对应的特征值,并且一个矩 阵的 一组特征向量是一组正交向量。 特征值分解:Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值 奇异值分解: 假设A是一个N * M的矩阵,U是一个N * N的方阵(正交矩阵),Σ 是一个N * M的矩阵(对角线上的元素为奇异值),VT是 一个M * M的矩阵(正交矩阵) 特征值和奇异值的关系: (1)U

[ch04-04] 多样本单特征值计算

梦想与她 提交于 2019-12-09 17:33:50
系列博客,原文在笔者所维护的github上: https://aka.ms/beginnerAI , 点击star加星不要吝啬,星越多笔者越努力。 4.4 多样本单特征值计算 在前面的代码中,我们一直使用单样本计算来实现神经网络的训练过程,但是单样本计算有一些缺点: 很有可能前后两个相邻的样本,会对反向传播产生相反的作用而互相抵消。假设样本1造成了误差为0.5,w的梯度计算结果是0.1;紧接着样本2造成的误差为-0.5,w的梯度计算结果是-0.1,那么前后两次更新w就会产生互相抵消的作用。 在样本数据量大时,逐个计算会花费很长的时间。由于我们在本例中样本量不大(200个样本),所以计算速度很快,觉察不到这一点。在实际的工程实践中,动辄10万甚至100万的数据量,轮询一次要花费很长的时间。 如果使用多样本计算,就要涉及到矩阵运算了,而所有的深度学习框架,都对矩阵运算做了优化,会大幅提升运算速度。打个比方:如果200个样本,循环计算一次需要2秒的话,那么把200个样本打包成矩阵,做一次计算也许只需要0.1秒。 下面我们来看看多样本运算会对代码实现有什么影响,假设我们一次用3个样本来参与计算,每个样本只有1个特征值。 4.4.1 前向计算 由于有多个样本同时计算,所以我们使用 \(x_i\) 表示第 \(i\) 个样本,X是样本组成的矩阵,Z是计算结果矩阵,w和b都是标量: \[ Z =

矩阵论学习笔记五:特征值的估计及对称矩阵的极性

痴心易碎 提交于 2019-12-06 21:51:47
参考书:《矩阵论》第3版,程云鹏 张凯院 徐仲编著 西北工业大学出版社 1. 特征值的估计 1)特征值估计的意义:复数域上矩阵的特征值的计算一般比较困难;在大量应用中,往往不需精确计算特征值,只需估计出它们所在的范围;所以从矩阵的元素出发,若能用较简便的运算给出矩阵特征值的范围,将有着十分重要的意义 2)特征值的界 a)估计矩阵特征值的模的上界的方法 定理5.1:实矩阵的特征值虚部模值范围 定理5.1推论:实对称矩阵的特征值都是实数 引理1 定理5.2:复矩阵特征值的模、实部模、虚部模范围;证明据特征方程和引理1 定理5.2推论:Hermite矩阵的特征值都是实数,反Hermite矩阵的特征值为零或纯虚数 b)估计矩阵特征值之乘积的模的界的方法 矩阵按行严格对角占优、按行(弱)对角占优的定义(定义5.1):Rr(A) 矩阵按列严格对角占优、按列(弱)对角占优的定义(定义5.2): 定理5.3:A为n*n的复矩阵,若A按行严格对角占优,...;s>r时,A的(s,j)元素值为零时,等号成立 定理5.4(Hadamard's inequality):A为n*n复矩阵 估计矩阵按模最小特征值的上界 c)估计矩阵特征值模之平方和的上界的方法 定理5.5(Schur"s inequality):n*n的复矩阵A的特征值为a1,...,an,则有A特征值模值平方之和 <= A元素模值平方直和

矩阵论 第四章 矩阵分析(2) 特征值估计,矩阵级数

痞子三分冷 提交于 2019-12-06 21:49:17
一. 特征值估计 特征值是矩阵很重要的性质,当阶数过高的时候, 计算特征值就很困难,所以需要估计. 范数的内容参见 矩阵分析(1) . 定理1: 设A的特征值为 λ1,λ2,.. λn. 则 |λi| ≤ ||A||, 其中矩阵范数为行范数和列范数. 且|λi|² ≤ ||A||, 其中矩阵范数为谱范数. 定义盖尔圆盘(Gerschgorin): 方阵A = (aij), 令δi = A中第i行元素绝对值之和 - |aii|. 也就是δi 为 第i行除了对角元之外元素的绝对值之和.则盖尔圆Gi 为以aii为圆心,以δi为半径的圆盘. A有n个盖尔圆. 定理2: A的n个盖尔圆 G1, G2, .. Gn, 有以下特性: 1) A的任一特征值 λ ∈∪(i=1, n)Gi. 2) 孤立的盖尔圆内有且只有一个特征值, 联通的盖尔圆内,几个盖尔圆联通就有几个特征值. 由盖尔圆的特性,可以总结出如下推论: 1. 若原点不在A的盖尔圆内,则A非奇异. 2. 若A对角占优, 即 |aii| > δi,(包括行对角占优和列对角占优), 则A非奇异. 3. 若A的n个盖尔圆两两不相交,则A有n个互异的特征值,从而A是单纯矩阵. 4. 若实方阵A有k个孤立的盖尔圆,则A至少有k个相异的实特征值. 事实上,A的n个盖尔圆的圆心都在实轴上,每个孤立的盖尔圆只有一个特征值,而实方阵若有复特征值

矩阵第四章复习总结

不问归期 提交于 2019-12-06 21:48:59
目标:学习特征值的估计、盖尔圆估计、Raleigh商三部分 一、特征值的估计 重点掌握是三个定理: 1)Schur不等式定理: 证明主要通过酉不变性来证明。 2)给出Hermite矩阵(特征值全为实数)和反Hermite矩阵(特征值为0或纯虚数)。 则Hirsch定理如下: 3)可以对特征值虚部做更小范围的限制: 二、Gerschgorin圆盘定理 1)矩阵A的所有特征值均在A的行盖尔圆里;均在A的列盖尔圆里;在两者的交集之中。 注意:由两个或两个以上的盖尔圆构成的连通部分,可能在一个盖尔圆中有两个或两个以上的特征值,而在另外一个或几个盖尔圆中没有特征值。 2)设n阶方阵A的n个盖尔圆盘中有k个圆盘并形成一个连通区域,且它与余下的n-k个圆盘都不相交,则在这个区域中恰好有k个特征值。 思考:这个定理能估计出k个特征值的范围,比如当n个盖尔圆互相独立时,根据该定理和实矩阵的共轭特征值具有成对出现性,那么n个盖尔圆里各有一个特征值。 3)n阶矩阵A的n个圆盘两两互不相交,则A相似于对角阵(单纯矩阵)。 4)设n阶实矩阵A的n个圆盘两两互不相交,则A的特征值全为实数。 5)特征值的精确估计问题:利用D^(-1)AD与A具有相同的特征值,适当选择D,降低特征值的估值范围。 行对角占优矩阵,列对角占优矩阵概念。 行严格对角占优矩阵,列严格对角占优矩阵概念。 性质: 三、

深度学习入门之数学基础概念

独自空忆成欢 提交于 2019-12-06 16:33:48
深度学习之线代复习 标量、向量、矩阵和张量 标量(scalar):一个标量就是一个单独的数。 向量:一个向量是一列数,这些数是有序排列的。我们可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。 矩阵:矩阵是一个二维数组,其中的每一个元素被两个索引(而非 一个)所确定。 张量(tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般地,一 个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。 矩阵的向量相乘 在深度学习中, 我们也使用一些不那么常规的符号。我们允许矩阵和向量相 加,产生另一个矩阵:C = A + b,其中 C i , j C_{i,j} C i , j ​ = A i , j A_{i,j} A i , j ​ + b j b_j b j ​ 。换言之,向量 b 和矩阵 A 的每一行相加。这个简写方法使我们无需在加法操作前定义一个将向量 b 复制 到每一行而生成的矩阵。这种隐式地复制向量 b 到很多位置的方式,被称为广播。 A ⊙ B(dot product)被称为元素对应乘积(element-wise product)或者Hadamard乘积(Hadamard product) 矩阵乘积满足分配律,结合率,但不一定满足AB=BA的交换律。 单位矩阵和逆矩阵 任意 向量和单位矩阵相乘,都不会改变。我们将保持 n 维向量不变的单位矩阵记作 I n

09 线性回归及矩阵运算

南楼画角 提交于 2019-12-06 16:03:43
线性回归 定义:通过一个或者多个自变量与因变量之间进行建模的回归分析。其中可以为一个或者多个自变量之间的线性组合。 一元线性回归:涉及到的变量只有一个 多元线性回归:变量两个或以上 通用公式:h(w) = w0 + w1x1 + w2x2 + ....= wTx 其中w,x 为矩阵:wT=(w0, w1, w2) x=(1,x1, x2)T 回归的应用场景 (连续型数据) 房价预测 销售额预测 (广告,研发成本,规模等因素) 贷款额度 线性关系模型 定义: 通过属性 (特征) 的线性组合来进行预测的函数: f(x) = w1x1 + w2x2 + w3x3 + ...... + wdxd + b w : weight (权重) b: bias (偏置项) 多个特征: (w1:房子的面积, w2:房子的位置 ..) 损失函数(误差) 《统计学习方法》 - 算法 ,策略, 优化 线性回归, 最小二乘法,正规方程 & 梯度下降 损失函数(误差大小) yi 为第i个训练样本的真实值 hw(xi)为第i个训练样本特征值组合预测函数 (预测值) 寻找最优化的w 最小二乘法之 正规方程 (直接求解到最小值,特征复杂时可能没办法求解) 求解:w= (xTx)-1 xTy X 为特征值矩阵,y为目标值矩阵 缺点: 特征过于复杂时,求解速度慢 最小二乘法之 梯度下降 使用场景

线性代数之——正定矩阵

五迷三道 提交于 2019-12-05 10:52:35
这部分我们关注有正特征值的对称矩阵。如果对称性使得一个矩阵重要,那么所有特征值大于零这个额外属性则让这个矩阵真正特殊。但我们这里的特殊并不是稀少,事实上在各种应用中具有正特征值的对称矩阵非常常见,它们被称作 正定矩阵 。 我们可以通过检查特征值是否大于零来识别正定矩阵,但计算特征值是一项工作,当我们真正需要它们的时候我们可以进行计算,而如果我们仅仅想知道它们是否是正的,我们有更快的方式。 1. 正定矩阵的判断 首先,由于矩阵是对称的,所有的特征值自然都是实数。让我们以一个 2×2 的矩阵开始, \[A = \begin{bmatrix} a&b \\b&c\end{bmatrix}\] A 的特征值是正的当且仅当 \(a > 0\) 并且 \(ac-b^2>0\) 。 如果 2×2 矩阵的特征值 \(\lambda_1>0\) , \(\lambda_2>0\) ,那么它们的乘积等于行列式, \(\lambda_1\lambda_2=|A|=ac-b^2>0\) ,它们的和等于矩阵的迹, \(\lambda_1+\lambda_2=a+c>0\) ,所以 \(a\) 和 \(c\) 都必须是正的。 A 的特征值是正的当且仅当主元是正的。 这连接了线性代数的两大部分, 正的特征值意味着正的主元,反之亦然 。而且,主元往往比特征值计算得更快。 基于能量的定义 \[Ax=\lambda