平行向量 | 易学教程

机器学习数学基础-线性代数

阅读更多关于机器学习数学基础-线性代数

前言 AI（人工智能）现在火的一塌糊涂，其实在AI领域，机器学习已广泛应用在搜索引擎、自然语言处理、计算机视觉、生物特征识别、医学诊断、证券市场分析等领域，并且机器学习已经是各大互联网公司的基础设施，不再是一个新鲜的技术。但当你真的开始学习机器学习的时候，就会发现上手门槛其实还挺高的，这主要是因为机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。本文主要介绍一下机器学习涉及到的一些最常用的的数学知识，方便大家在学习机器学习的时候，能扫除一些基础障碍。标量（scalar）标量是一个单独的数，一般用普通小写字母或希腊字母表示，如等。向量（vector）相关向量的定义把数排成一列就是向量，比如：向量一般用粗体小写字母或粗体希腊字母表示，如等（有时候也会用箭头来标识，如），其元素记作。向量默认为列向量，行向量需要用列向量的转置表示，例如等。物理专业视角：向量是空间中的箭头，决定一个向量的是它的长度和方向计算机专业视角：向量是有序的数字列表数学专业视角：向量可以是任何东西，只要保证两个向量相加以及数字与向量相乘是有意义的即可运算规则向量的加法和数量乘法定义：加法相同维数的向量之间的加法为：数量乘法任意的常数和向量的乘法为：在给定数及向量的情况下张成空间张成空间是向量和

向量的点乘和叉乘

阅读更多关于向量的点乘和叉乘

【点乘】在数学中，数量积（dot product; scalar product，也称为点积）是接受在实数R上的两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。代数定义设二维空间内有两个向量和定义它们的数量积（又叫内积、点积）为以下实数：更一般地，n维向量的内积定义如下: 几何定义设二维空间内有两个向量和，它们的夹角为，则内积定义为以下实数：该定义只对二维和三维空间有效。点积的值 u的大小、v的大小、u,v夹角的余弦。在u,v非零的前提下，点积如果为负，则u,v形成的角大于90度；如果为零，那么u,v垂直；如果为正，那么u,v形成的角为锐角。两个单位向量的点积得到两个向量的夹角的cos值，通过它可以知道两个向量的相似性，利用点积可判断一个多边形是否面向摄像机还是背向摄像机。向量的点积与它们夹角的余弦成正比，因此在聚光灯的效果计算中，可以根据点积来得到光照效果，如果点积越大，说明夹角越小，则物理离光照的轴线越近，光照越强。运算律交换律：分配律：结合律：，其中m是实数。【叉乘】向量积，数学中又称外积、叉积，物理中称矢积、叉乘，是一种在向量空间中向量的二元运算。与点积不同，它的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量和垂直。表示方法两个向量a和b的叉积写作a×b（有时也被写成a∧b

线性代数的本质（3）矩阵与线性变换

阅读更多关于线性代数的本质（3）矩阵与线性变换

很遗憾，Matrix（矩阵）是什么是说不清的。你必须得自己亲眼看看。----墨菲斯一、线性变换（Linear transformation） 1.transformation（变换）本质上是“函数”的一种花哨的说法，它接收输入内容，并输出对应结果。特别地，在线性代数的情况下，我们考虑的是接收一个向量并且输出一个向量的变换。 2.为什么“变换”和“函数”意义相同，却使用前者而不是后者？使用“变换”是在暗示以特定方式来可视化这一输入-输出关系。一种理解“向量的函数”的方法是使用运动。 3.变换是很随意的，但是线性变换需要具备以下两条性质：直线在变换后仍然保持为直线，不能有所弯曲。原点必须保持固定。 4.总的来说，你应该把线性变换看作是“保持网格线平行并等距分布”的变换。 5.如何用数值描述线性变换？我们只需要记住基向量，i帽和j帽。v向量=-1i帽+2j帽。那么变换后的i帽和j帽从[1,-2]到[3,0]通过计算可以得到v向量的值为[5,2]。所以很炫酷呀，我们只需要记住基向量就可以推断出任何向量的落脚点（变换后的落脚点），完全不必观察变换本身是什么样 6.一个二维线性变换仅由四个数字完全确定，变换后i帽的两个坐标与变换后j帽的两个坐标，通常我们将这些坐标包装在一个2*2的格子中，称它为2*2矩阵，你可以把它的列理解为两个特殊的向量，即i帽和j帽分别落脚的位置。 7

Deep & Cross模型

阅读更多关于 Deep & Cross模型

Deep&Cross显式地做高阶特征组合。就是说设计几层神经网络结构，每一层代表其不同阶的组合，最下面是二阶组合，再套一层，三阶组合，四阶组合，一层一层往上套，这就叫显式地捕获高阶特征组合，Deep&Cross是最开始做这个的。 Deep & Cross Network 对于低阶的组合特征的构造，线性模型使用人工特征工程，FM使用隐向量的内积，FFM引入field的概念，针对不同的field上使用不同隐向量构造组合特征。DNN可以一定程度上实现自动学习特征组合，学习到的特征都是高度非线性的高阶组合特征，这样的隐式的学习特征组合带来的不可解释性，以及低效率的学习，因为并不是所有的特征组合都是有用的。Deep&Cross Network（DCN）将Wide部分替换为由特殊网络结构实现的Cross，在学习特定阶数组合特征的时候效率非常高，自动构造有限高阶的交叉特征，并学习对应权重，告别了繁琐的人工叉乘。一个DCN模型从嵌入和堆积层开始，然后是并行的是一个交叉网络和一个与之平行的深度网络，之后是最后的组合层，它结合了两个网络的输出。嵌入和堆叠层文中对原始特征做如下处理：1) 对sparse特征进行embedding，对于multi-hot的sparse特征，embedding之后再做一个简单的average pooling；2) 对dense特征归一化

【转载】【收藏】机器学习与深度学习核心知识点总结

阅读更多关于【转载】【收藏】机器学习与深度学习核心知识点总结

原文地址： https://cloud.tencent.com/developer/article/1526902 数学 1.列举常用的最优化方法梯度下降法牛顿法拟牛顿法坐标下降法梯度下降法的改进型如AdaDelta，AdaGrad，Adam，NAG等。 2.梯度下降法的关键点梯度下降法沿着梯度的反方向进行搜索，利用了函数的一阶导数信息。梯度下降法的迭代公式为：根据函数的一阶泰勒展开，在负梯度方向，函数值是下降的。只要学习率设置的足够小，并且没有到达梯度为0的点处，每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的x k +1位于迭代之前的值x k 的邻域内，从而可以忽略泰勒展开中的高次项，保证迭代时函数值下降。梯度下降法只能保证找到梯度为0的点，不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0，或者达到最大指定迭代次数。梯度下降法在机器学习中应用广泛，尤其是在深度学习中。AdaDelta，AdaGrad，Adam，NAG等改进的梯度下降法都是用梯度构造更新项，区别在于更新项的构造方式不同。对梯度下降法更全面的介绍可以阅读SIGAI之前的文章“ 理解梯度下降法 ”。 3.牛顿法的关键点牛顿法利用了函数的一阶和二阶导数信息，直接寻找梯度为0的点。牛顿法的迭代公式为：其中H为Hessian矩阵，g为梯度向量

机器学习-SVM

阅读更多关于机器学习-SVM

机器学习-SVM理论理论知识 SVM是在神经网络模型及CNN出现之前很火的一种分类模型。它有很好的泛化能力。线性可分支持向量机:当data线性可分时使用如果两类数据是线性可分的，那么如果垂直n维超平面做一个投影面，则这两类数据一定可以投影到低维空间中且还是可分的。线性可分SVM中不会出现在分割面上及支撑面和分割面之间的缓冲部分（人造词汇，不是专业名称），最多出现在支撑面上。但是在线性SVM中是可能的。硬间隔最大化（hard margin maximization) 硬间隔硬间隔支持向量机线性支持向量机：当data不是线性的，但是可以在一定错误率下线性分开软间隔最大化(soft margin maximization) 软间隔软间隔支持向量机非线性支持向量机:在线性可分或线性的基础上加上核函数，实现非线性分类的效果核函数kernel function 对于高斯核函数，c越大，过渡带越窄；γ越大，分割界面的非线性程度越大（当γ倾向于无穷大时，SVM就退化为注意，我们一般把向量定义为列向量，这里的w和x都是这样的将一个点带入，如果式子大于0，表示是在法向量的同方向；小于0，表示是在法向量的逆方向。如果这么来看，最严谨的标法应该是把上图中w的方向换一下，即**法向量w永远指向以直线划分的大于0的方向。之后其实没必要对这个太过于纠结

Lasso回归算法：坐标轴下降法与最小角回归法小结

阅读更多关于 Lasso回归算法：坐标轴下降法与最小角回归法小结

Ridge回归由于直接套用线性回归可能产生过拟合，我们需要加入正则化项，如果加入的是L2正则化项，就是Ridge回归，有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项，和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下： J(θ)=1/2(Xθ−Y) T (Xθ−Y)+1/2α||θ|| 2 2 其中α为常数系数，需要进行调优。||θ|| 2 为L2范数。Ridge回归的解法和一般线性回归大同小异。如果采用梯度下降法，则每一轮θ迭代的表达式是： θ=θ−(βX T (Xθ−Y)+αθ) 其中β为步长。如果用最小二乘法，则θ的结果是： θ=(X T X+αE)−1X T Y 其中E为单位矩阵。 Ridge回归在不抛弃任何一个变量的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但这会使得模型的变量特别多，模型解释性差。有没有折中一点的办法呢？即又可以防止过拟合，同时克服Ridge回归模型变量多的缺点呢？有，这就是下面说的Lasso回归。 Lasso回归概述 Lasso回归有时也叫做线性回归的L1正则化，和Ridge回归的主要区别就是在正则化项，Ridge回归用的是L2正则化，而Lasso回归用的是L1正则化。Lasso回归的损失函数表达式如下： J(θ)=1/2n(Xθ−Y) T (Xθ−Y)+α||θ|| 1 其中n为样本个数

机器学习——SVM

阅读更多关于机器学习——SVM

文章目录 SVM介绍 SVM理论线性可分性（linear separability）损失函数（loss function）经验风险（empirical risk）与结构风险（structural risk）核方法常见的核函数核函数与松弛变量问题描述解答与分析 SVM算法步骤问题解答与分析其他扩展问题其他参考 SVM（Support Vector Machine, 支持向量机）是众多监督式学习方法中十分出色的一种，几乎所有的讲述经典机器学习方法的教材都会介绍。 SVM介绍支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类（binary classification）的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane)。 SVM使用铰链损失函数（hinge loss）计算经验风险（empirical risk）并在求解系统中加入了正则化项以优化结构风险（structural risk），是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法（kernel method）进行非线性分类，是常见的核学习（kernel learning）方法之一

ZROI 19.08.02 计算几何

阅读更多关于 ZROI 19.08.02 计算几何

1.向量基础知识 \(atan2\) 可以求极角，但是不是特别精确，在坐标接近 \(10^{9}\) 时会出锅，安全的做法是叉积。旋转、反射和平移等都可以抽象为矩阵，即，它们可以复合。（需要一些必修四知识）给一个序列，每个位置表示旋转、反射、平移中的一种，求 \((x,y)\) 经过序列 \([l,r]\) 的点。线段树维护矩乘就好了，矩阵里需要带个常数位置。 Simpson积分不会积分，告辞。 2.简单题求点 \(p\) 在直线 \(p_1p_2\) 上的投影。投影就是点积，直接积就行了，必修四怎么学的。求点 \(p\) 在直线 \(p_1p_2\) 的反射点。跟上面的一模一样。判断两个向量的 \(5\) 种位置关系。叉积判出不共线的两种，剩下的直接比较横坐标就可以了。给两条直线，问它们是平行还是垂直还是都不是。平行向量叉积为 \(0\) ，垂直向量点积为 \(0\) 。判两条线段是否相交（不严格，端点交也算）。跨立实验：对于一条线段，看另一条线段的两个点是否在它两侧，两边都是的话就对。在一条直线上的情况会锅。可以先判断外接矩形是否相交。（必要条件，不充分）求两条线段交点，保证有交（其实可以用上面的判一下）。发现答案是 \(A\cdot k_A\) 或者 \(B\cdot k_B\) 的形式，列两个方程解就行了。特判共线情况。

线性代数Part2

阅读更多关于线性代数Part2

14 正交向量与正交子空间正交向量正交就是垂直的另一种说法。两向量正交的判据之一就是其点积当两个向量的夹角为90度的时候，按照勾股定理x,y满足: 正交子空间子空间S与子空间T正交，则S中任意一个向量都与T中任意一个向量正交。 15 子空间投影投影几何解释：在向量a上寻找与向量b距离最近的一点。从图中可以看出距离点p最近就是穿过b点并与向量a正交的直线与向量a所在直线的交点上。这就是b在a上的投影。如果我们将向量p视为b的一种近似，则长度e=b-p就是这一近似的误差。因为p在向量a的方向上，因此可以令p=xa，而因为它与e正交，我们可以得到方程：解得：投影矩阵将投影问题用投影矩阵方式进行描述，即p=Pb，其中P为投影矩阵。则有：在高维投影如果a1和a2构成平面的一组基，则平面就是矩阵A=[a1a2]的列空间已知向量p在平面内，则有而：与平面正交，因此e与a1和a2均正交，因此 16 投影矩阵和最小二乘法投影如果向量b本身就在A列空间之内，即存在x使得Ax=b，则有：如果向量b与A的列空间正交，即向量b在矩阵的左零空间N(A)中：最小二乘法最优解的含义即为误差最小，这里误差就是每个方程误差值的平方和误差即为数据点到直线距离的平方和。对于空间向量b，投影矩阵A的列向量中得到p=[p1 p2 p3]T,投影到矩阵A的零空间中则为e。 17

订阅平行向量