平行向量

机器学习数学基础-线性代数

≡放荡痞女 提交于 2019-12-23 00:04:45
前言 AI(人工智能)现在火的一塌糊涂,其实在AI领域,机器学习已广泛应用在搜索引擎、自然语言处理、计算机视觉、生物特征识别、医学诊断、证券市场分析等领域,并且机器学习已经是各大互联网公司的基础设施,不再是一个新鲜的技术。但当你真的开始学习机器学习的时候,就会发现上手门槛其实还挺高的,这主要是因为机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 本文主要介绍一下机器学习涉及到的一些最常用的的数学知识,方便大家在学习机器学习的时候,能扫除一些基础障碍。 标量(scalar) 标量是一个单独的数,一般用普通小写字母或希腊字母表示,如 等。 向量(vector)相关 向量的定义 把数排成一列就是向量,比如: 向量一般用粗体小写字母或粗体希腊字母表示,如 等(有时候也会用箭头来标识,如 ),其元素记作 。 向量默认为列向量,行向量需要用列向量的转置表示,例如 等。 物理专业视角:向量是空间中的箭头,决定一个向量的是它的长度和方向 计算机专业视角:向量是有序的数字列表 数学专业视角:向量可以是任何东西,只要保证两个向量相加以及数字与向量相乘是有意义的即可 运算规则 向量的加法和数量乘法定义: 加法 相同维数的向量之间的加法为: 数量乘法 任意的常数 和向量的乘法为: 在给定数 及向量 的情况下 张成空间 张成空间是向量 和

向量的点乘和叉乘

北城以北 提交于 2019-12-20 02:29:50
【点乘】 在数学中,数量积(dot product; scalar product,也称为点积)是接受在实数R上的两个向量并返回一个实数值标量的二元运算。它是 欧几里得空间 的标准 内积 。 代数定义 设二维空间内有两个向量 和 定义它们的数量积(又叫内积、点积)为以下实数: 更一般地,n维向量的内积定义如下: 几何定义 设二维空间内有两个向量 和 ,它们的夹角为 ,则内积定义为以下实数: 该定义只对二维和三维空间有效。 点积的值 u的大小、v的大小、u,v夹角的余弦。在u,v非零的前提下,点积如果为负,则u,v形成的角大于90度;如果为零,那么u,v垂直;如果为正,那么u,v形成的角为锐角。 两个单位向量的点积得到两个向量的夹角的cos值,通过它可以知道两个向量的相似性,利用点积可判断一个多边形是否面向摄像机还是背向摄像机。 向量的点积与它们夹角的余弦成正比,因此在聚光灯的效果计算中,可以根据点积来得到光照效果,如果点积越大,说明夹角越小,则物理离光照的轴线越近,光照越强。 运算律 交换律: 分配律: 结合律: ,其中m是实数。 【叉乘】 向量积,数学中又称外积、叉积,物理中称矢积、叉乘,是一种在向量空间中向量的二元运算。与点积不同,它的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量和垂直。 表示方法 两个向量a和b的叉积写作a×b(有时也被写成a∧b

线性代数的本质 (3) 矩阵与线性变换

匿名 (未验证) 提交于 2019-12-03 00:30:01
很遗憾,Matrix(矩阵)是什么是说不清的。你必须得自己 亲眼看看 。----墨菲斯 一、线性变换(Linear transformation) 1.transformation(变换)本质上是“函数”的一种花哨的说法,它接收输入内容,并输出对应结果。特别地,在线性代数的情况下,我们考虑的是接收一个向量并且输出一个向量的变换。 2.为什么“变换”和“函数”意义相同,却使用前者而不是后者?使用“变换”是在暗示以特定方式来可视化这一输入-输出关系。一种理解“向量的函数”的方法是使用运动。 3.变换是很随意的,但是线性变换需要具备以下两条性质: 直线在变换后仍然保持为直线,不能有所弯曲。 原点必须保持固定。 4.总的来说,你应该把线性变换看作是“保持网格线平行并等距分布”的变换。 5.如何用数值描述线性变换?我们只需要记住基向量,i帽和j帽。v向量=-1i帽+2j帽。那么变换后的i帽和j帽从[1,-2]到[3,0]通过计算可以得到v向量的值为[5,2]。所以很炫酷呀,我们只需要记住基向量就可以推断出任何向量的落脚点(变换后的落脚点),完全不必观察变换本身是什么样 6.一个二维线性变换仅由四个数字完全确定,变换后i帽的两个坐标与变换后j帽的两个坐标,通常我们将这些坐标包装在一个2*2的格子中,称它为2*2矩阵,你可以把它的列理解为两个特殊的向量,即i帽和j帽分别落脚的位置。 7

Deep & Cross模型

匿名 (未验证) 提交于 2019-12-03 00:03:02
Deep&Cross显式地做高阶特征组合。就是说设计几层神经网络结构,每一层代表其不同阶的组合,最下面是二阶组合,再套一层,三阶组合,四阶组合,一层一层往上套,这就叫显式地捕获高阶特征组合,Deep&Cross是最开始做这个的。 Deep & Cross Network 对于低阶的组合特征的构造,线性模型使用人工特征工程,FM使用隐向量的内积,FFM引入field的概念,针对不同的field上使用不同隐向量构造组合特征。DNN可以一定程度上实现自动学习特征组合,学习到的特征都是高度非线性的高阶组合特征,这样的隐式的学习特征组合带来的不可解释性,以及低效率的学习,因为并不是所有的特征组合都是有用的。Deep&Cross Network(DCN)将Wide部分替换为由特殊网络结构实现的Cross,在学习特定阶数组合特征的时候效率非常高, 自动构造有限高阶的交叉特征 ,并学习对应权重,告别了繁琐的人工叉乘。 一个DCN模型从嵌入和堆积层开始,然后是并行的是一个交叉网络和一个与之平行的深度网络,之后是最后的组合层,它结合了两个网络的输出。 嵌入和堆叠层 文中对原始特征做如下处理:1) 对sparse特征进行embedding,对于multi-hot的sparse特征,embedding之后再做一个简单的average pooling;2) 对dense特征归一化

【转载】【收藏】机器学习与深度学习核心知识点总结

耗尽温柔 提交于 2019-12-02 19:02:56
原文地址: https://cloud.tencent.com/developer/article/1526902 数学 1.列举常用的最优化方法 梯度下降法 牛顿法 拟牛顿法 坐标下降法 梯度下降法的改进型如AdaDelta,AdaGrad,Adam,NAG等。 2.梯度下降法的关键点 梯度下降法沿着梯度的反方向进行搜索,利用了函数的一阶导数信息。梯度下降法的迭代公式为: 根据函数的一阶泰勒展开,在负梯度方向,函数值是下降的。只要学习率设置的足够小,并且没有到达梯度为0的点处,每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的x k +1位于迭代之前的值x k 的邻域内,从而可以忽略泰勒展开中的高次项,保证迭代时函数值下降。 梯度下降法只能保证找到梯度为0的点,不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。 梯度下降法在机器学习中应用广泛,尤其是在深度学习中。AdaDelta,AdaGrad,Adam,NAG等改进的梯度下降法都是用梯度构造更新项,区别在于更新项的构造方式不同。对梯度下降法更全面的介绍可以阅读SIGAI之前的文章“ 理解梯度下降法 ”。 3.牛顿法的关键点 牛顿法利用了函数的一阶和二阶导数信息,直接寻找梯度为0的点。牛顿法的迭代公式为: 其中H为Hessian矩阵,g为梯度向量

机器学习-SVM

此生再无相见时 提交于 2019-12-01 12:28:30
机器学习-SVM理论 理论知识 SVM是在神经网络模型及CNN出现之前很火的一种分类模型。它有很好的泛化能力。 线性可分支持向量机:当data线性可分时使用 如果两类数据是线性可分的,那么如果垂直n维超平面做一个投影面,则这两类数据一定可以投影到低维空间中且还是可分的。 线性可分SVM中不会出现在分割面上及支撑面和分割面之间的缓冲部分(人造词汇,不是专业名称),最多出现在支撑面上。但是在线性SVM中是可能的。 硬间隔最大化(hard margin maximization) 硬间隔 硬间隔支持向量机 线性支持向量机:当data不是线性的,但是可以在一定错误率下线性分开 软间隔最大化(soft margin maximization) 软间隔 软间隔支持向量机 非线性支持向量机:在线性可分或线性的基础上加上核函数,实现非线性分类的效果 核函数kernel function 对于高斯核函数,c越大,过渡带越窄;γ越大,分割界面的非线性程度越大(当γ倾向于无穷大时,SVM就退化为 注意,我们一般把向量定义为列向量,这里的w和x都是这样的 将一个点带入,如果式子大于0,表示是在法向量的同方向;小于0,表示是在法向量的逆方向。如果这么来看,最严谨的标法应该是把上图中w的方向换一下,即**法向量w永远指向以直线划分的大于0的方向。之后其实没必要对这个太过于纠结

Lasso回归算法: 坐标轴下降法与最小角回归法小结

a 夏天 提交于 2019-11-28 11:46:03
Ridge回归 由于直接套用线性回归可能产生过拟合,我们需要加入正则化项,如果加入的是L2正则化项,就是Ridge回归,有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下: J(θ)=1/2(Xθ−Y) T (Xθ−Y)+1/2α||θ|| 2 2 其中α为常数系数,需要进行调优。||θ|| 2 为L2范数。Ridge回归的解法和一般线性回归大同小异。如果采用梯度下降法,则每一轮θ迭代的表达式是: θ=θ−(βX T (Xθ−Y)+αθ) 其中β为步长。 如果用最小二乘法,则θ的结果是: θ=(X T X+αE)−1X T Y 其中E为单位矩阵。 Ridge回归在不抛弃任何一个变量的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但这会使得模型的变量特别多,模型解释性差。有没有折中一点的办法呢?即又可以防止过拟合,同时克服Ridge回归模型变量多的缺点呢?有,这就是下面说的Lasso回归。 Lasso回归概述 Lasso回归有时也叫做线性回归的L1正则化,和Ridge回归的主要区别就是在正则化项,Ridge回归用的是L2正则化,而Lasso回归用的是L1正则化。Lasso回归的损失函数表达式如下: J(θ)=1/2n(Xθ−Y) T (Xθ−Y)+α||θ|| 1 其中n为样本个数

机器学习——SVM

不打扰是莪最后的温柔 提交于 2019-11-27 22:03:05
文章目录 SVM介绍 SVM理论 线性可分性(linear separability) 损失函数(loss function) 经验风险(empirical risk)与结构风险(structural risk) 核方法 常见的核函数 核函数与松弛变量 问题描述 解答与分析 SVM算法步骤 问题 解答与分析 其他扩展问题 其他参考 SVM(Support Vector Machine, 支持向量机)是众多监督式学习方法中十分出色的一种,几乎所有的讲述经典机器学习方法的教材都会介绍。 SVM介绍 支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。 SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一

ZROI 19.08.02 计算几何

给你一囗甜甜゛ 提交于 2019-11-27 20:30:18
1.向量基础知识 \(atan2\) 可以求极角,但是不是特别精确,在坐标接近 \(10^{9}\) 时会出锅,安全的做法是叉积。 旋转、反射和平移等都可以抽象为矩阵,即,它们可以复合。(需要一些必修四知识) 给一个序列,每个位置表示旋转、反射、平移中的一种,求 \((x,y)\) 经过序列 \([l,r]\) 的点。 线段树维护矩乘就好了,矩阵里需要带个常数位置。 Simpson积分 不会积分,告辞。 2.简单题 求点 \(p\) 在直线 \(p_1p_2\) 上的投影。 投影就是点积,直接积就行了, 必修四怎么学的。 求点 \(p\) 在直线 \(p_1p_2\) 的反射点。 跟上面的一模一样。 判断两个向量的 \(5\) 种位置关系。 叉积判出不共线的两种,剩下的直接比较横坐标就可以了。 给两条直线,问它们是平行还是垂直还是都不是。 平行向量叉积为 \(0\) ,垂直向量点积为 \(0\) 。 判两条线段是否相交(不严格,端点交也算)。 跨立实验:对于一条线段,看另一条线段的两个点是否在它两侧,两边都是的话就对。 在一条直线上的情况会锅。 可以先判断外接矩形是否相交。(必要条件,不充分) 求两条线段交点,保证有交(其实可以用上面的判一下)。 发现答案是 \(A\cdot k_A\) 或者 \(B\cdot k_B\) 的形式,列两个方程解就行了。 特判共线情况。

线性代数Part2

情到浓时终转凉″ 提交于 2019-11-27 15:48:00
14 正交向量与正交子空间 正交向量 正交就是垂直的另一种说法。两向量正交的判据之一就是其点积 当两个向量的夹角为90度的时候,按照勾股定理x,y满足: 正交子空间 子空间S与子空间T正交,则S中任意一个向量都与T中任意一个向量正交。 15 子空间投影 投影 几何解释:在向量a上寻找与向量b距离最近的一点。从图中可以看出距离点p最近就是穿过b点并与向量a正交的直线与向量a所在直线的交点上。这就是b在a上的投影。如果我们将向量p视为b的一种近似,则长度e=b-p就是这一近似的误差。 因为p在向量a的方向上,因此可以令p=xa,而因为它与e正交,我们可以得到方程: 解得: 投影矩阵 将投影问题用投影矩阵方式进行描述,即p=Pb,其中P为投影矩阵。 则有: 在高维投影 如果a1和a2构成平面的一组基,则平面就是矩阵A=[a1a2]的列空间 已知向量p在平面内,则有 而: 与平面正交,因此e与a1和a2均正交,因此 16 投影矩阵和最小二乘法 投影 如果向量b本身就在A列空间之内,即存在x使得Ax=b,则有: 如果向量b与A的列空间正交,即向量b在矩阵的左零空间N(A)中: 最小二乘法 最优解的含义即为误差最小,这里误差就是每个方程误差值的平方和 误差即为数据点到直线距离的平方和。 对于空间向量b,投影矩阵A的列向量中得到p=[p1 p2 p3]T,投影到矩阵A的零空间中则为e。 17