空间向量

集合语义空间提高动提取同义词能力

邮差的信 提交于 2020-03-17 01:24:43
集合语义空间提高动提取同义词能力 文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。 方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的多语料组合,(5)单个语料库(包括联合语料库)和多个语料库组合的评估,(6)候选术语的后处理,和(7)频率阈值实验。 具体步骤: 运用材料:(1)临床语料库,包括健康记录的注释,和 (2)医学语料库,包括医学期刊文章 主要概念:RI随机索引:RI是LSA的增量,通过分配稀疏的、内部的和随机生成的d维索引向量来实现 给予某一术语静态的唯一表示值,为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的(加权)索引向量,用上下文信息递增地填充上下文向量。 【然而LSA是什么呢】LSA是潜在语义分析,具体说来就是对一个大型的文档集合使用一个合理的维度建模,并将词和文档都表示到该空间,而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。 具体的做法是将词项文档矩阵做SVD分解,其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值

坐标系

ぐ巨炮叔叔 提交于 2020-03-07 13:18:50
笛卡儿坐标系 在 数学 里, 笛卡儿坐标系 ( Cartesian 坐标系),也称 直角坐标系 ,是一种 正交坐标系 。参阅图 1 ,二维的直角坐标系是由两条相互 垂直 、0 点重合的 数轴 构成的。在 平面 内,任何一点的坐标 是根据数轴上 对应的点的坐标设定的。在平面内,任何一点与坐标的对应关系,类似于数轴上点与坐标的对应关系。 采用直角坐标, 几何 形状可以用 代数 公式明确的表达出来。几何形状的每一个点的直角坐标必须遵守这代数公式。例如,一个 圆圈 ,半径是 2 , 圆心 位于直角坐标系的 原点 。圆圈可以用公式表达为 x 2 + y 2 = 4 。 极坐标系 在 数学 中, 极坐标系 是一个 二维 坐标系统 。该坐标系统中的点由一个夹 角 和一段相对中心 点 ——极点(相当于我们较为熟知的 直角坐标系 中的原点)的距离来表示。极坐标系的应用领域十分广泛,包括 数学 、 物理 、 工程 、 航海 以及 机器人 领域。在两点间的关系用夹角和距离很容易表示时,极坐标系便显得尤为有用;而在平面直角坐标系中,这样的关系就只能使用 三角函数 来表示。对于很多类型的曲线,极坐标方程是最简单的表达形式,甚至对于某些曲线来说,只有极坐标方程能够表示。 欧几里得度量 欧几里得 度量 定义 欧几里得空间 中,点 x = ( x 1 ,..., x n ) 和 y = ( y 1 ,..., y

C++ STL之vector用法总结

北战南征 提交于 2020-03-07 02:54:34
来源:https://www.cnblogs.com/zhonghuasong/p/5975979.html 介绍 vector是表示可变大小数组的序列容器。 就像数组一样,vector也采用的连续存储空间来存储元素。也就是意味着可以采用下标对vector的元素进行访问,和数组一样高效。但是又不像数组,它的大小是可以动态改变的,而且它的大小会被容器自动处理。 本质讲,vector使用动态分配数组来存储它的元素。当新元素插入时候,这个数组需要被重新分配大小为了增加存储空间。其做法是,分配一个新的数组,然后将全部元素移到这个数组。就时间而言,这是一个相对代价高的任务,因为每当一个新的元素加入到容器的时候,vector并不会每次都重新分配大小。 vector分配空间策略:vector会分配一些额外的空间以适应可能的增长,因为存储空间比实际需要的存储空间更大。不同的库采用不同的策略权衡空间的使用和重新分配。但是无论如何,重新分配都应该是对数增长的间隔大小,以至于在末尾插入一个元素的时候是在常数时间的复杂度完成的。 因此,vector占用了更多的存储空间,为了获得管理存储空间的能力,并且以一种有效的方式动态增长。 与其它动态序列容器相比(deques, lists and forward_lists), vector在访问元素的时候更加高效,在末尾添加和删除元素相对高效

高等代数笔记4:线性空间

旧巷老猫 提交于 2020-03-03 05:19:15
线性空间 线性空间的定义与实例 从本节开始,我们将解析几何、向量空间、矩阵空间的一些共同性质作一个进一步的抽象,得到线性空间的概念。所谓线性空间,就是在一个集合上,定义了线性运算,从而形成线性空间。所谓线性运算,就是两类:加法和数域 K K K 上的数乘。回顾解析几何、向量空间、矩阵空间的相关知识,在这些空间上,都定义了加法和数乘,并且加法和数乘都有类似的性质,即以下八条: A.加法交换律: a + b = b + a a+b=b+a a + b = b + a B.加法结合律: a + b + c = a + ( b + c ) a+b+c=a+(b+c) a + b + c = a + ( b + c ) C.存在零元: 0 + a = a 0+a=a 0 + a = a D.存在相反元: a + ( − a ) = 0 a+(-a)=0 a + ( − a ) = 0 E.数乘结合律: ( k l ) a = k ( l a ) (kl)a=k(la) ( k l ) a = k ( l a ) F. 1. a = a 1.a =a 1 . a = a G.数乘分配律1: ( k + l ) a = k a + l a (k+l)a=ka+la ( k + l ) a = k a + l a H.数乘分配律2: k ( a + b ) = k a + k b k(a+b)

机器学习之模型的选择

狂风中的少年 提交于 2020-03-02 10:52:32
模型的选择 机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。 L2 正则化公式非常简单,直接在原来的损失函数基础上加上权重参数的平方和 我们知道,正则化的目的是限制参数过多或者过大,避免模型更加复杂。例如,使用多项式模型,如果使用 10 阶多项式,模型可能过于复杂,容易发生过拟合。所以,为了防止过拟合,我们可以将其高阶部分的权重 w 限制为 0,这样,就相当于从高阶的形式转换为低阶。 为了达到这一目的,最直观的方法就是限制 w 的个数,但是这类条件属于 NP-hard 问题,求解非常困难。所以,一般的做法是寻找更宽松的限定条件: 上式是对 w 的平方和做数值上界限定,即所有w 的平方和不超过参数 C。这时候,我们的目标就转换为:最小化训练样本误差,但是要遵循 w 平方和小于 C 的条件。 正则化的作用 正则化:防止数据过拟合。 对损失函数加上一个正则项。 正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。 常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归

游戏 图形方面 面试题

∥☆過路亽.° 提交于 2020-02-23 19:34:49
图形学渲染流程(管线)说一下 答: 传统的前向渲染管线流程是这样的 顶点和索引到顶点着色器,这里主要是对顶点进行变换,然后是光栅化,这里将剔除视锥体之外的元素,光栅化后三角形内的像素将进入到片元着色器(像素着色器),经过深度测试(模板测试)后写入到Target缓冲区内。 其实还有计算shader,用于曲面细分的三个shader,几何shader,RayTrace shader等,不展开了。 BDRF函数 答:BRDF函数是射出光线的辐照度和摄入光线辐射率的比值,在现代引擎中BRDF一般使用Cook-Torrance 的公式,定义为F菲涅尔(F0,NV) G(L,N,V) 几何函数 D(N,H,Roughness) 法线分布函数(H为L,V的半角向量) 除以4*(NL)*(NV) IBL基本原理 答: 在PBR渲染公式中,我们不仅仅算直接光源,也要考虑来自环境的间接光源,因此把来自环境光的信息储存在cubeMap中供计算,这就是IBL,基于图形的光照,在这种情况下需要对光照方程进行分割,分为环境光和镜面光两部分,为了提高速度一般都会把这些卷积的结果存储在贴图里面,对于漫反射,存不同法线下的卷积结果,对于高光需要先分拆为 预滤波环境贴图和预计算BRDF,这里有一个N=V=R的假设,基于重要性采样,可以把第二项看为参数为NWi和Roughness参数的二维函数,就可以预计算贴图

Computer Vision_33_SIFT:PCA-SIFT A More Distinctive Representation for Local Image Descriptors——2004

有些话、适合烂在心里 提交于 2020-02-21 12:18:46
此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人非常喜欢,也列出来了。 33. SIFT 关于SIFT,实在不需要介绍太多,一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。 [1999 ICCV] Object recognition from local scale-invariant features [2000 IJCV] Evaluation of Interest Point Detectors [2006 CVIU] Speeded-Up Robust Features (SURF) [2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors [2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints [2010 IJCV] Improving Bag-of-Features for Large Scale Image Search [2011 PAMI]

矩阵特征值

試著忘記壹切 提交于 2020-02-13 02:19:32
参考:https://www.zhihu.com/question/21874816 如何理解矩阵特征值? 想要理解特征值,首先要理解矩阵相似。什么是矩阵相似呢?从定义角度就是:存在可逆矩阵P满足B= 则我们说A和B是相似的。让我们来回顾一下之前得出的重要结论:对于同一个线性空间,可以用两组不同的基 和基 来描述,他们之间的过渡关系是这样的: ,而对应坐标之间的过渡关系是这样的: 。其中P是可逆矩阵,可逆的意义是我们能变换过去也要能变换回来,这一点很重要。 我们知道,对于一个线性变换,只要你选定一组基,那么就可以用一个矩阵T1来描述这个线性变换。换一组基,就得到另一个不同的矩阵T2(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系)。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。具体来说,有一个线性变换 ,我们选择基 来描述,对应矩阵是 ;同样的道理,我们选择基 来描述 ,,对应矩阵是 ;我们知道基 和基 是有联系的,那么他们之间的变换 和 有没有联系呢? 当然有, 和 就是相似的关系,具体的请看下图: <img src="https://pic1.zhimg.com/6cf43eca0f26cb1752f8fbf2633b699c_b.jpg" data-rawwidth="721" data-rawheight="449" class

数字图像处理——第二章(数字图像基础)

蹲街弑〆低调 提交于 2020-02-09 03:21:11
数字图像基础 一、人眼结构 二、电磁波谱和光 2.1 电磁波谱 2.2 光 三、图像的数学模型 四、图像的取样和量化 4.1 取样和量化的概念 4.2 数字图像表示 4.3 空间和灰度分辨率 4.4 图像内插 4.5 像素间的一些基本关系 4.5.1 相邻像素 4.5.2 邻接性、联通性、区域和边界 4.5.3 距离度量 五、数字图像处理中的数学工具介绍 5.1 阵列与矩阵操作 5.2 线性操作和非线性操作 5.3 算术操作 5.4 集合和逻辑操作 5.4.1 集合操作 5.4.2 逻辑操作 5.5 空间操作 5.5.1 单像素操作 5.5.2 邻域操作 5.5.3 几何空间变换和图像配准 5.6 向量和矩阵操作 5.7 图像变换 5.8 概率方法 一、人眼结构 眼睛由三层膜包裹:角膜与巩膜外壳、脉络膜和视网膜。 角膜 是一种硬而透明的组织,覆盖着眼睛的前表面,巩膜是一层包围眼球其余部分的不透明膜。 脉络膜 包含血管网,是眼睛的重要滋养源。 视网膜 是眼睛最里面的膜。眼睛适当聚焦时,来自眼睛外部物体的光在视网膜上成像。感受器通过感受视网膜表面分布的不连续光形成图案。 光感受器分为: 锥状体和杆状体 。 每只眼睛中的锥状体数量约为600~700万个, 对颜色高度敏感 。使用锥状体人可以充分 分辨图像细节 (每个锥状体都连接到自身的神经末梢)。锥状体视觉称为 白昼视觉或亮视觉 。

中断与异常

筅森魡賤 提交于 2020-02-08 16:06:02
arm对异常(中断)处理过程 1 初始化: :: a 设置中断源,让它可以产生中断 :: b 设置中断控制器(可以屏蔽某个中断,优先级) :: c 设置CPU总开关,(使能中断) 2 执行其他程序:正常程序 3 产生中断:按下按键--->中断控制器--->CPU 4 cpu每执行完一条指令都会检查有无中断/异常产生 5 发现有中断/异常产生,开始处理。对于不同的异常,跳去不同的地址执行程序。这地址上,只是一条跳转指令,跳去执行某个函数(地址),这个就是异常向量。如下就是异常向量表,对于不同的异常都有一条跳转指令。 (3-5都是硬件强制做的) 6 这些函数做什么事情? :: 软件做的: :: a 保存现场(各种寄存器) :: b 处理异常(中断): :::: 分辨中断源 :::: 再调用不同的处理函数 :: c 恢复现场 --------------------------------------异常向量表------------------------------------- .globl _start _start: b reset ldr pc, _undefined_instruction ldr pc, _software_interrupt ldr pc, _prefetch_abort ldr pc, _data_abort ldr pc, _not_used ldr