特征向量

南京牌具批发

假如想象 提交于 2020-08-19 04:05:35
涯究尘臼壹耙布胰县庇瓷救寺贺氛拔额外增加了时序特征来弥补卷积网络对时序特征抽取能力不足的缺陷。论文中的做法是为每个词拼接两个固定维度的位置向量,分别表示词距离两个关键实体的相对位置信息。如“中国 的 首都 是 北京”,“的”与“中国”的距离大小为 1,与“北京”的距离大小为 -3,再将 1 和 -3 在 Position Embedding 层中查表得到,Position Embedding 层是随机初始化的,并且参与到模型训练当中 将上述的 Word Features 与 Position Features 拼接,输入到卷积网络中,再用Max Pooling 层把每个卷积核的输出进行池化操作。再将池化结果通过一个全连接层,激活函数为 tanh,将其看作一个更高层次的特征映射,得到最终的句子级别的特征向量 g将词汇级别特征与句子级别特征直接拼接,即f=[l;g],最终将其送入分类器进行分类。 来源: oschina 链接: https://my.oschina.net/pPvHwOlJ/blog/4507248

机器学习西瓜书 | 第一章 绪论

╄→尐↘猪︶ㄣ 提交于 2020-08-18 04:53:17
绪论 1.1 引言 机器学习 machine learning 是一种“学习算法”(learning algorithm) 1.2 基本术语 数据集(data set):记录的集合 示例(instance)= 样本(sample)= 特征向量(feature vector):记录,关于一个事件或对象的描述 属性(attribute)= 特征(feature):反映事件在某方面的表现或性质的事项 属性值(attribute space):属性的取值 属性空间(attribute space)= 样本空间(sample space)= 输入空间:属性张成的空间 样本维数(dimensionality):样本属性/特征的个数 学习(learning)= 训练(training)过程:从数据中学得模型的过程,通过执行某个学习算法来完成 训练数据(training data):训练过程中使用的数据 训练样本(training sample)= 训练示例/训练例(training instance):训练数据中的样本 训练集(training set):训练样本组成的集合 假设(hypothesis):学得模型对应的关于数据的潜在的规律 真相/真实(ground-truth):潜在规律本身,学习过程就是在找出或逼近真相 学习器(learner):学习算法在给定数据和参数空间上的实例化 标记

特征工程系列之自动化特征提取器

↘锁芯ラ 提交于 2020-08-18 04:09:53
视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的,一些系统甚至在出生前就对刺激做出反应。另一方面,语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋,但是我们所有人都必须有意训练我们的大脑去理解和使用语言。 在过去五年中,深度学习模式的突破最终预示着期待已久的图像和语音分析的革命。进展的困难与从相应类型的数据中提取有意义特征的困难直接相关。机器学习模型需要语义上有意义的特征进行语义意义的预测。在文本分析中,特别是对于英语这样的语言,其中一个基本的语义单位(一个词)很容易提取,可以很快地取得进展。另一方面,图像和音频被记录为数字像素或波形。图像中的单个“原子”是像素。在音频数据中,它是波形强度的单一测量。它们包含的语义信息远少于数据文本。因此,在图像和音频上的特征提取和工程任务比文本更具挑战性。 在过去的二十年中,计算机视觉研究已经集中在人工标定上,用于提取良好的图像特征。在一段时间内,图像特征提取器,如 SIFT 和 HOG 是标准步骤。深度学习研究的最新发展已经扩展了传统机器学习模型的范围,将自动特征提取作为基础层。他们本质上取代手动定义的特征图像提取器与手动定义的模型,自动学习和提取特征。人工标定仍然存在,只是进一步深入到建模中去。 最简单的图像特征(为什么他们不好使)

强化学习中的线性代数知识

|▌冷眼眸甩不掉的悲伤 提交于 2020-08-17 17:24:48
作者|Nathan Lambert 编译|VK 来源|Towards Data Science 线性代数的基本原理如何用于深度强化学习?答案是解决了马尔可夫决策过程时的迭代更新。 强化学习(RL)是一系列用于迭代性学习任务的智能方法。由于计算机科学是一个计算领域,这种学习发生在状态向量、动作等以及转移矩阵上。状态和向量可以采用不同的形式。当我们考虑通过某个线性系统传递一个向量变量,并得到一个类似的输出时,应该想到特征值。 本文将帮助你理解在RL环境中解决任务的迭代方法(收敛到最优策略)。这个基础将反映一个系统的特征向量和特征值。 回顾马尔科夫决策过程 马尔可夫决策过程(MDPs)是支持强化学习(RL)的随机模型。如果你熟悉,你可以跳过这一部分。 定义 状态集$s\in S。状态是代理程序所有可能的位置。 一组动作 \(a\in A\) 。动作是代理可以采取的所有可能动作的集合。 转移函数T(s,a,s')。T(s,a,s')保持MDP的不确定性。给定当前位置和给定动作,T决定下一个状态出现的频率。 奖励函数R(s,a,s')。最大化报酬总额是任何代理的目标。此函数说明每个步骤可获得多少奖励。通常,为鼓励快速解决方案,每个步骤都会有少量的负奖励(成本),而在最终状态下会有较大的正面(成功的任务)或负面(失败的任务)奖励。 开始状态s0,也许是结束状态。 重要的属性

由第一原理导出卷积

时光怂恿深爱的人放手 提交于 2020-08-17 15:08:24
你有没有想过卷积有什么特别之处? 在这篇文章中,我从第一原理中推导出卷积,并表明了它的平移对称性。 某些事物实质上是对其本质的一种支持。 (Claude Adrien Helvetius) 在本科学习期间,我在以色列的Technion参与了电气工程,令人感到震惊的一个重要的概念是,卷积[1]的突如其来。就像一粒沙子落入眼睛里,它扰乱了信号处理世界原本美丽的画面。 让卷积从第一原则中产生,将会多么美好! 正如我将在这篇文章中所展示的,这里的第一原则即平移不变性或对称性。 首先,从基本信号处理课程中教授的公式开始,定义两个n维向量 x 和w:的离散卷积[2]: 为了方便起见,假设所有的索引从零到n−1,并且是n模,自然而然地想到在圆上定义的向量,把上面的公式写成矩阵向量乘法,得到了一个非常特殊的矩阵,称之为循环(circulant) 矩阵 : 循环矩阵具有多对角结构,每个对角线上的元素具有相同的值。 它可以通过将向量w的移位(模n)叠加在一起来生成[3];因此,用C(W)来表示,指的是由向量w形成的循环矩阵。由于任何卷积x∗w都可以等价地表示为循环矩阵C(W)x的乘法,所以将交替使用这两个术语。 在线性代数中学习的第一件事是矩阵乘法不满足交换率,也就是说,一般情况下, AB ≠ BA 。 然而,循环矩阵是非常特殊的例外: 循环矩阵满足交换律,即: C ( w ) C ( u )= C

PCA——主成分分析

限于喜欢 提交于 2020-08-17 02:46:40
  PCA(Principal Components Analysis)主成分分析是一个简单的机器学习算法,利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关比变量表示的数据,实现降维的同时尽量减少精度的损失,线性无关的变量称为主成分。大致如下:   首先对给定数据集(数据是向量)进行规范化,使得数据集的平均值为0,方差为1(规范化是为了使数据散布在原点附近,而不是远离原点的某块区域,便于后面的计算)。之后对每个数据进行正交变换,把数据投影到几个少量的相互正交的方向(这些方向构成了数据空间的一个子空间)上。数据在每个方向上都有对应的坐标,而用这些方向和对应的坐标(坐标×方向的累加)就能近似表示原来高维的数据,因此这些方向的求解就是PCA的关键。   如果再由这些坐标通过这些方向映射回原来的数据,精度损失是同等方向数量的方向集合(或者叫同维度的子空间吧)中最小的,而数据集在各个方向上的坐标的方差之和是同等方向数量的方向集合中最大的, 也正对应着方差越大表示这个方向上保存数据的信息量越大(方差越小所有数据越集中在一个点上信息量当然越小) 。数据集在这些方向的上的坐标的方差,从大到小排序,就把这每一个方向称为第一主成分、第二主成分…… 证明   接下来证明什么样的方向是主成分,即什么样的方向集合能保存原数据集更多的信息,并进一步说明数据集在主成分上的坐标的方差是最大的

线性代数应该这样学一

倾然丶 夕夏残阳落幕 提交于 2020-08-16 15:59:43
在网上看到的一篇文章,看了以后感触颇深。他讲述了线性代数的本质,对线性空间、向量和矩阵做了直觉的描述。 线性代数课程,无论你从行列式入手还是直接从矩阵入手,从一开始就充斥着莫名其妙。 比如说,在全国一般工科院系教学中应用最广泛的同济线性代数教材(现在到了第四版),一上来就介绍逆序数这个古怪概念,然后用逆序数给出行列式的一个 极不直观的定义,接着是一些简直犯傻的行列式性质和习题——把这行乘一个系数加到另一行上,再把那一列减过来,折腾得那叫一个热闹,可就是压根看不出 这个东西有嘛用。 大多数像我一样资质平庸的学生到这里就有点犯晕:连这是个什么东西都模模糊糊的,就开始钻火圈表演了,这未免太无厘头了吧!于是开始有人逃课,更多的 人开始抄作业。这下就中招了,因为其后的发展可以用一句峰回路转来形容,紧跟着这个无厘头的行列式的,是一个同样无厘头但是伟大的无以复加的家伙的出 场——矩阵来了!多年之后,我才明白,当老师犯傻似地用中括号把一堆傻了吧叽的数括起来,并且不紧不慢地说:“这个东西叫做矩阵”的时候,我的数学生涯 掀开了何等悲壮辛酸、惨绝人寰的一幕!自那以后,在几乎所有跟“学问”二字稍微沾点边的东西里,矩阵这个家伙从不缺席。对于我这个没能一次搞定线性代数 的笨蛋来说,矩阵老大的不请自来每每搞得我灰头土脸,头破血流。长期以来,我在阅读中一见矩阵,就如同阿Q见到了假洋鬼子,揉揉额角就绕道走。 事实上

LDA数据压缩原理及python应用(葡萄酒案例分析)

孤街醉人 提交于 2020-08-16 13:58:43
目录 线性判别分析(LDA)数据降维及案例实战 一、LDA是什么 二、计算散布矩阵 三、线性判别式及特征选择 四、样本数据降维投影 五、完整代码 结语 线性判别分析(LDA)数据降维及案例实战 一、LDA是什么 LDA概念及与PCA区别 LDA线性判别分析 (Linear Discriminant Analysis)也是一种特征提取、数据压缩技术。在模型训练时候进行LDA数据处理可以提高计算效率以及避免过拟合。它是一种有监督学习算法。 与 PCA主成分分析 (Principal Component Analysis)相比,LDA是有监督数据压缩方法,而PCA是有监督数据压缩及特征提取方法。PCA目标是寻找数据集最大方差方向作为主成分,LDA目标是寻找和优化具有可分性特征子空间。其实两者各有优势,更深入详细的区分和应用等待之后的学习,这里我仍然以葡萄酒数据集分类为案例记录原理知识的学习和具体实现步骤。 对比我之前记录的PCA请看: PCA数据降维原理及python应用(葡萄酒案例分析) LDA内部逻辑实现步骤 标准化d维数据集。 计算每个类别的d维均值向量。 计算跨类散布矩阵 和类内散布矩阵 . 线性判别式及特征计算。 按特征值降序排列,与对应的特征向量成对排序。 选择最具线性判别性的前k个特征,构建变换矩阵 . 通过变换矩阵将原数据投影至k维子空间。 二、计算散布矩阵 1

极化SAR图像基础知识(1)

空扰寡人 提交于 2020-08-16 02:03:14
  从今天开始学习极化SAR图像,记录于此。   极化散射矩阵S 是用来表示单个像素散射特性的一种简便办法,它 包含了目标的全部极化信息 。 ,在满足互易条件下,有 。   目标的Mueller 矩阵定义为 ,式中M 即为目标的Mueller 矩阵,其计算表达式为 ,其中矩阵W定义为 ,其中变换矩阵R为 。已有文献证明: Mueller 矩阵M 与极化散射矩阵S 之间有唯一对应关系 。 极化散射矩阵S描述了入射波Jones 矢量与散射波Jones 矢量之间的关系,而Mueller 矩阵则描述了入射波Stokes 矢量 与散射波Stokes 矢量 之间的关系。 极化协方差矩阵 也称为复埃尔米特矩阵,同极化散射矩阵一样,它也包含了雷达测量得到的全部目标极化信息。极化SAR 图像处理过程一般都是在极化协方差矩阵和极化相干矩阵的基础上进行,它是进行多极化SAR数据分析和处理的基础。 通常情况下,极化协方差矩阵的计算是基于极化散射矩阵矢量化。对于互易介质 ,极化测量矢量 可表示为 。目标的极化协方差矩阵为矢量 的Kronecker内积 。 极化相干矩阵 与极化协方差矩阵仅存在线性变换关系,相比与极化协方差矩阵,它可以更好的解释散射机理。极化相干矩阵的获取也是基于极化散射矩阵的矢量化。Pauli 基矩阵的一个特殊性质就是可以用于极化散射矩阵的矢量化: ,这里除以系数 是为了保证总功率相等。

Word2Vec简明教程:入门、原理及代码实现

核能气质少年 提交于 2020-08-15 17:20:07
Word2Vec简明教程 1. 特征向量 2. 词向量 2.1 例1:King- Man + Woman = Queen 2.2 例2:跨语言同义词共现 3. NNLM 4. Word2Vec 4.1 SkipGram (1)基本概念 (2)数据模型 4.2 CBoW 4.3 Negative Sampling 4.4 Hierarchical Softmax 5. 使用gensim 1. 特征向量 近年来,研究者通过词汇学方法,发现约有五种特质可以涵盖人格描述的所有方面,提出了人格的 大五模式(Big Five) ,俗称人格的海洋(OCEAN),包括以下五个维度: 开放性(Openness):具有想象、审美、情感丰富、求异、创造、智能等特质。 责任心(Conscientiousness):显示胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点。 外倾性(Extroversion):表现出热情、社交、果断、活跃、冒险、乐观等特质。 宜人性(Agreeableness):具有信任、利他、直率、依从、谦虚、移情等特质。 神经质性(Neuroticism):难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱等情绪的特质,即不具有保持情绪稳定的能力。 通过NEO-PI-R测试可以得出每个维度的打分(1-100),然后将其缩放到 [ − 1 , 1 ] [-1,1] [ − 1 , 1 ]