特征向量

我们为什么需要条件随机场CRF?

和自甴很熟 提交于 2021-01-30 09:56:21
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作 者: Prateek Joshi 编译: ronghuaiyang 导读 昨天给大家介绍了CRF的基本概念,今天我们聊一聊为什么需要这么个东西。 这是一个分为两部分的讨论。在这篇博文中,我们将讨论条件随机场的需求。在下一篇文章中,我们将讨论它们到底是什么以及如何使用它们。在计算机视觉、生物信息学、计算语言学和语音识别等诸多领域,都出现了为一组观测序列分配标签的任务。例如,考虑自然语言处理任务,即在句子中使用相应的词性标记标记单词。在这个任务中,每个单词都有一个标记,表示其适当的词性,从而产生带标注的文本。再举一个例子,考虑根据所观察到的行为给一个视频贴上一个人的心理状态标签的任务。你必须分析用户的面部表情,确定用户是否高兴、生气、悲伤等等。我们经常希望预测大量相互依赖的变量以及其他观察到的变量。如何实现这些任务?我们应该使用什么模型? 为什么要用条件随机场? 在许多应用中,我们希望能够预测相互依赖的多个变量。例如,一个运动队的表现取决于该队每个队员的健康状况。每个成员的健康可能会受到团队旅行计划的影响。比赛的结果可能会影响全队的士气。反过来,士气可能会影响健康。正如你所看到的,有多个变量错综复杂地相互依赖。条件随机场(CRFs)对这些问题的建模非常有用。与此类似的应用有很多,比如对图像的区域进行分类

one-hot编码理解

只愿长相守 提交于 2021-01-30 09:52:46
one-hot是比较常用的文本特征特征提取的方法。 one-hot编码,又称“独热编码”。其实就是用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位,且这些寄存器位中只有一位有效,说白了就是只能有一个状态。 下面举例说明: 有四个样本,每个样本有三种特征:     feature1   feature2   feature3 sample1   1      4     3 sample2   2      3     2 sample3   1      2     2 sample4   2      1     1 上图用十进制数对每种特征进行了编码,feature1有两种可能的取值,feature2有4种可能的取值,feature3有3种可能的取值。比如说feature3有3种取值,或者说有3种状态,那么就用3个状态位来表示,以保证每个样本中的每个特征只有1位处于状态1,其他都是0。 1->001 2->010 3->100 其他的特征也都这么表示:     feature1   feature2   feature3 sample1   01     1000    100 sample2   10     0100    010 sample3   01     0010    010 sample4   10     0001    001 这样

浅谈主成分分析法

风格不统一 提交于 2021-01-25 09:58:21
主成分分析 **目的是将许多相关性很高的变量转化成彼此相互独立或不相关的变量 再从这些变量中选出比原始变数少,能解释大部分数据中的几个新变量(主成分,解释数据的综合性指标)** 步骤 对原始数据进行标准化处理(正规化方法:基于原始数值的均值和标准差进行数据的标准化) i个评价对象的第j个指标变量的取值为Aij 将各个Aij化为标准化指标值 计算相关系数矩阵R 计算特征值和特征向量 (设A是n阶方阵,如果存在数λ和n维非零向量α使 Aα=λα 成立 则称λ为方阵A的一个特征值,α为方阵A对应于特征值λ的一个特征向量) 计算相关系数矩阵R的特征值λ1>=λ2>=…>=λm>=0 及对应的特征向量u1,u2,…,u m,其中uj=【u 1j,u 2j,…,u mj】^T(转置) 由特征向量组成m个新的指标变量: y1,y2,…,y m。 选择p(p<=m)个主成分,计算综合评价值 (1).计算特征值λj(j=1,2,…, m)的信息贡献率和累积贡献率 (贡献率在统计学中一般是指整体中某部分的增长量对整体增长的作用大小, 实际上是指整体上中某部分的增长量占整体增长的比重) b j为主成分y j的信息贡献率(每个λ j与总的特征值的比) a p为主成分y1,y2,…,y p的累积贡献率(余下的特征值所占的比重) 当a p接近于1,(一般a p取0.85,0.90,0.95

『带你学AI』一文带你搞懂OCR识别算法CRNN:解析+源码

浪子不回头ぞ 提交于 2021-01-24 14:03:26
来源 | 极简AI 头图 | 视觉中国 本文搬运自小宋的小伙伴:https://blog.csdn.net/libo1004,欢迎大家关注文章链接:https://blog.csdn.net/libo1004/article/details/111595054 前言 文字识别是AI的一个重要应用场景,文字识别过程一般由图像输入、预处理、文本检测、文本识别、结果输出等环节组成。 其中,文本检测、文本识别是最核心的环节。文本检测方面,在我的 OCR_detection 专栏相关文章中已介绍过了多种基于深度学习的方法(有的还没完成,待整理后都会放入该专栏),可针对各种场景实现对文字的检测,详请见专栏中的相关文章。 在以前的 OCR 任务中,识别过程分为两步:单字切割 和 分类任务。我们一般都会将一连串文字的文本文件先利用 投影法 切割出单个字体,再送入 CNN 里进行文字分类。但是此法已经有点过时了,现在更流行的是基于深度学习的端到端的文字识别,即我们不需要显式加入文字切割这个环节,而是将文字识别转化为序列学习问题,虽然输入的图像尺度不同,文本长度不同,但是经过 DCNN 和 RNN 后,在输出阶段经过一定的 CTC 翻译转录后,就可以对整个文本图像进行识别,也就是说,文字的切割也被融入到深度学习中去了。 现今基于深度学习的端到端 OCR 技术有两大主流技术:CRNN OCR 和

线性代数--MIT18.06(二十二)

最后都变了- 提交于 2021-01-23 08:20:57
正文共:1497 字 66 图 预计阅读时间: 4 分钟 前文推送 线性代数 -- MIT18.06(十三):第一部分复习 线性代数--MIT18.06(十四):正交向量和正交空间 线性代数--MIT18.06(十五):子空间投影 线性代数--MIT18.06(十六):投影矩阵和最小二乘 线性代数--MIT18.06(十七):正交矩阵和施密特正交化 线性代数--MIT18.06(十八):行列式及其性质 线性代数--MIT18.06(十九):行列式公式和代数余子式 线性代数--MIT18.06(二十):克拉默法则、逆矩阵、行列式的几何意义 线性代数--MIT18.06(二十一):特征值和特征向量 22. 对角化和A的幂 22.1 课程内容:对角化和A的幂 根据上一讲的内容,我们已经知道了如何求解特征值和特征向量,并且在讲行列式的时候我们就已经说明了行列式的存在就是为了特征值和特征向量,那么特征值和特征向量的作用是什么呢?答案是,他们将使得求解矩阵的幂特别简便。 我们考虑一个前提假设,假设矩阵 有 个线性无关的特征向量,由他们构成矩阵 ,称为特征向量矩阵(eigenvectors matrix)。 将这两个矩阵相乘,我们就可以得到对角化公式 这就是我们继 和 之后的另一种矩阵分解形式。 这里需要重点说明下我们的前提假设,因为 有 个线性无关的特征向量,也就表明了 的

实时跟踪之TRACA

只愿长相守 提交于 2021-01-22 08:31:17
背景: 目前,在实时跟踪领域存在着越来越多的先进方法,同时也极大地促进了该领域的发展。主要有两种不同的基于深度学习的跟踪方法:1、由在线跟踪器组成,这些跟踪器依赖网络连续的微调来学习目标的变化外观,精度虽高,但无法满足实时要求;2、基于相关滤波器的跟踪器组成,利用原始深度卷积特征,如Imagenet中包含的一般对象,存在高维度的问题,另外,相关滤波器计算时间随着特征维度的增加而增加,也不满足实时要求。 在2018年的CVPR会议上,出现了这样一篇文章:《Context-aware Deep Feature Compression for High-speed Visual Tracking》,引起了不小的反响。主要提出了一种新的基于上下文感知的相关滤波器的跟踪框架,以实现一个实时跟踪器。在计算速度和精度方面都有着不错的成绩。速度提升主要来源于深度特征压缩,利用多个expert auto-encoder的上下文感知方案;上下文是指根据不同层特征图对跟踪目标的粗略分类。在预训练阶段,每个类别训练一个expert auto-encoder。在跟踪阶段,指定一个最佳expert auto-encoder。为了实现高效跟踪性能,引入外部去噪处理和新的正交性损失项orthogonality loss,用于expert auto-encoder的预训练和微调。在保持当前最佳性能的同时

【转】知乎 知识蒸馏 survey -- 知识蒸馏 | 模型压缩利器_良心总结 (附 Awesome-Knowledge-Distillation)

允我心安 提交于 2021-01-14 09:58:27
知识蒸馏 | 模型压缩利器_良心总结 https://zhuanlan.zhihu.com/p/138210881 深度学习“炼丹师”,计算机视觉算法工程师 公众号:CV炼丹猿 附:【 Awesome-Knowledge-Distillation 】 1.什么是知识蒸馏 最近利用知识蒸馏的方法,对业务中的性能有了可观的提升,因此在这里总结一波。本文主要从宏观的角度分析一下各个蒸馏算法的蒸馏方式,具体细节可以根据兴趣阅读论文~ 知识蒸馏是一种模型压缩常见方法,用于模型压缩指的是在teacher-student框架中,将复杂、学习能力强的网络学到的特征表示“知识蒸馏”出来,传递给参数量小、学习能力弱的网络。从而我们会得到一个速度快,能力强的网络,因此这是一个概念上的模型压缩方案。从另一个角度来说,蒸馏可以使得student学习到teacher中更加软化的知识,这里面包含了类别间的信息,这是传统one-hot label中所没有的。由于蒸馏中软化标签的本质,因此蒸馏也可以被认为是一种正则化的策略。总结来说,知识蒸馏除了能够学习到大模型的特征表征能力,也能学习到one-hot label中不存在的类别间信息。现有的知识蒸馏方法主要侧重于两点: 从teacher的什么位置学习 和 用什么方式学习 。以下的总结图概述了本文要介绍的蒸馏方法。 目录结构: 深度学习(异步图书出品) 京东 ¥

机器学习---感知机(Machine Learning Perceptron)

…衆ロ難τιáo~ 提交于 2021-01-14 04:10:10
感知机(perceptron)是一种线性分类算法,通常用于二分类问题。感知机由Rosenblatt在1957年提出,是神经网络和支持向量机的基础。通过修改损失函数,它可以发展成支持向量机;通过多层堆叠,它可以发展成神经网络。因此,虽然现在已经不再广泛使用感知机模型了,但是了解它的原理还是有必要的。 先来举一个简单的例子。比如我们可以通过某个同学的智商和学习时间(特征)来预测其某一次的考试成绩(目标),如果考试成绩在60分以上即为及格,在60分以下为不及格。这和线性回归类似,只不过设定了一个阈值,使得其可以处理分类问题。 因此,我们定义:给定特征向量x=([x 1 ,x 2 ,...,x n ]) T 以及每个特征的权重w=([w 1 ,w 2 ,...,w n ]) T ,目标y共有正负两类。那么: 对于某个样本,如果其 wx > 阈值(threshold),那么将其分类到正类,记为y=+1; 如果其 wx < 阈值(threshold),那么将其分类到负类,记为y=-1; (注:wx是特征向量和权重向量的点积/内积,wx=w 1 x 1 +w 2 x 2 +...+w n x n ) 也就是说,上式分为两种情况:wx - 阈值(threshold)> 0 或 wx - 阈值(threshold)< 0。我们可以将目标方程式简写成:y=sign(wx+b+ ),对y的估计就是 。

线性代数--MIT18.06(二十三)

孤人 提交于 2021-01-13 17:37:14
正文共:1500 字 59 图 预计阅读时间: 4 分钟 前文推送 线性代数 -- MIT18.06(十三):第一部分复习 线性代数--MIT18.06(十四):正交向量和正交空间 线性代数--MIT18.06(十五):子空间投影 线性代数--MIT18.06(十六):投影矩阵和最小二乘 线性代数--MIT18.06(十七):正交矩阵和施密特正交化 线性代数--MIT18.06(十八):行列式及其性质 线性代数--MIT18.06(十九):行列式公式和代数余子式 线性代数--MIT18.06(二十):克拉默法则、逆矩阵、行列式的几何意义 线性代数--MIT18.06(二十一):特征值和特征向量 线性代数--MIT18.06(二十二):对角化和幂 23. 特征值和特征向量的应用 23.1 课程内容:求解一阶常系数微分方程 在上一讲我们已经介绍了特征值和特征向量的一种应用,那就是求解差分方程,这一讲,讲解其另一个应用——求解微分方程,当然,首先从 一阶常系数微分方程 开始讲解。 由该微分方程组,我们可以得到系数矩阵 和求解差分方程的过程一样,我们首先求解特征值和特征向量:这里可以发现一个小技巧, 因为 是奇异矩阵(也就是说行向量或者列向量存在线性关系),因此必然有一个特征值为 0 ,而根据 特征值的和与矩阵的迹(对角线元素之和)相等 ,由此可以知道另一个特征值为 -3 。

同济版《线性代数》引发激烈争议!

百般思念 提交于 2021-01-13 05:52:32
来自:机器之心 你的线性代数,过了没? 不论是结构力学还是人脸识别,理工类型的科研,深究之后就会发现到处都是线性代数的身影。这样一门课程,要是在大一的时候学不好,可是会要命的。 在国内上过大学的理科同学应该都见过《线性代数》(同济版),就算没有学过,也是听过它的大名。作为一名过来人,只能说,晦涩难懂,章节混杂... 即使不少 985、211 走过高考独木桥的学生,每到期末考试,也要默默祈祷不要挂科。现在想起一些内容:相似矩阵、线性变换、特征值、特征向量…… 真是一个头两个大。 作为一本大学教材,让学习者如此后怕,是该考虑一下教材问题了。如今已经毕业多年,没想到最近在知乎上看到一篇文章《《线性代数》(同济版)——教科书中的耻辱柱》,点赞量快突破五千。对于这篇文章,大家有时间可以读一下,看看是不是同意作者的观点。 线性代数真的很重要,这是很多工程技术人员走上工作岗位的最大感受。好多算法都用到线性代数的知识,就比如现在非常热门的深度学习,它的底层实现方式用到好多线性代数方面的知识。如果底层基础打不好,不明白其中的原理,算法实现方式真的很难理解,更不可能去创新了。好的教材才能起到事半功倍的效果。 目前这本教材已更新了好几版,每次更新的内容看起来也是无关紧要,如果有下次版本更新,还是希望制定教材的老师们听取一下广大学生的建议。 同济版《线性代数》何以引发众怒? 一直以来,同济版《线性代数