特征向量 | 易学教程

感知机（perceptron）原理总结

阅读更多关于感知机（perceptron）原理总结

目录 1. 感知机原理 2. 损失函数 3. 优化方法 4. 感知机的原始算法 5. 感知机的对偶算法 6. 从图形中理解感知机的原始算法 7. 感知机算法(PLA)的收敛性 8. 应用场景与缺陷 9. 其他 10. 参考资料 1. 感知机原理感知机是二分类的线性分类模型，本质上想找到一条直线或者分离超平面对数据进行线性划分适用于线性可分的数据集，否则感知机不会收敛假设有一个数据集 $D = {(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)}$ ，其中 $x_i \in R^n$ ，即 $x_i = (x_i^{(1)}, x_i^{(2)}, ...x_i^{(n)})$ 模型的输入为实例的特征向量 $x_i$ ，输出为实例的类别，取值为+1（正例）或者-1（负例）我们希望找到一个分离超平面 $w^Tx + b = 0，其中w \in R^n$ ，使得有满足 $w^Tx + b > 0$ 的实例所对应的类别为正例。而使得满足 $w^Tx + b < 0$ 的实例所对应的类别为负例。于是我们可以构建出感知机模型为： $f(x) = sign(w^Tx + b)$ 2. 损失函数定义损失函数一个很自然的想法是建立在误分类点的个数上，但是使用误分类点的个数来构造损失函数并不容易优化因此使用

Alink漫谈(十二) ：在线学习算法FTRL 之整体设计

阅读更多关于 Alink漫谈(十二) ：在线学习算法FTRL 之整体设计

Alink漫谈(十二) ：在线学习算法FTRL 之整体设计目录 Alink漫谈(十二) ：在线学习算法FTRL 之整体设计 0x00 摘要 0x01概念 1.1 逻辑回归 1.1.1 推导过程 1.1.2 求解 1.1.3 随机梯度下降 1.2 LR的并行计算 1.3 传统机器学习 1.4 在线学习 1.5 FTRL 1.5.1 regret & sparsity 1.5.2 FTRL的伪代码 1.5.3 简要理解 0x02 示例代码 0x03 问题 0x04 总体逻辑 0xFF 参考 0x00 摘要 Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将介绍在线学习算法FTRL在Alink中是如何实现的，希望对大家有所帮助。 0x01概念因为 Alink 实现的是 LR + FTRL，所以我们需要从逻辑回归 LR 开始介绍。 1.1 逻辑回归 Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic 回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。逻辑回归的思路是，先拟合决策边界(不局限于线性，还可以是多项式)，再建立这个边界与分类的概率联系，从而得到了二分类情况下的概率。 1.1.1 推导过程

Milvus 实战｜生物多因子认证系列 (一）：声纹识别

阅读更多关于 Milvus 实战｜生物多因子认证系列 (一）：声纹识别

| 什么是声纹识别声纹识别（又称说话人识别）是从说话人发出的语音信号中提取声纹信息，并对说话人进行身份验证的一种生物识别技术。简单来说，声纹识别技术可以“确认说话人是谁”。我们说话的时候，每个人的发音器官、发音通道和发音习惯上都有个体差异，声纹识别技术就是为了识别出说话人之间的这些差异。需要注意的是，声纹识别不同于常见的语音识别 [1]：语音识别：是共性识别，能听懂人的说话内容，即“你说了什么？”。声纹识别：是个性识别，能判断说话人是谁，即“说话人是谁？”。 | 声纹识别模型背景声纹识别的本质，就是要找到描述特定对象的声纹特征 (feature)，声纹特征类似于虹膜、指纹等，是一种独特的生物特征。至于特征提取方法，按照发展历程有模板匹配、高斯混合模型 (GMM) 、联合因子分析法 (JFA) 、深度神经网络方法等[2]。在深度神经网络之前出现的方法基本可以认为是传统方法。传统方法通常用精确的数学模型对声音信号进行特征提取，而深度神经网络通过模型训练获得声纹特征。研究表明：相较于传统方法，利用深度学习的方法在识别准确率上获得了显著的提高。本文用到的声纹特征就是基于深度学习模型得到的。特征提取 Deep Speaker[3] 是百度发布的一个基于神经网络的说话人嵌入系统，其基本思想是将说话人的语音映射到一个超平面，从而可以通过余弦相似度取来衡量说话人的相似度。上图是

07-noderepr 图机器学习之图表征学习

阅读更多关于 07-noderepr 图机器学习之图表征学习

网络中的机器学习节点分类链接预测机器学习的生命圈需要特征工程网络的特征学习——特征向量 embedding network embedding的意义节点的表征节点的相似度衡量→网络相似度衡量网络信息编码，生成节点表征用途：异常检测，属性预测，聚类，关系预测例子：deepwalk 难度：当前的深度学习视为序列或网格数据而设计的，但网络结构比这些更复杂，没有固定的空间结构，没有固定的顺序，是动态的，并且有多类特征 Embedding Nodes 假设我们有图G，V是节点集合，A是邻接矩阵，将节点编码，编码后的向量计算得到的相似度与原网络的一致因此需要定义一个编码器，以及计算节点相似度的函数，并优化encoder 浅层encoding，有一个大矩阵，存储各类节点的向量，encoder只是look-up，类似于word embedding 常见的方法：deepwalk，node2vec，transE 如何定义节点相似性例子：若两个节点的embedding相似，那么在物理结构上，他们：相连？有相同邻居？相似的结构角色？等随机游走→node embedding 随机游走：从一个节点出发，随机选择一个邻居节点，游走到该节点，再重复上述步骤。经过的节点组成的序列即为图的random walk 公式表示节点u，v在random walk中共同出现的概率步骤： 1.

强化学习（九）Deep Q-Learning进阶之Nature DQN

阅读更多关于强化学习（九）Deep Q-Learning进阶之Nature DQN

　　　　在强化学习（八）价值函数的近似表示与Deep Q-Learning 中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。　　　　本章内容主要参考了ICML 2016的 deep RL tutorial 和Nature DQN的论文。 1. DQN(NIPS 2013)的问题　　　　在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现，虽然它可以训练像CartPole这样的简单游戏，但是有很多问题。这里我们先讨论第一个问题。　　　　注意到DQN(NIPS 2013)里面，我们使用的目标Q值的计算方式：$$y_j= \begin{cases} R_j& {is\_end_j\; is \;true}\\ R_j + \gamma\max_{a'}Q(\phi(S'_j),A'_j,w) & {is\_end_j \;is\; false} \end{cases}$$ 　　　　这里目标Q值的计算使用到了当前要训练的Q网络参数来计算$Q(\phi(S'_j),A'_j,w)$，而实际上，我们又希望通过$y_j$来后续更新Q网络参数。这样两者循环依赖

小样本学习方法(FSL)演变过程

阅读更多关于小样本学习方法(FSL)演变过程

本文重点介绍了下小样本学习方法(FSL)演变过程以及MAML和度量学习的区别所在。小样本学习一般会简化为N-way K-shot问题，如图[1]。其中N代表类别数量，K代表每一类中(支持集)的样本量；图[1] N-way K-shot 解决分类问题，人们最先想到的是采用传统监督学习的方式，直接在训练集上进行训练，在测试集上进行测试，如图[2]，但神经网络需要优化的参数量是巨大的，在少样本条件下，几乎都会发生过拟合；图[2] 传统监督学习为了解决上述问题，人们首先想到的是通过使用迁移学习+Fine-tune的方式，利用Base-classes中的大量数据进行网络训练，得到的Pre-trained模型迁移到Novel-classes进行Fine-tune，如图[3]。虽然是Pre-trained网络+Fine-tune微调可以避免部分情况的过拟合问题，但是当数据量很少的时候，仍然存在较大过拟合的风险。图[3] Pre-trained网络+Fine-tune微调接下来讲的就是小样本学习中极具分量的Meta-learning方法，现阶段绝大部分的小样本学习都使用的是Meta-learning方法。Meta-learning，即learn to learn，翻译成中文是元学习。Meta-learning共分为Training和Testing两个阶段，Training阶段的思路如图

宜信OCR技术探索与实践|直播速记

阅读更多关于宜信OCR技术探索与实践|直播速记

宜信OCR技术探索与实践|直播速记宜信OCR技术探索与实践|完整视频回放分享实录一、OCR概述 1.1 OCR技术演进传统图像，冈萨雷斯的图像处理。信号处理、频域分析以及各类算法：SIFT、HOG、HOUGH、Harris、Canny…都很赞。从2016年以后业界基本上都已经转向深度了，因为效果真的特别好。 1.2 OCR技术商业服务身份证卡证类相对容易些，但是要做到复杂场景的，也不是那么容易。发票、业务单据相对复杂，除了识别，更重要的是版面分析。最近表格识别比较火，各家都在努力实现，微软的开放tablebank数据集移动端backboneMobileNet，或者是tesseract+opencv 二、我们的业务场景 2.1 业务需求满足业务是第一需要，不同于大厂，对外服务API，要求大并发那么强，多样性品类完备，我们更强调单品要做到尽量达到业务要求，更强调定制化，可以分布走，业务上可以给反馈不断改进。 2.2 识别过程中需要解决的问题三、OCR算法详解 3.1 算法概述——分享原则大家一定要自己弄细节，读代码、甚至自己动手撸，自己训练，调参，排错，才能有真正的体会和理解，只讲我认为每个算法里面不太好理解，重点，以及容易忽略的点，跟同行一起交流，沟通。一个模型，要全面深入了解，需要：目标、目的、意义是啥？网络结构啥样？ loss是啥？

【论文阅读】增量学习近期进展及未来趋势预测

阅读更多关于【论文阅读】增量学习近期进展及未来趋势预测

【摘要】本文通过三篇发表在CVPR 2019上的论文，对增量学习任务进行简单的介绍和总结。在此基础上，以个人的思考为基础，对这一研究领域的未来趋势进行预测。一、背景介绍目前，在满足一定条件的情况下，深度学习算法在图像分类任务上的精度已经能够达到人类的水平，甚至有时已经能够超过人类的识别精度。但是要达到这样的性能，通常需要使用大量的数据和计算资源来训练深度学习模型，并且目前主流的图像分类模型对于训练过程中没见过的类别，识别的时候完全无能为力。一种比较简单粗暴的解决方法是：对于当前模型识别不了的类别，收集大量的新数据，并和原来用于训练模型的数据合并到一起，对模型进行重新训练。但是以下的一些因素限制了这种做法在实际中的应用：当存储资源有限，不足以保存全部数据的时候，模型的识别精度无法保证；重新训练模型需要消耗大量的算力，会耗费大量的时间，同时也会付出大量的经济成本（如电费、服务器租用费等）。为了解决这些问题，使得增加模型可识别的类别数量更容易一些，近年来学术界中出现了一些针对深度学习的“增量式学习”算法。这类算法有三点主要的假设：不同类别的数据是分批次提供给算法模型进行学习的，如下图所示；系统的存储空间有限，至多只能保存一部分历史数据，无法保存全部历史数据，这一点比较适用于手机、PC机等应用场景；在每次提供的数据中，新类别的数据量比较充足。

最新综述：深度学习图像三维重建最新方法及未来趋势

阅读更多关于最新综述：深度学习图像三维重建最新方法及未来趋势

点击上方“ 3D视觉工坊 ”，选择“星标” 干货第一时间送达今天分享的是：深度学习领域基于图像的三维物体重建最新方法及未来趋势综述。原文： Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era 论文下载：https://arxiv.org/abs/1906.06543 摘要：三维重建是计算机视觉计算机图形学和机器学习等领域几十年来一个不适定问题。从2015年开始使用CNN解决基于图像的三维重建（image-based 3D reconstruction）有了极大的关注并且展示出强大的性能。在新时代的快速发展下，我们提供了这一领域详细的调研。本文章专注于从RGB图像估计三维物体形状的深度学习方法。除此之外我们还回顾了关于特定物体（如人脸）的近期研究。我们一些重要论文性能的分析和比较，总结这一领域的现有问题并讨论未来研究的方向。本文是深度学习做三维重建的一篇综述对自2015年以来本领域的149个方法做详尽的回顾深入分析深度学习三维重建的各个方面，包括训练集，网络架构选择以及重建结果，训练技巧和应用场景总结对比了普遍的三维重建算法（88种），本文还包含了三维人脸重建算法（11种），人体形状重建算法（6种方法）问题陈述和分类假设为物体

RCNN极其细致初学者阅读笔记

阅读更多关于 RCNN极其细致初学者阅读笔记

版权声明：本文由 Kathy 投稿 1、 Introduction 1.1 R-CNN and SPPnet R-CNN的弊端：多阶段（3）的训练过程训练的时间和空间开销大速度过慢 R-CNN的问题症结在于其不能共享计算，而SPPnet改进了这个问题，通过对整张图卷积得到特征图，从这张特征图上进行region proposal而能够共享卷积的计算结果，加速了 R-CNN；后通过空间金字塔池化实现了任意尺度图像的输入。 SPPnet的问题在于：训练仍是多阶段的；特征提取后仍需存放到磁盘造成大的开销；不像R-CNN，其微调算法不能更新金字塔池化之前的卷积层，从而限制了网络的深度。 1.2 contribution 提出Fast R-CNN，其优点为：更高的检测精度mAP 训练时单阶段的训练过程可以更新所有层网络参数无需为特征图缓存消耗内存 2、 Fast R-CNN architecture and training 网络结构为：输入整张图片，通过卷积池化提取特征图在特征图上提取RoI (region of interest)，相当于region proposal 阶段。 RoI Pooling输出固定尺寸的RoI特征图（尺度降为1的简易版SPP） FCs映射得到固定维度的特征向量对特征向量分别进行分类（获得K+1维结果，类别+背景）和回归（获得K4维结果

订阅特征向量