深度学习

人脸识别算法演化史

走远了吗. 提交于 2020-10-23 07:23:19
转自: https://zhuanlan.zhihu.com/p/36416906 其它机器学习、深度学习算法的全面系统讲解可以阅读 《机器学习-原理、算法与应用》 ,清华大学出版社, 雷明著 ,由SIGAI公众号作者倾力打造。 书的购买链接 书的勘误,优化,源代码资源 导言: 本文为人脸识别算法系列专题的综述文章,人脸识别是一个被广泛研究着的热门问题,大量的研究论文层 出不穷,文中我们将为大家总结近些年出现的具有代表性的人脸识别算法。请大家关注SIGAI公众号,我 们会持续解析当下主流的人脸识别算法以及业内最新的进展。 人脸识别有什么用? 人脸识别的目标是确定一张人脸图像的身份,即这个人是谁,这是机器学习和模式识别中的分类问题。它主要应用在身份识别和身份验证中。其中身份识别包括失踪人口和嫌疑人追踪、智能交互场景中识别用户身份等场景;而身份验证包括身份证等证件查询、出入考勤查验、身份验证解锁、支付等场景,应用场景丰富。就在前不久,北京多家医院借助“黑科技”人脸识别技术阻击“熟脸”的号贩子,降低其挂号率;目前人脸识别还用到了治理闯红灯问题,改善中国式过马路现象。 人脸识别系统的组成 人脸识别算法主要包含三个模块: 人脸检测(Face Detection) 人脸对齐(Face Alignment) 人脸特征表征(Feature Representation) 如下图所示: 人脸检测

ERNIE时延降低81.3%,飞桨原生推理库Paddle Inference再升级

一个人想着一个人 提交于 2020-10-23 03:37:31
随着深度学习技术的成熟和人工智能的发展,机器开始变得越来越“聪明”,越来越了解用户的喜好和习惯。 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu 近年来对于NLP的研究也在日新月异的变化,有趣的任务和算法更是层出不穷,百度提出知识增强的语义表示模型 ERNIE 就是其中的佼佼者。 ERNIE 在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等各类NLP中文任务上的模型效果 全面超越 Bert ,成为NLP中文任务中的主流模型, ERNIE 2.0的论文(https://arxiv.org/abs/1907.12412)也被国际人工智能顶级学术会议AAAI-2020收录。 然而在模型效果大幅度提升的同时,模型的计算复杂性也大大增加,这使得 ERNIE 在推理部署时出现延时高,推理速度不理想 的情况,给产业实践带来了极大的挑战。 ​ 飞桨 开源框架1.8版本中, Paddle Inference在算子融合、TensorRT子图集成和半精度浮点数(Float 16)加速

标签平滑Label Smoothing

生来就可爱ヽ(ⅴ<●) 提交于 2020-10-23 03:28:28
Lable Smoothing 是分类问题中错误标注的一种解决方法。 对于分类问题,特别是多分类问题,常常把向量转换成one-hot-vector(独热向量) one-hot带来的问题:(对于独热的简单解释:https://blog.csdn.net/qq_43211132/article/details/96141409) 对于损失函数,我们需要用预测概率去拟合真实概率,而拟合one-hot的真实概率函数会带来两个问题: 1)无法保证模型的泛化能力,容易造成过拟合; 2) 全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大,而由梯度有界可知,这种情况很难适应。会造成模型过于相信预测的类别。 使用下面的 label smoothing 可以缓解这个问题: 原理:对于以Dirac函数分布的真实标签,我们将它变成分为两部分获得(替换)。 第一部分:将原本Dirac分布的标签变量替换为(1 - ϵ)的Dirac函数; 第二部分:以概率 ϵ ,在u(k) 中份分布的随机变量(u(k)是类别分之一) 代码: def label_smoothing(inputs, epsilon=0.1): K = inputs.get_shape().as_list()[-1] # number of channels return ((1-epsilon) * inputs) + (epsilon

《基于知识图谱的人机对话系统方法与实践》2018-10-刘升平-云知声

孤街醉人 提交于 2020-10-23 02:42:56
原文链接: https://mp.weixin.qq.com/s/vRsqMgBUI6Nv1ieFDx5jDQ 语言与知识的关系如下图所示。比如一句话可以算作语言,为了理解语言需要依赖大量的知识。 VUI + GUI 是主流。 VUI是IoT时代的主要交互方式。 云知声车载产品出货量 1000w+(2014年-2018年底) 语义+语境=语用(太冷了 / XXX 谁也赢不了) 人机对话的语境 知识图谱的本质就是一种知识的组织形式,没必要过分的神话。 一个对话举例,涉及多种形式的对话。 基于知识对话的核心部分 知识图谱构建 知识图谱评估方法,应用驱动 如何敏捷构建 实体发现,实体链接,Things,not Strings 基于实体的多源数据融合 实体发现与链接的方法【非常具有指导意义的实践方法】 知识图谱+语义理解,基于EDL 知识图谱+闲聊 闲聊上下文 闲聊一致性 知识图谱+问答+闲聊 将Copy + 检索 + 生成结合起来。 知识图谱+问答 (基于深度学习的方法还不成熟) 参考: https://zhuanlan.zhihu.com/p/27141786,揭开知识库问答KB-QA的面纱,Losin 知识图谱+主动对话 解决VUI交互下,用户无法浏览内容的困境; 提高交互频率; 总结 来源: oschina 链接: https://my.oschina.net/u/4416364

Tensorflow深度学习入门与实战(全新2.0版本)

隐身守侯 提交于 2020-10-23 01:29:49
Tensorflow深度学习入门与实战(全新2.0版本,160讲完整版,附源码,课件和数据) 本课程讲解Tensorflow深度学习的概念和使用方法,适合有一定python语言基础和数据分析基础的学员学习参考;本课程用通俗易懂的实例,系统讲解了Tensorflow2.0的使用,结合大量案例教学 来源: oschina 链接: https://my.oschina.net/u/4409991/blog/4558800

模式识别研究生:三维点云从零开始学习

你。 提交于 2020-10-22 14:10:49
模式识别研究生:三维点云从零开始学习 #模式识别 三维点云 这是我第一篇博客,想记录下自己的学习探索的过程,一点点将其记录下来,应该会有助于更加系统的学习知识。 本人本科学的专业是电气工程以及自动化,奈何学的不够扎实,应聘了几个硬件工程师岗位,都不是太理想,于是乎决定考个研,再来三年时间想一想学一学以后该找什么工作。 现在的专业是控制科学与工程,考虑到现在工科也需要很扎实的编程本领,不然找工作到处碰壁,索性开始学习编程吧,然后就跟着导师研究模式识别。 导师给了我两个项目,一个图片处理的,一个三维点云处理的,让我一个暑假的时间学习学习,好知道自己对哪一个更感兴趣。 啊啊啊啊 ,我就是个辣鸡啊,代码看不懂,滤波、去噪、配准、重建、深度学习都是一窍不通啊。我要怎么学,我该从哪里入手,又不敢问导师,只能自己硬着头皮搞。 第一步:利用本科毕业设计学到的“知网大法”,天花乱坠的知识以及各种各样的专业术语席卷而来,“sobel算子、超绿、阈值、大津法、CNN深度网络”。。。。。看到的每一个会的,当场开始怀疑人生,但是我还是硬着头皮开始一个个学习,看一篇期刊,然后把里面提到的知识点在浏览器里搜一搜,找找代码,代码看不懂,学!!又花了两天的时间把C++的基础知识补了一遍,从变量到指针再到各种结构体,做到了一个大概的了解后,开始啃代码。这样的日子大概半个月,每次都把学到的代码保存下来,以供下次直接用。

有人说 GPT3 是“暴力美学”的结晶,它的工作原理你知道吗?| 动图详解

霸气de小男生 提交于 2020-10-22 12:09:33
来源:CSDN 如今,在科技领域掀起了一股GPT3的热潮。大规模语言模型(比如GPT3)的潜力惊艳了我们。虽然这些模型还没有成熟到大多数企业将之直接面对消费者,但却展示出一些智慧的火花,并让人坚信其将会加速自动化的进程,让人看到智能计算系统的希望。让我们拂去GPT3的神秘光环,来看一看它训练与工作的原理吧! 一个经过训练的GPT3语言模型可以生成文本。 我们可以选择一些文本作为输入,从而影响它的输出。 输出是由模型在扫描大量文本的训练期间 "学到 "的东西生成的。 训练是将模型暴露在大量文本中的过程。它已经做了一次并完成了。你现在看到的所有实验都是来自那个训练过的模型。据估计,它耗费了355个GPU年,花费了460万美元。 一个有3000亿个字符的数据集被用来生成模型的训练样本。例如,这是由上面那句话生成的三个训练样本。 你可以看到你如何在所有文本上滑动一个窗口,并生成很多例子。 当我们只给模型一个样本时:我们只给看特征,并让它预测下一个单词。 该模型的预测将是错误的。我们计算其预测中的错误,并更新模型,以便下次它做出更好的预测。 重复这个过程数百万次 现在让我们更详细地看看这些相同的步骤。 GPT3实际上一次只生成一个token的输出(现在我们假设一个token是一个词)。 请注意:这是对GPT-3工作原理的描述,而不是对它的新颖之处的讨论(主要是规模大得可笑)。其架构是基于的

CIKM 2020 | 如何更为合适地评测推荐算法? Top-N物品推荐算法评测设置回顾

馋奶兔 提交于 2020-10-22 11:32:26
来源:RUC AI Box 本文 约5200字 ,建议 阅读10分钟 本文介绍了对于不同的实验设置对评价top-N商品推荐算法的影响,并设计了一个经验性的大规模实验。 1 引言 近十年里,top-N商品推荐是隐式反馈中一个被广泛研究的课题[1],其目的是从大量数据中识别出用户可能偏爱的一小部分物品。各种top-N物品推荐算法已经被开发出来,特别是基于深度学习的研究取得了很大的进展[2]。 为了证明推荐算法的有效性,需要在基准数据集上建立可靠的评价实验。通常,这样的评估过程包括一系列对于数据集、指标、基线方法和其他方案的设置。由于每个设置步骤可以选择不同的选项,需要制定和设计适当的标准,以使实验设置标准化[3,4]。为此,有必要对近期研究中有分歧的实验设置进行系统的回顾。 在这篇论文中,对于不同的实验设置对评价top-N商品推荐算法的影响,我们设计了一个经验性的大规模实验。我们试图找出导致近期评测工作中出现分歧的重要评估设置[2,7]。具体来说,考虑三个重要的影响因素, 即数据集分割、采样指标和数据领域选择。 数据集分割是指利用原始数据构造训练集、验证集和测试集;采样指标是指用采样方法获得不相关物品来计算评测指标的结果;数据领域选择是指从不同领域中选择合适的数据集进行评估。 为了检验这三个因素的影响,我们在Amazonreview数据集[8]上进行了大量的实验

ICRA2019 | 用于移动设备的双目立体匹配

五迷三道 提交于 2020-10-22 08:46:24
点击 上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者: 红薯好吃 https://zhuanlan.zhihu.com/p/86481492 本文仅做学术分享,如有侵权,请联系删除。 2019机器人顶会ICRA一篇关于可以满足移动设备的双目立体模型 代码地址: https://github.com/mileyan/AnyNet 论文题目 《Anytime Stereo Image Depth Estimation on Mobile Devices》 论文摘要: 许多用于机器人领域的深度估计方法都对实时性有很大的需求。目前sota模型面临在精度和实时性做出平衡的问题,加快推理速度往往会导致精度大幅度下降。针对这个问题,作者提出了一种高速推理模型。该模型能够处理1242x375分辨率的双目图片,在NVIDIA Jetson TX2上达到10-35FPS。在减少两个数量级参数情况下,仅仅比SOTA精度略微下降。 方法概述 图1 图1所示,是作者提出的AnyNet预测的时间线示意图,视差是随着时间逐步优化的。这个算法可以随时返回当前最优的视差。initial estimates即使精度不高,但是足以触发避障操作,之后的更优的深度图可以为更高级的路径规划提供线索。 AnyNet整体网络示意图如图2所示: 图2 AnyNet利用U-Net架构提取多分辨率级别下的特征

超赞!历时两年,吴恩达新书《Machine Learning Yearning》完整中文版 发布

筅森魡賤 提交于 2020-10-22 07:00:54
《Machine Learning Yearning》 是吴恩达历时两年,根据自己多年实践经验整理出来的一本机器学习、深度学习实践经验宝典。 吴恩达老师讲的机器学习课程比较浅显易懂,很适合数学基础不是很好的人自学,扫码下方的二维码,并在后台回复 ”宝典“ 【建议复制】 后台回复 ”宝典“ 扫码并关注下方二维码,后台回复” 宝典 “获取PDF: 本文分享自微信公众号 - Python与算法社区(alg-channel)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4585819/blog/4683187