深度学习 | 易学教程

12、数据读取（四）——图片文件读取

阅读更多关于 12、数据读取（四）——图片文件读取

1、图片组成（1）如何对一张图片进行识别，输入特征值，输出目标值。在计算机中，对于每一张图片，都是通过像素进行显示，每张图片由像素组成，每一个点的像素值不同。在一张200x200的图片中：　　　　黑白图片，单通道图片，每一个像素点只有一个值，即灰度值，范围0-255，所以共有200x200，即20000个像素，共有20000个特征。　　　　彩色图片，三通道图片，每一个像素点只有三个值，即 RGB ，范围0-255，所以共有200x200x3，即20000x3个像素，共有60000个特征。（2）图片数字化三要素， [ 长度、宽度、通道数 ] （3）三要素与张量的关系　　指定3-D张量：[height，width，channels] ，即长度，宽度，通道数　　　　 4-D张量：[batch，height，width，channels]，即图片的张数（批量），长度，宽度，通道数 2、图片的基本操作每一个图片样本必须保持特征值数量一样，这就需要所有图片统一特征的数量（像素值一样）　　Ⅰ. 目的：①增加图片数据的统一性 ②所有图片转换为指定大小 ③缩小图片数据量，防止增加开销　　Ⅱ. 操作API：　　缩放图片的大小　　 tf.image.resize_images(images, size) 　缩小图片　　　● images: 4-D形状

为非专业人员量身打造，斯坦福教授Christopher Manning一页纸定义AI核心概念

阅读更多关于为非专业人员量身打造，斯坦福教授Christopher Manning一页纸定义AI核心概念

斯坦福教授 Christopher Manning 用一页纸的篇幅介绍 AI 领域的核心概念。机器之心报道，编辑：魔王、小舟。在「AI」随处可见的当下，你真的理解人工智能领域核心概念吗？刚刚，斯坦福大学教授、人工智能实验室（SAIL）负责人、HAI 副主任 Christopher Manning 用一页纸的篇幅定义了 AI 领域的核心术语。他表示希望这些定义能够帮助非专业人员理解 AI 。在这一页纸中，Manning 介绍了十多个术语的定义，包括「智能」、「人工智能」、「机器学习」、「深度学习」等。链接： https:// hai.stanford.edu/sites/ default/files/2020-09/AI-Definitions-HAI.pdf 具体内容参见下文：智能可以定义为学习和执行恰当的技术以解决问题、实现目标的能力，且这些能力能够适用于不确定、不断变化的外部环境。经过完全预编程的工业机器人具有灵活性、准确性和一致性，但并不智能。人工智能（AI）由斯坦福大学名誉教授 John McCarthy 在 1955 年提出，他将人工智能定义为「制造智能机器的科学与工程」。许多研究使人类编程的机器能够以聪明的方式执行任务，如下棋。但是如今，AI 领域致力于实现至少可以像人类一样学习的机器。自主系统能够独立地计划和确定操作步骤，以实现指定的目标

ICLR 2020 Mogrifier LSTM 解析

阅读更多关于 ICLR 2020 Mogrifier LSTM 解析

1. 简介 LSTM模型作为一种经典的RNN网络结构，常用于NLP任务当中。在本篇工作中，我们进一步拓展了原始LSTM模型。注意到原始LSTM中输入x和之前状态h_prev是完全独立的，可能导致上下文信息的流失。我们提出一种形变LSTM，将输入x和之前状态h_prev进行交互，再输入进各个门里面运算。最后实验表明，改进过后的Mogrifier LSTM在各项任务均优于传统LSTM 2. 回顾传统LSTM LSTM模型结构如下所示 LSTM模型结构它一共有4个门控系统，分别是遗忘门，输入门，候选记忆细胞，输出门各个门的计算公式如下遗忘门: 输入门: 候选记忆细胞: 输出门: 记忆细胞: 新一轮的隐藏状态: 其中 σ 代表的是sigmoid运算各个门作用及机理如下遗忘门：主要控制是否遗忘上一层的记忆细胞状态，输入分别是当前时间步序列数据，上一时间步的隐藏状态，进行矩阵相乘，经sigmoid激活后，获得一个值域在[0, 1] 的输出F，再跟上一层记忆细胞进行对应元素相乘，输出F中越接近0，代表需要遗忘上层记忆细胞的元素。候选记忆细胞：这里的区别在于将sigmoid函数换成tanh激活函数，因此输出的值域在[-1, 1]。输入门：与遗忘门类似，也是经过sigmoid激活后，获得一个值域在[0, 1]的输出。

挑战Deepfake中科大斩获亚军，与第一名仅差0.0005

阅读更多关于挑战Deepfake中科大斩获亚军，与第一名仅差0.0005

　　美国大选在即，为了防范 Deepfake 视频干扰选情，Twitter 和 Facebook 分别做出了应对策略，Facebook 将会删除其认定的 Deepfake 视频，而 Twitter 打算在相关视频页面给出提示。　　早在去年年底，Facebook 就拿出 1000 万美元当奖金，举办全球范围内的 Deepfake 检测大赛。这也是 Kaggle 平台历史上奖金额度最高的竞赛。　　后经半年的酣战，中国科技大学的俞能海、张卫明教授团队从全球 2265 支队伍中脱颖而出，获得亚军，最终成绩与第一名仅差 0.0005。此次挑战赛共收到 3.5 万个检测模型，能够夺得第二，实属不易。　　该团队的周文柏博士告诉 DeepTech，本次比赛所获得的 30 万美元奖金会用于实验室建设和选手奖励。　　这支名为 “\\WM/” 的队伍，主要由中科大信息处理中心的博士后、博士生和硕士生组成。虽然团队获奖信息在当时并未引起媒体太多关注，却在业界广为人知。不少企业主动来寻求合作，周文柏透露，华为、浙江省广电等企业就希望能够运用人工智能技术，希望预防手机拍摄的媒体素材、或者电台公开的素材被恶意窜改。　　　　图 | Deepfake 检测挑战赛（来源：Kaggle 官网）　　算力不优越，却能取得第二名　　值得关注的是，这次迄今最大规模的 Deepfake 检测挑战赛也暴露出

为非专业人员量身打造，斯坦福教授一页纸定义AI核心概念

阅读更多关于为非专业人员量身打造，斯坦福教授一页纸定义AI核心概念

　　机器之心报道　　编辑：魔王、小舟　　斯坦福教授 Christopher Manning 用一页纸的篇幅介绍 AI 领域的核心概念。　　在「AI」随处可见的当下，你真的理解人工智能领域核心概念吗？　　刚刚，斯坦福大学教授、人工智能实验室（SAIL）负责人、HAI 副主任 Christopher Manning 用一页纸的篇幅定义了 AI 领域的核心术语。他表示希望这些定义能够帮助非专业人员理解 AI 。　　　　在这一页纸中，Manning 介绍了十多个术语的定义，包括「智能」、「人工智能」、「机器学习」、「深度学习」等。　　　　链接：https://hai.stanford.edu/sites/default/files/2020-09/AI-Definitions-HAI.pdf 　　具体内容参见下文：　　智能可以定义为学习和执行恰当的技术以解决问题、实现目标的能力，且这些能力能够适用于不确定、不断变化的外部环境。经过完全预编程的工业机器人具有灵活性、准确性和一致性，但并不智能。　　人工智能（AI）由斯坦福大学名誉教授 John McCarthy 在 1955 年提出，他将人工智能定义为「制造智能机器的科学与工程」。许多研究使人类编程的机器能够以聪明的方式执行任务，如下棋。但是如今，AI 领域致力于实现至少可以像人类一样学习的机器。　　

【技术综述】多标签图像分类综述

阅读更多关于【技术综述】多标签图像分类综述

图像分类作为计算机视觉领域的基础任务，经过大量的研究与试验，已经取得了傲人的成绩。然而，现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时，又该如何进行分类呢？本篇综述将带领大家了解多标签图像分类这一方向，了解更具难度的图像分类。作者 | 郭冰洋编辑 | 言有三 1 简介随着科学技术的进步与发展，图像作为信息传播的重要媒介，在通信、无人驾驶、医学影像分析、航天、遥感等多个领域得到了广泛的研究，并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视，也促使计算机视觉领域迎来了蓬勃发展的黄金时代。作为计算机视觉领域的基础性任务，图像分类是目标检测、语义分割的重要支撑，其目标是将不同的图像划分到不同的类别，并实现最小的分类误差。经过近30年的研究，图像分类已经成功应用至社会生活的方方面面。如今，在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。根据分类任务的目标不同，可以将图像分类任务划分成两部分:（1）单标签图像分类；（2）多标签图像分类。单标签图像分类是指每张图片对应一个类别标签，根据物体类别的数量，又可以将单标签图像分类划分成二分类、多类别分类。如下图所示，可以将该图的标签记为海洋，通过单标签图像分类我们可以判定该图像中是否含有海洋。然而，现实生活中的图片中往往包含多个类别的物体，这也更加符合人的认知习惯

2018年英特尔秋季人工智能技术研讨会

阅读更多关于 2018年英特尔秋季人工智能技术研讨会

2018年10月16日，在上海英特尔举办了秋季人工智能技术研讨会，主要从芯片硬件和深度学习底层加速工具包介绍了所做的事情。我今天将分享一下我所看到的内容给大家。 Intel针对CPU版本的tensorflow进行了优化，在ResNet50网络上进行了训练和推理测试，同样的硬件条件下，与没有优化的CPU版本的tensorflow结果相比，速度分别提高了14倍和3.2倍。 Intel优化的CPU版本的tensorflow目前只支持最新版的1.10.0，安装也非常简单只需要加一条语句即可：conda install tensorflow -c intel。 Intel对现在大多数深度学习网络进行了优化，例如SSD，UNet，DCGAN等。 Intel对tensorflow中优化的操作有前传操作（conv2d，relu，maxpool，batchnorm，concat等）和后传操作（reluGrad，maxpoolGrad，batchnormGrad等）。 TensorTuner是用来在Intel至强CPU上来调整tensorflow配置的工具。 Intel至强和FPGA芯片可以用于集成，存储，处理，管理和分析等方向。 Intel不同的芯片应用于不同的深度学习需求。 OPENVINO TOOLKIT是用来加速计算机视觉和深度学习推理性能工具包。

记录理解程度、一篇至少读3遍，吴恩达建议这样读论文

阅读更多关于记录理解程度、一篇至少读3遍，吴恩达建议这样读论文

选自Medium 作者：Richmond Alake 机器之心编译参与：杜伟、小舟、魔王在科研领域中，读论文大概是大家的日常基本操作了。但如何读论文，才能实现效率最大化呢？斯坦福大学教授吴恩达在斯坦福 CS230 深度学习课程中专门讲述了如何读论文，那么具体效果如何呢？本文作者以「姿态估计」为例复现了吴恩达的读论文方法，并提出了他自己的读论文小技巧，希望对大家的科研有所帮助。理解人工智能和机器学习领域中的前沿研究是每一位机器学习从业者应该掌握的技能。要想实时追踪前沿研究并增加自己的知识，机器学习从业者需要养成开放的学术心态和习惯。人工智能、机器学习和深度学习领域每时每刻都在更新发展，所以我们必须用知识来武装自己，紧跟领域发展步伐，而这些只能通过读论文来实现。但是读论文也不是盲目而就的，也需要一定的方法和流程。如果只是流水账似的通读下来，恐怕也不会有特别好的效果。之前，斯坦福大学教授、Coursera 联合创始人吴恩达（Andrew Ng）在斯坦福 2018 年秋季 CS230 深度学习课程中就如何读论文提出了一些建议。但具体效果怎么样呢？按照吴恩达的方法是否可以充分地从论文中获取自己想要了解和掌握的知识和技能呢？近日，计算机科学工程师 Richmond Alake 以「姿态估计」为例，示范了吴恩达 CS230 课程的读论文方法，目前相关文章已在 Medium 获得

云服务太麻烦，我花9000美元自建深度学习工作站，上双路泰坦RTX

阅读更多关于云服务太麻烦，我花9000美元自建深度学习工作站，上双路泰坦RTX

　　机器之心报道　　编辑：魔王、蛋酱　　贵是贵了点儿，但用起来是真香。　　　　创建属于自己的深度学习工作站大概是很多机器学习从业者的梦想，本文作者 Rahul Agarwal 也不例外。然而创建工作站并非易事，你得有时间，还得有钱。主要是得有钱…… 　　在拖延了很长时间后，Rahul Agarwal 下定决心创建自己的工作站。原因无他，受够了使用云服务时，不管多小的项目都要设置服务器、进行一系列安装，或者运行时和网络连接受限。　　于是，Rahul 决定行动起来。在创建工作站之前，他阅读了大量资料，观看了很多相关的 YouTube 视频，做足了准备工作。　　按照个人需求创建深度学习工作站需要大量研究，Rahul 研究了单个组件、性能、评论甚至外观，并写下了整个过程、所有组件以及选择原因等详细信息。　　如果你也想创建深度学习工作站，Rahul 的这篇文章或许可以作为参考。　　为什么要创建个人工作站？　　映入我脑海的第一个答案是：为什么不呢？　　我的工作和深度学习、机器学习应用密切相关，但是每一次开启新项目都要使用新的服务器、安装所有依赖，真是让人头秃。　　　　如果有了属于自己的工作站，你就可以坐在桌边使用它，根据自己的需求进行大量定制。简直太棒了！　　不过相比于使用云服务，创建工作站这个主意真的让我「身无长物」了。　　工作站配置　　我用了好几周时间

目标检测：Anchor-Free时代

阅读更多关于目标检测：Anchor-Free时代

　　自从2018年8月CornerNet开始，Anchor-Free的目标检测模型层出不穷，最近达到了井喷的状态，宣告着目标检测迈入了Anchor-Free时代。　　其实Anchor-Free并不是一个新概念了，大火的YOLO算是目标检测领域最早的Anchor-Free模型，而最近的Anchor-Free模型如FASF、FCOS、FoveaBox都能看到DenseBox的影子。　　下面主要讲一下有代表性的Anchor-Free模型(包括DenseBox、YOLO、CornerNet、ExtremeNet、FSAF、FCOS、FoveaBox)，分成3个部分来介绍(早期探索、基于关键点、密集预测)，具体细节就不展开了~ 　　早期探索　　1 　　DenseBox 　　最早知道这篇文章，是在去年刚接触目标检测的时候，看了一篇地平线对DenseBox作者的采访，当时因为刚接触感触不深，但是从当前的时间节点回头看，DenseBox的想法是多么的超前啊。　　采访中说道，当年DenseBox其实早在2015年初就已经开发出来了，这比同期的Faster-RCNN系列提前数月，但是论文直到9月才在arxiv上发布。如果DenseBox能在2015年初就发表，那么最近几年目标检测的发展会不会是另外一番景象呢~ 　　两点贡献：　　1.证明单个FCN可以检测出遮挡严重、不同尺度的目标。　　2

订阅深度学习