深度学习 | 易学教程

多模态深度学习：用深度学习的方式融合各种信息

阅读更多关于多模态深度学习：用深度学习的方式融合各种信息

作者：Purvanshi Mehta 编译：ronghuaiyang 原文链接多模态深度学习：用深度学习的方式融合各种信息 mp.weixin.qq.com 导读使用深度学习融合各种来源的信息。多模态数据我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些多模态的信号。例如，图像通常与标签和文本解释相关联，文本包含图像，以更清楚地表达文章的中心思想。不同的模态具有非常不同的统计特性。多模态深度学习虽然结合不同的模态或信息类型来提高效果从直观上看是一项很有吸引力的任务，但在实践中，如何结合不同的噪声水平和模态之间的冲突是一个挑战。此外，模型对预测结果有不同的定量影响。在实践中最常见的方法是将不同输入的高级嵌入连接起来，然后应用softmax。多模态深度学习的例子，其中使用不同类型的神经网络提取特征这种方法的问题是，它将给予所有子网络/模式同等的重要性，这在现实情况中是非常不可能的。所有的模态对预测都有相同的贡献对网络进行加权组合我们采用子网络的加权组合，以便每个输入模态可以对输出预测有一个学习贡献(Theta)。我们的优化问题变成-

伪激光雷达：无人驾驶的立体视觉

阅读更多关于伪激光雷达：无人驾驶的立体视觉

点击上方“3D视觉工坊”，选择“星标” 干货第一时间送达激光雷达成本高，用廉价的立体视觉替代它可行吗？作者：Jeremy Cohen 编译：McGL 转载自：PyVision 深度学习和计算机视觉在自主系统中已经疯狂地流行起来，现在到处都在使用。计算机视觉领域在过去的十年中发展迅速，尤其是障碍物检测。像 YOLO 或 RetinaNet 这样的障碍物检测算法提供了2D的边界框，边界框给出了障碍物在图像中的位置。今天，大多数的目标检测算法都是基于单目 RGB 摄像头，不能返回每个障碍物的距离。为了返回每个障碍物的距离，工程师们将摄像头与激光雷达(LiDAR)传感器融合，激光雷达可以返回深度信息。利用传感器融合技术将计算机视觉和激光雷达的输出信息进行融合。这种方法的问题是激光雷达很贵。工程师们使用的一个有用的技巧是对齐两个摄像头，并使用几何学来确定每个障碍物的距离: 我们称之为伪激光雷达（Pseudo-LiDAR）。单目视觉 vs 立体视觉伪激光雷达利用几何构建了一个深度图，并将其与目标检测图结合起来得到3D距离。如何利用立体视觉实现距离估计？为了得到距离，下面是5步伪代码: 1. 校准两个摄像头（内部和外部校准） 2. 创建极线模式（epipolar scheme） 3. 建立一个视差图（disparity map），然后一个深度图

企业数字化转型，AI平台能力建设是关键

阅读更多关于企业数字化转型，AI平台能力建设是关键

企业数字化转型迎来一波又一波热潮。 IDC研究数据显示，目前中国已有41.4%的企业成为数字化转型的坚定者，到2023年，全球超过一半的GDP将由数字化转型企业的产品和服务推动。加速数字化转型、让业务智能化，许多行业均认可这是全面提升企业竞争力最可靠、最主流的路径，紧迫感如影随形。专业的数据科学人才还远远无法补足市场，企业对人才的需求就已经升级为既懂业务又懂技术的复合型精英。为了快速提升竞争力获得市场先机，企业决策者们选择将目光投向更智能、更高效的AI平台能力的建设及其应用。 AI平台—数字化转型的关键企业的数字化转型起于“数据”，落于“场景”，AI技术的作用是通过“数据分析及洞悉信息背后的价值”加速和优化这一进程，而AI平台作为技术的载体能让这一进程更加敏捷、易于使用可视、可自主操作。从美国回国创办DataCanvas九章云极的方磊和尚明栋专注AI平台已有7年，成为国内最早一批自动化数据科学平台供应商。他们研发的DataCanvas自动化数据科学平台目前已经服务金融、通信、交通、制造、零售等行业中数百家企业及政府单位。早在清华大学、弗吉尼亚理工和美国微软研究院专注数据科学研究和应用时，方磊先生即看到AI平台的大片蓝海。他敏锐洞察到，未来企业立足行业的制胜关键不是数据储备，而是自身数据分析及驾驭信息价值的能力。因此

数据标注员：人工智能行业的“筑梦师”丨曼孚科技

阅读更多关于数据标注员：人工智能行业的“筑梦师”丨曼孚科技

数据标注行业里有着这样的一段话：“有多少智能，就有多少人工”。这句话在某种程度上道出了人工智能的本质。事实上，现阶段提升AI认知世界能力的最有效途径仍然是监督学习，而监督学习下的深度学习算法训练十分依赖于数据标注员进行标注数据。可以说，如果数据标注是人工智能行业的基石，那么数据标注员就是数据标注行业的基石。 2020年2月，数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录。人工智能训练师新职业隶属于软件和信息技术服务人员小类，主要工作任务包括：标注和加工原始数据、分析提炼专业领域特征，训练和评测人工智能产品相关的算法、功能和性能，设计交互流程和应用解决方案，监控分析管理产品应用数据、调整优化参数配置等。根据国家人力资源和社会保障部相关预测显示，随着人工智能在智能制造、智能交通、智慧城市、智能医疗、智能农业、智能物流、智能金融及其他各行各业的广泛应用，人工智能训练师的规模将迎来爆发式增长。预计到2022年，相关从业人员有望达到500万。不过，尽管数据标注员规模处于急速扩张中，但是与市场需求相比，缺口依然很大。据艾瑞咨询相关统计数据显示，当下一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练，新功能的开发需要近万张图片训练，而定期优化算法也有上千张图片的需求，一个用于智慧城市的算法应用，每年都有数十万张图片的稳定需求。语音方面

PointNet++三维点云处理精讲(PyTorch版)：论文复现+代码详解

阅读更多关于 PointNet++三维点云处理精讲(PyTorch版)：论文复现+代码详解

课程链接： https://edu.51cto.com/course/24749.html 三维点云是物理世界的三维数据表达形式，其应用日益广泛，如自动驾驶、AR/VR、FaceID等。 PointNet网络模型是直接对三维点云数据进行深度学习的开山之作，PointNet++是对PointNet的改进技术。本课程对PyTorch版的PointNet++进行原理讲述、论文复现和代码详解。包括：提供三维点云物体分类数据集ModelNet40、物体部件分割数据集ShapeNet和场景分割数据集S3DIS的下载、可视化软件和方法；在Ubuntu系统上演示使用PointNet++进行三维点云的物体分类、部件分割和场景语义分割的训练和测试；详解PointNet++的原理、程序代码和实现细节，并使用PyCharm进行Debug调试代码和单步跟踪。来源： oschina 链接： https://my.oschina.net/u/4322161/blog/4542167

美国AI博士指出：60天掌握Python全栈需要...

阅读更多关于美国AI博士指出：60天掌握Python全栈需要...

我见过市面上很多的 Python 讲解教程和书籍，他们大都这样讲 Python 的：先从 Python 的发展历史开始，介绍 Python 的基本语法规则，Python 的 list, dict, tuple 等数据结构，然后再介绍字符串处理和正则表达式，介绍文件等 IO 操作，再介绍异常处理，就这样一章一章往下说。虽然这样的讲解很全面，但是单纯的理论说明经常很枯燥，让人越看越累，越累越不想看。那么，有没有比这更好的方法呢？ 01 让 6600 多人选择的编程专栏因为我也有过那段「自学」Python 的迷茫时期，所以我深知好的系统学习规划和生动的老师讲解，是事半功倍并且省下我们更多青春的关键。所以我提炼出过往 5 年多的工作经验，并和远在美国学府进修的 AI 博士后老师一起撰写了这个《Python 全栈 60 天精通之路》专栏。别人在介绍知识点时都会说「这东西是什么」，但我不想这样做。我觉得「为什么这东西是这样」或者「在什么场景、适应什么需求、有什么好处，才会用这东西」，反而更能让你们对知识本身有更深刻的理解。 1. 每天 1 小时我将整个 Python 内容按天划分为 60 天。即使你是上班族或者课业量较大的学生，也能轻松完成当天的课程任务。少刷 1 小时动森或抖音，就能让你在成为 Python 全栈工程师的路上比别人更快几倍！ 2. 案例教学

不让你的AJ被雨水淹没，英特尔AI软硬结合守护城市「良心」

阅读更多关于不让你的AJ被雨水淹没，英特尔AI软硬结合守护城市「良心」

　　机器之心转载　　在后摩尔定律时代，硬件所带来的算力提升已经没有那么可观，但 Science 的一篇文章表明，在软件层面，我们还能找到大幅度提升 AI 算力的方法。在此背景下，越来越多的企业开始注重「软硬结合」的新路径，英特尔就是其中的一个实力玩家。　　无论渴望在哪一领域做到极致，软实力和硬实力都是一对分不开的必备支柱，相辅而行互为协助。　　面对智能+世界，「软硬结合」已经成为AI技术与各行各业互联互通、实现落地赋能的「钥匙」。　　如今，世界级IT企业通常皆具备「软硬结合」的实力，因为软硬件充分结合的生态势必能释放更大的技术效能，催生更多AI赋能和重塑传统行业的新场景，而英特尔正是当中的实力派。　　若要强势输出AI生态效能，只握有一张王牌将不再适应是智能化、数据化变革，需要软硬实力同时兼备，更需要二者能量的结合。　　那么实力派的「融合」功力如何？我们通过案例来具体看看。　　守护城市「良心」：优化工具OPENVINO，加速智能视觉变革　　下水道常被称作一个城市的「良心」。如果下水道及排水系统足够有效，即使雨下得再大，走在路上地面的水也不会淹没我们脚上心爱的AJ。　　然而，下水管道隐匿于城市地下，绵延无数英里。举例来说，华盛顿特区地下的下水管道纵横交错，长达 1,800 多英里，而这其中产生的污水收集与处理工作需要耗费大量的人力物力。　

Xavier神经网络参数初始化方法

阅读更多关于 Xavier神经网络参数初始化方法

转自： https://zhuanlan.zhihu.com/p/68487857 之前我们学习了使用RBM对深度置信网络进行逐层训练初始化，或用类似的方法对多层深度神经网络进行预训练(pretraining)，以求最终收敛的结果接近最优且加快收敛速度，同时还能避免梯度消失 (gradient vanishing)和梯度爆炸 (gradient explosion)的问题。今天介绍一个更加方便快速的初始化方法，来近似达到相同的目的。一、梯度消失与梯度爆炸这是一个深度学习领域遇到的老问题了，即使是现在，任何一个新提出的模型，无论是MLP、CNN、还是RNN，随着深度的加深，这两个问题变得尤为严重。梯度消失是指在深度学习训练的过程中，梯度随着链式求导逐层传递逐层减小，最后趋近于0，导致对某些层的训练失效；梯度爆炸与梯度消失相反，梯度随着链式求导逐层传递逐层增大，最后趋于无穷，导致某些层无法收敛；二、Xavier方法接下来的推导基于假设: 激活函数在0周围的导数接近1(比如tanh); 偏置项b初始化为0，期望为0 参数初始化期望均为0 显然，在初始化参数的时候不能全部初始化为0，这样无论是什么输入，输出都是0，梯度在反向传播的过程中也会变成0，无法训练。同理如果把模型的值设为单一值，也会造成模型容量的减小(反向传播的过程中W的每一行都是相同的)。

你的生活正在被GPU***

阅读更多关于你的生活正在被GPU***

说到GPU很多人会陌生 CPU经常听，GPU和它有什么关系吗？真有关系！它们同为电脑提供计算能力却又执行不同的任务 CPU老大是电脑的中央处理器，负责控制计算机运行。GPU小弟是一个附属型的处理器，主要负责处理计算机中与图形计算有关的工作，并将数据更好地呈现在显示器中。只有CPU和GPU合作，才能最大程度上发挥电脑的性能。那么问题来了这个小弟是如何***进我们生活的呢？下面带大家认识下这位“最熟悉的陌生人”吧~ 准确无误的天气预报小时候爷爷总抱怨天气预报老不准，预报晴天，粮食晒在外面，却遇暴雨；而现在是不是没有这种体验了？因为在GPU强大算力的支持下，使得天气预报模型计算信息更加全面，从而改善了天气预测效果。让人拍案叫绝的科幻大片酷爱科幻电影的同学请起立~其实在科幻片当中，那些壮观的科幻镜头，炫酷的技能特效，逼真的人物刻画，大都是采用GPU渲染技术来打造的。疫情期间，《流浪地球》的制作方MORE VFX（墨镜天合）也将算力需求最大的渲染环节迁上阿里云，实现了快速复工。身临其境的VR体验随处可见的VR游戏、人气火爆的VR主题公园、座无虚席的5D影院，都使用了GPU渲染，助力打造极具沉浸感的视觉体验。一呼必应的智能音箱你最喜欢的智能音箱天猫精灵，只需一声令下，就可以帮你开空调、拉窗帘、关电灯，真正意义上的解放你的“双手”，你知道它为什么这么聪明吗

高效使用Pytorch的6个技巧：为你的训练Pipeline提供强大动力

阅读更多关于高效使用Pytorch的6个技巧：为你的训练Pipeline提供强大动力

作者：Eugene Khvedchenya 编译：ronghuaiyang 导读只报告模型的Top-1准确率往往是不够的。将train.py脚本转换为具有一些附加特性的强大pipeline 每一个深度学习项目的最终目标都是为产品带来价值。当然，我们想要最好的模型。什么是“最好的” —— 取决于特定的用例，我将把这个讨论放到这篇文章之外。我想谈谈如何从你的 train.py 脚本中得到最好的模型。在这篇文章中，我们将介绍以下技巧：用高级框架代替自己写的循环使用另外的度量标准监控训练的进展使用TensorBoard 使模型的预测可视化使用Dict作为数据集和模型的返回值检测异常和解决数值的不稳定性免责声明：在下一节中，我将引用一些源代码。大多数都是为[Catalyst]( https:// github.com/catalysts -team/catalyst)框架(20.08版)定制的，可以在pytorch-toolbelt中使用。不要重复造轮子建议1 — 利用PyTorch生态系统的高级训练框架 PyTorch在从头开始编写训练循环时提供了极佳的灵活性和自由度。理论上，这为编写任何训练逻辑提供了无限可能。在实践中，你很少会为训练CycleGAN、distilling BERT或3D物体检测从头开始实现编写训练循环。

订阅深度学习