深度学习 | 易学教程

深度剖析大数据平台的数据处理

阅读更多关于深度剖析大数据平台的数据处理

无论是采集数据，还是存储数据，都不是大数据平台的最终目标。失去数据处理环节，即使珍贵如金矿一般的数据也不过是一堆废铁而已。数据处理是大数据产业的核心路径，然后再加上最后一公里的数据可视化，整个链条就算彻底走通了。如下图所示，我们可以从业务、技术与编程模型三个不同的视角对数据处理进行归类：业务角度的分类与具体的业务场景有关，但最终会制约技术的选型，尤其是数据存储的选型。例如，针对查询检索中的全文本搜索，ElasticSearch会是最佳的选择，而针对统计分析，则因为统计分析涉及到的运算，可能都是针对一列数据，例如针对销量进行求和运算，就是针对销量这一整列的数据，此时，选择列式存储结构可能更加适宜。在技术角度的分类中，严格地讲，SQL方式并不能分为单独的一类，它其实可以看做是对API的封装，通过SQL这种DSL来包装具体的处理技术，从而降低数据处理脚本的迁移成本。毕竟，多数企业内部的数据处理系统，在进入大数据时代之前，大多以SQL形式来访问存储的数据。大体上，SQL是针对MapReduce的包装，例如Hive、Impala或者Spark SQL。 Streaming流处理可以实时地接收由上游源源不断传来的数据，然后以某个细小的时间窗口为单位对这个过程中的数据进行处理。消费的上游数据可以是通过网络传递过来的字节流、从HDFS读取的数据流，又或者是消息队列传来的消息流。通常

学习周记4：2019.3.11-2019.3.17

阅读更多关于学习周记4：2019.3.11-2019.3.17

前言这学期几乎全是硬核的算法/程序课，为了督促自己认真学习，我将每周写一篇周记。周记模板前一周保留，当周每日更新当日笔记。如有整段文字代码适合另起blog，也将链接标在周记对应的日期下。课程：算法设计与分析、数字图像处理、程序设计实习、游戏AI中的算法、视觉计算与深度学习、人工智能引论及实践课（NLP）、Python程序设计与数据挖掘导论、计算机图形学 2019.3.11 课程：算法设计与分析、游戏AI中的算法、人工智能引论、计算机图形学日记：算分作业写完了。 2019.3.12 课程：无日记：早上起得很迟，下午有点烦躁，OJ做不出来，基本没做什么。晚上去听了学而思的招聘专场，本来我以为是好未来的招聘，没想到仅仅局限于学而思，而且现场基本就是招聘讲师。听了双师课堂的介绍，比想象中要更加有意思一点点。记录一段给认识的在好未来工作的学长的话。今晚还是比较有收获的，更直观地了解了一下双师课堂，比过去理解的要更加“科技加持”一点。没想到学而思对学习数据的搜集已经做到这个程度了，还是挺兴奋的。我一直认为，游戏化、互动、激励之类略微有点“华而不一定实”的东西不是“目的”而是“工具”，我在一块的态度一直是比较保守的，我对教育技术很感兴趣，但是对这些东西是否能够真正提高学习效率/兴趣存疑。（不是看上去高大上就是好的有效的，技术的应用常常会本末倒置

何时使用约束求解而不是机器学习

阅读更多关于何时使用约束求解而不是机器学习

作者|Antoine Champion 编译|VK 来源|Towards Data Science 机器学习和深度学习一直是业界的热门话题。品牌领先于功能，导致深度学习在许多人工智能应用中被过度使用。这篇文章将提供对约束求解的快速理解，这是一个强大但未被充分利用的方法，可以解决人工智能和其他计算机科学领域的大量问题，例如物流和调度时间推理和图形问题。解决现实问题让我们来考虑一个事实性的和高度话题性的问题。病人人数正在上升。医院必须迅速组织起来治疗病人。世界上需要一种算法，在疾病严重程度、患者年龄和位置、医院容量和设备等多个标准下，将感染者和医院匹配起来。许多人会说，神经网络将是最适合它的：它可以有不同的配置，广泛的参数范围，可以根据需要减少到一个独特的解决方案。然而，也有一些不利因素会破坏这个方案：模型需要训练，因此需要以前案例的历史数据，清理和整合数据集会浪费很多时间，各种体系结构都需要通过冗长的训练并且要进行测试。另一方面，如果用一个布尔可满足性问题来描述，在不确定多项式时间(NP完全问题)中仍然给出次优解，并且不需要任何历史数据的情况下，不会有上述任何缺点。这篇文章帮助你快速一览CSPs。理论和问题的表述将被忽略。有关更严格的方法，请参考论文，论文在文章的末尾抽象问题这篇文章将介绍约束编程，旨在解决这个案例。上面那张图说明了我们算法的输出

揭秘 TARS 基金会：新一代海量微服务开源生态

阅读更多关于揭秘 TARS 基金会：新一代海量微服务开源生态

“云原生（Cloud Native）”现在已经是一个唱遍大江南北的词，相比它的上一代术语“云计算”，云原生更加强调“应用原生长在云上”。上世纪 50 年代末，虚拟化被提出来，如今看来，这成了云计算基础架构的基石。云计算发展到如今近 60 年，期间各种云相关的技术不断出现，PaaS、IaaS 与 SaaS 是最早一批基于云概念的实际应用，而后出现的 FaaS、BaaS 与 Serverless 等，也在为云不断增添新的动力。在这个过程中，为了达到在构建应用时“云端优先”的新兴思想，云原生的概念应运而生。云原生的原生指的是在最初设计应用时就原生为云环境做出相应考量，以此在云上充分利用和发挥云平台的各种能力，包括低成本、按需付费、系统弹性可伸缩、高度可管理、业务逻辑解耦等。 Linux 基金会专门成立了云原生计算基金会（CNCF，Cloud Native Computing Foundation）以发展云原生技术，伴随着这几年云原生的快速发展，CNCF 如今也成为了该领域最权威的组织。由 CNCF 主办的 “CloudNative + Open Source Virtual Summit China 2020 中国线上峰会” 正在进行中，为期 3 天的大会将带来上百场分享，内容将覆盖云原生的方方面面，包括微服务架构、容器、可观察性、存储、安全、身份、策略、开源生态、网络与 CI

构建对象检测模型

阅读更多关于构建对象检测模型

作者|ALAKH SETHI 编译|VK 来源|Analytics Vidhya 目标检测我喜欢深度学习。坦率地说，这是一个有大量技术和框架可供倾注和学习的广阔领域。当我看到现实世界中的应用程序，如面部识别和板球跟踪等时，建立深度学习和计算机视觉模型的真正兴奋就来了。我最喜欢的计算机视觉和深入学习的概念之一是目标检测。建立一个模型的能力，可以通过图像，告诉我什么样的物体存在！当人类看到一幅图像时，我们在几秒钟内就能识别出感兴趣的物体。机器不是这样的。因此，目标检测是一个在图像中定位目标实例的计算机视觉问题。好消息是，对象检测应用程序比以往任何时候都更容易开发。目前的方法侧重于端到端的管道，这大大提高了性能，也有助于开发实时用例。目录一种通用的目标检测框架什么是API？为什么我们需要一个API？ TensorFlow对象检测API 一种通用的目标检测框架通常，我们在构建对象检测框架时遵循三个步骤：首先，使用深度学习模型或算法在图像中生成一组的边界框（即对象定位）接下来，为每个边界框提取视觉特征。它们将根据视觉特征进行评估，并确定框中是否存在以及存在哪些对象在最后的后处理步骤中，重叠的框合并为一个边界框（即非最大抑制）就这样，你已经准备好了你的第一个目标检测框架！什么是API？为什么我们需要一个API？ API代表应用程序编程接口

我在攻克机器学习硕士学位的那些年

阅读更多关于我在攻克机器学习硕士学位的那些年

编者按：人工智能发展日趋成熟，也成为众多开发者职业生涯的首选方向。然而相较于其他领域，人工智能中的深度学习、机器学习、计算视觉、神经网络等技术更为错综复杂，进修难度也更胜一筹。对此，对于入门和想要进阶的学生及开发者群体，该如何攻克？在本文中，来自英国萨里大学机器学习与计算机视觉专业硕士Richmond Alake将从自身学业历程出发，分享一下其在读机器学习硕士的收获，以及相关的经验与课程，希望能帮助大家有所收获。作者 | Richmond Alake，已获作者翻译授权译者 | 鹿未来，编辑 | 屠敏题图 | 东方 IC 来源 | CSDN（ID：CSDNnews）其实，每所大学的课程不会有太大差异。所以，大家可以从本文了解机器学习和计算机视觉理学硕士的一些内容。除了在学习期间获得的东西之外，我还会分享更多学术知识，以及作为一名计算机视觉工程师职位相关的其他信息。攻读机器学习硕士需要具备哪些必备技能？研究生期间都会做一些选题，这些课题主要是反映机器学习领域的未来一些发展方向。而且机器学习的每个课程里都涵盖了很多内容。因此，我在修读MSc（Master of Science）学位需要确保在学习这些课程之前，还需要具备以下前提条件：理解线性代数和微积分（微分/优化）了解统计和概率研究具有编程语言背景拥有计算机科学、数学、物理或电子与机械工程专业学士学位

TensorFlow、PyTorch夹缝之下：后浪的进击和野望

阅读更多关于 TensorFlow、PyTorch夹缝之下：后浪的进击和野望

作者 | Just 出品 | AI科技大本营（rgznai100） “我发现，软件研发总会延期。”一流科技CEO袁进辉说。按照他的预期，深度学习框架OneFlow做两年就能开源给开发者检验，但时间向后延长了近一年半，“确实预计的不准” 。但无论如何，经过1300多天的打磨，一个由30多人团队打造的基于静态调度和流式执行技术的OneFlow深度学习框架终于问世。对于刚刚在GitHub开源的OneFlow，袁进辉总体打85分。与其他几个“国产”AI框架相比，袁进辉认为，在完备性上， OneFlow 比在今年3月开源的MindSpore和MegEngine要更好，不过支持的模型库还是比2016年就开源的PaddlePaddle要少。效率方面，OneFlow的一类优势是“人有我优”，比如其他框架做数据并行得90分，他们进一步“挖油水”，做到接近100分；还有一类叫“人无我有”，其他框架基本只有深度定制才能支持超大模型，而OneFlow可以轻易做到。袁进辉给出了一组数据对比，显示其他框架在大规模模型训练效率上与OneFlow对比，有着数量级的差距。而在多卡的易用性上，OneFlow要比其他框架要好，但在支持动态图方面，袁进辉也坦承与PyTorch有差距，不过很快可以追上。 2017年1月，PyTorch正式推出，TensorFlow正如日中天。彼时，国内外除了一线大厂

Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛

阅读更多关于 Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛

Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛作者：七月在线彭老师说明：本文最初由彭老师授权翟惠良发布在公众号“七月在线实验室”上，现再由July重新编辑发布到本blog上。 Github: https://github.com/pengpaiSH/Kaggle_NCFM 前言根据我个人的经验，学好AI，有五个必修：数学、数据结构、Python数据分析、ML、DL，必修之外，有五个选修可供选择：NLP、CV、DM、量化、Spark，然后配套七月在线的这些必修和选修课程刷leetcode、kaggle，最后做做相关开源实验。今天，咱们就来看一看：如何用百行代码实现Kaggle排名Top 5%的图像分类比赛。 1. NCFM 图像分类任务简介为了保护和监控海洋环境及生态平衡，大自然保护协会（ The Nature Conservancy ）邀请 Kaggle[1] 社区的参赛者们开发能够出机器学习算法，自动分类和识别远洋捕捞船上的摄像头拍摄到的图片中鱼类的品种，例如不同种类的吞拿鱼和鲨鱼。大自然保护协会一共提供了 3777 张标注的图片作为训练集，这些图片被分为了 8 类，其中7类是不同种类的海鱼，剩余1类则是不含有鱼的图片，每张图片只属于 8类中的某一类别。图1给出了数据集中的几张图片样例

前列腺癌检测 AI 算法登上《柳叶刀》：分类性能超过人类专家，还能完成其他临床任务...

阅读更多关于前列腺癌检测 AI 算法登上《柳叶刀》：分类性能超过人类专家，还能完成其他临床任务...

来源：AI科技评论本文约 2200字，建议阅读 6分钟。本文为你介绍一种基于人工智能的算法，其用来处理常规临床应用任务，具体而言是辅助前列腺疾病诊断。近日，《柳叶刀-数字医疗》期刊刊登了一篇“用人工智能算法诊断前列腺癌”的论文，论文中，作者除了报告了一项盲法临床验证研究，还部署了一种基于人工智能的算法用来处理常规临床应用任务，具体而言是辅助前列腺疾病诊断。在算法性能测试中，该 AI 算法用内部数据得到的AUC是0.997，在UPMC外部验证数据集上，其AUC是0.991。换句话说，性能指标超过了一般的AI算法。论文地址： https://www.thelancet.com/journals/landig/article/PIIS2589-7500(20)30159-X/fulltext 这篇论文的作者是来自UPMC和匹兹堡大学的研究员，他们提出的算法的核心技术是多层卷积神经网络，专门为图像分类任务而设计。整个算法工作的流程有三个连续的步骤：组织检测、分类和病理图片级别分析。算法和临床应用一览具体而言，先使用数千个图块对梯度提升（Gradient Boosting）分类器进行训练，目的是为了区分图片中的组织区域和背景区域；然后用分离出的组织区域训练三个基于CNN的模型。这些模型接受了1,357,480张贴有标签图块的训练，这些图块是从549张图片的“手工标注

2019年春季学期：学习资料汇总

阅读更多关于 2019年春季学期：学习资料汇总

算法设计与分析教材算法设计与分析第2版屈婉玲清华大学出版社数字图像处理教材冈萨雷斯-数字图像处理（MATLAB版）（第二版）冈萨雷斯-数字图像处理（第三版）不太喜欢第三版...数学偏多，基础部分比较啰嗦。 MATLAB 图像处理工具箱 https://ww2.mathworks.cn/products/image.html 程序设计实习刷题 OpenJudge http://cxsjsxmooc.openjudge.cn/2019t3springall/ POJ http://poj.org/problemlist 游戏AI中的算法大作业平台/环境 Botzone-国标麻将 https://www.botzone.org.cn/ 星际争霸2-配置教程 https://zhuanlan.zhihu.com/p/28471863 星际争霸2-官方教程 https://github.com/deepmind/pysc2 视觉计算与深度学习自学入门官网60分钟入门pytorch教程（需要numpy基础） https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html FINETUNING 图像分类模型样例 https://pytorch.org/tutorials/beginner

订阅深度学习