深度学习

深度剖析大数据平台的数据处理

独自空忆成欢 提交于 2020-08-04 12:19:55
无论是采集数据,还是存储数据,都不是大数据平台的最终目标。失去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已。数据处理是大数据产业的核心路径,然后再加上最后一公里的数据可视化,整个链条就算彻底走通了。 如下图所示,我们可以从业务、技术与编程模型三个不同的视角对数据处理进行归类: 业务角度的分类与具体的业务场景有关,但最终会制约技术的选型,尤其是数据存储的选型。例如,针对查询检索中的全文本搜索,ElasticSearch会是最佳的选择,而针对统计分析,则因为统计分析涉及到的运算,可能都是针对一列数据,例如针对销量进行求和运算,就是针对销量这一整列的数据,此时,选择列式存储结构可能更加适宜。 在技术角度的分类中,严格地讲,SQL方式并不能分为单独的一类,它其实可以看做是对API的封装,通过SQL这种DSL来包装具体的处理技术,从而降低数据处理脚本的迁移成本。毕竟,多数企业内部的数据处理系统,在进入大数据时代之前,大多以SQL形式来访问存储的数据。大体上,SQL是针对MapReduce的包装,例如Hive、Impala或者Spark SQL。 Streaming流处理可以实时地接收由上游源源不断传来的数据,然后以某个细小的时间窗口为单位对这个过程中的数据进行处理。消费的上游数据可以是通过网络传递过来的字节流、从HDFS读取的数据流,又或者是消息队列传来的消息流。通常

学习周记4:2019.3.11-2019.3.17

别说谁变了你拦得住时间么 提交于 2020-08-04 12:07:02
前言 这学期几乎全是硬核的算法/程序课,为了督促自己认真学习,我将每周写一篇周记。周记模板前一周保留,当周每日更新当日笔记。如有整段文字代码适合另起blog,也将链接标在周记对应的日期下。 课程: 算法设计与分析 、数字图像处理、 程序设计实习 、 游戏AI中的算法 、视觉计算与深度学习、人工智能引论及实践课(NLP)、Python程序设计与数据挖掘导论、计算机图形学 2019.3.11 课程: 算法设计与分析 、 游戏AI中的算法 、人工智能引论、计算机图形学 日记: 算分作业写完了。 2019.3.12 课程:无 日记: 早上起得很迟,下午有点烦躁,OJ做不出来,基本没做什么。晚上去听了学而思的招聘专场,本来我以为是好未来的招聘,没想到仅仅局限于学而思,而且现场基本就是招聘讲师。 听了双师课堂的介绍,比想象中要更加有意思一点点。记录一段给认识的在好未来工作的学长的话。 今晚还是比较有收获的,更直观地了解了一下双师课堂,比过去理解的要更加“科技加持”一点。没想到学而思对学习数据的搜集已经做到这个程度了,还是挺兴奋的。 我一直认为,游戏化、互动、激励之类略微有点“华而不一定实”的东西不是“目的”而是“工具”,我在一块的态度一直是比较保守的,我对教育技术很感兴趣,但是对这些东西是否能够真正提高学习效率/兴趣存疑。(不是看上去高大上就是好的有效的,技术的应用常常会本末倒置

何时使用约束求解而不是机器学习

荒凉一梦 提交于 2020-08-04 11:30:43
作者|Antoine Champion 编译|VK 来源|Towards Data Science 机器学习和深度学习一直是业界的热门话题。品牌领先于功能,导致深度学习在许多人工智能应用中被过度使用。 这篇文章将提供对约束求解的快速理解,这是一个强大但未被充分利用的方法,可以解决人工智能和其他计算机科学领域的大量问题,例如物流和调度时间推理和图形问题。 解决现实问题 让我们来考虑一个事实性的和高度话题性的问题。 病人人数正在上升。医院必须迅速组织起来治疗病人。 世界上需要一种算法,在疾病严重程度、患者年龄和位置、医院容量和设备等多个标准下,将感染者和医院匹配起来。 许多人会说,神经网络将是最适合它的:它可以有不同的配置,广泛的参数范围,可以根据需要减少到一个独特的解决方案。 然而,也有一些不利因素会破坏这个方案: 模型需要训练,因此需要以前案例的历史数据, 清理和整合数据集会浪费很多时间, 各种体系结构都需要通过冗长的训练并且要进行测试。 另一方面,如果用一个布尔可满足性问题来描述,在不确定多项式时间(NP完全问题)中仍然给出次优解,并且不需要任何历史数据的情况下,不会有上述任何缺点。 这篇文章帮助你快速一览CSPs。理论和问题的表述将被忽略。有关更严格的方法,请参考论文,论文在文章的末尾 抽象问题 这篇文章将介绍约束编程,旨在解决这个案例。上面那张图说明了我们算法的输出

揭秘 TARS 基金会:新一代海量微服务开源生态

﹥>﹥吖頭↗ 提交于 2020-08-04 11:28:59
“云原生(Cloud Native)”现在已经是一个唱遍大江南北的词,相比它的上一代术语“云计算”,云原生更加强调“应用原生长在云上”。 上世纪 50 年代末,虚拟化被提出来,如今看来,这成了云计算基础架构的基石。云计算发展到如今近 60 年,期间各种云相关的技术不断出现,PaaS、IaaS 与 SaaS 是最早一批基于云概念的实际应用,而后出现的 FaaS、BaaS 与 Serverless 等,也在为云不断增添新的动力。 在这个过程中,为了达到在构建应用时“云端优先”的新兴思想,云原生的概念应运而生。云原生的原生指的是在 最初设计应用时就原生为云环境做出相应考量 ,以此在云上充分利用和发挥云平台的各种能力,包括低成本、按需付费、系统弹性可伸缩、高度可管理、业务逻辑解耦等。 Linux 基金会专门成立了云原生计算基金会(CNCF,Cloud Native Computing Foundation)以发展云原生技术,伴随着这几年云原生的快速发展,CNCF 如今也成为了该领域最权威的组织。 由 CNCF 主办的 “CloudNative + Open Source Virtual Summit China 2020 中国线上峰会” 正在进行中,为期 3 天的大会将带来上百场分享,内容将覆盖云原生的方方面面,包括微服务架构、容器、可观察性、存储、安全、身份、策略、开源生态、网络与 CI

构建对象检测模型

淺唱寂寞╮ 提交于 2020-08-04 11:23:50
作者|ALAKH SETHI 编译|VK 来源|Analytics Vidhya 目标检测 我喜欢深度学习。坦率地说,这是一个有大量技术和框架可供倾注和学习的广阔领域。当我看到现实世界中的应用程序,如面部识别和板球跟踪等时,建立深度学习和计算机视觉模型的真正兴奋就来了。 我最喜欢的计算机视觉和深入学习的概念之一是目标检测。建立一个模型的能力,可以通过图像,告诉我什么样的物体存在! 当人类看到一幅图像时,我们在几秒钟内就能识别出感兴趣的物体。机器不是这样的。因此,目标检测是一个在图像中定位目标实例的计算机视觉问题。 好消息是,对象检测应用程序比以往任何时候都更容易开发。目前的方法侧重于端到端的管道,这大大提高了性能,也有助于开发实时用例。 目录 一种通用的目标检测框架 什么是API?为什么我们需要一个API? TensorFlow对象检测API 一种通用的目标检测框架 通常,我们在构建对象检测框架时遵循三个步骤: 首先,使用深度学习模型或算法在图像中生成一组的边界框(即对象定位) 接下来,为每个边界框提取视觉特征。它们将根据视觉特征进行评估,并确定框中是否存在以及存在哪些对象 在最后的后处理步骤中,重叠的框合并为一个边界框(即非最大抑制) 就这样,你已经准备好了你的第一个目标检测框架! 什么是API?为什么我们需要一个API? API代表应用程序编程接口

我在攻克机器学习硕士学位的那些年

让人想犯罪 __ 提交于 2020-08-04 10:47:49
编者按: 人工智能发展日趋成熟,也成为众多开发者职业生涯的首选方向。然而相较于其他领域,人工智能中的深度学习、机器学习、计算视觉、神经网络等技术更为错综复杂,进修难度也更胜一筹。对此,对于入门和想要进阶的学生及开发者群体,该如何攻克?在本文中,来自英国萨里大学机器学习与计算机视觉专业硕士Richmond Alake将从自身学业历程出发,分享一下其在读机器学习硕士的收获,以及相关的经验与课程,希望能帮助大家有所收获。 作者 | Richmond Alake,已获作者翻译授权 译者 | 鹿未来 ,编辑 | 屠敏 题图 | 东方 IC 来源 | CSDN(ID:CSDNnews) 其实,每所大学的课程不会有太大差异。所以,大家可以从本文了解机器学习和计算机视觉理学硕士的一些内容。除了在学习期间获得的东西之外,我还会分享更多学术知识,以及作为一名计算机视觉工程师职位相关的其他信息。 攻读机器学习硕士需要具备哪些必备技能? 研究生期间都会做一些选题,这些课题主要是反映机器学习领域的未来一些发展方向。而且机器学习的每个课程里都涵盖了很多内容。因此,我在修读MSc(Master of Science)学位需要确保在学习这些课程之前,还需要具备以下前提条件: 理解线性代数和微积分(微分/优化) 了解统计和概率研究 具有编程语言背景 拥有计算机科学、数学、物理或电子与机械工程专业学士学位

TensorFlow、PyTorch夹缝之下:后浪的进击和野望

霸气de小男生 提交于 2020-08-04 10:19:48
作者 | Just 出品 | AI科技大本营(rgznai100) “我发现,软件研发总会延期。”一流科技CEO袁进辉说。 按照他的预期,深度学习框架OneFlow做两年就能开源给开发者检验,但时间向后延长了近一年半,“确实预计的不准” 。 但无论如何,经过1300多天的打磨,一个由30多人团队打造的基于静态调度和流式执行技术的OneFlow深度学习框架终于问世。 对于刚刚在GitHub开源的OneFlow,袁进辉总体打85分。 与其他几个“国产”AI框架相比, 袁进辉 认为,在完备性上, OneFlow 比在今年3月开源的MindSpore和MegEngine要更好,不过支持的模型库还是比2016年就开源的PaddlePaddle要少。 效率方面,OneFlow的一类优势是“人有我优”,比如其他框架做数据并行得90分,他们进一步“挖油水”,做到接近100分;还有一类叫“人无我有”,其他框架基本只有深度定制才能支持超大模型,而OneFlow可以轻易做到。袁进辉给出了一组数据对比,显示其他框架在大规模模型训练效率上与OneFlow对比,有着数量级的差距。 而在多卡的易用性上,OneFlow要比其他框架要好,但在支持动态图方面,袁进辉也坦承与PyTorch有差距,不过很快可以追上。 2017年1月,PyTorch正式推出,TensorFlow正如日中天。彼时,国内外除了一线大厂

Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛

这一生的挚爱 提交于 2020-08-04 10:18:31
Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛 作者:七月在线彭老师 说明:本文最初由彭老师授权翟惠良发布在公众号“七月在线实验室”上,现再由July重新编辑发布到本blog上。 Github: https://github.com/pengpaiSH/Kaggle_NCFM 前言 根据我个人的经验,学好AI,有五个必修:数学、数据结构、Python数据分析、ML、DL,必修之外,有五个选修可供选择:NLP、CV、DM、量化、Spark,然后配套七月在线的这些必修和选修课程刷leetcode、kaggle,最后做做相关开源实验。 今天,咱们就来看一看:如何用百行代码实现Kaggle排名Top 5%的图像分类比赛。 1. NCFM 图像分类 任务 简介 为了保护和监控海洋环境及生态平衡,大自然保护协会( The Nature Conservancy )邀请 Kaggle[1] 社区 的参赛者们开发能够出机器学习算法, 自动 分类和识别远洋捕捞船上 的 摄像头 拍摄 到的图片中鱼类的品种, 例如 不同种类的吞拿鱼和鲨鱼。大自然保护协会一共提供了 3777 张标注的图片 作为 训练集, 这些 图片 被 分为了 8 类, 其中7类 是不同种类的海鱼, 剩余1类则是 不含有鱼的图片, 每张图片 只属于 8类 中的某一类别。 图1给出了 数据集中的几张图片样例

前列腺癌检测 AI 算法登上《柳叶刀》:分类性能超过人类专家,还能完成其他临床任务...

别说谁变了你拦得住时间么 提交于 2020-08-04 10:11:02
来源:AI科技评论 本文约 2200字 ,建议阅读 6分钟。 本文为你介绍一种基于人工智能的算法,其用来处理常规临床应用任务,具体而言是辅助前列腺疾病诊断。 近日,《柳叶刀-数字医疗》期刊刊登了一篇“用人工智能算法诊断前列腺癌”的论文,论文中,作者除了报告了一项盲法临床验证研究,还部署了一种基于人工智能的算法用来处理常规临床应用任务,具体而言是辅助前列腺疾病诊断。 在算法性能测试中,该 AI 算法用内部数据得到的AUC是0.997,在UPMC外部验证数据集上,其AUC是0.991。换句话说,性能指标超过了一般的AI算法。 论文地址: https://www.thelancet.com/journals/landig/article/PIIS2589-7500(20)30159-X/fulltext 这篇论文的作者是来自UPMC和匹兹堡大学的研究员,他们提出的算法的核心技术是多层卷积神经网络,专门为图像分类任务而设计。整个算法工作的流程有三个连续的步骤:组织检测、分类和病理图片级别分析。 算法和临床应用一览 具体而言,先使用数千个图块对梯度提升(Gradient Boosting)分类器进行训练,目的是为了区分图片中的组织区域和背景区域;然后用分离出的组织区域训练三个基于CNN的模型。 这些模型接受了1,357,480张贴有标签图块的训练,这些图块是从549张图片的“手工标注

2019年春季学期:学习资料汇总

☆樱花仙子☆ 提交于 2020-08-04 10:05:08
算法设计与分析 教材 算法设计与分析 第2版 屈婉玲 清华大学出版社 数字图像处理 教材 冈萨雷斯-数字图像处理(MATLAB版)(第二版) 冈萨雷斯-数字图像处理(第三版) 不太喜欢第三版...数学偏多,基础部分比较啰嗦。 MATLAB 图像处理工具箱 https://ww2.mathworks.cn/products/image.html 程序设计实习 刷题 OpenJudge http://cxsjsxmooc.openjudge.cn/2019t3springall/ POJ http://poj.org/problemlist 游戏AI中的算法 大作业平台/环境 Botzone-国标麻将 https://www.botzone.org.cn/ 星际争霸2-配置教程 https://zhuanlan.zhihu.com/p/28471863 星际争霸2-官方教程 https://github.com/deepmind/pysc2 视觉计算与深度学习 自学入门 官网60分钟入门pytorch教程(需要numpy基础) https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html FINETUNING 图像分类模型样例 https://pytorch.org/tutorials/beginner