pytorch

中国开源大爆发进行时,你没掉队吧?

回眸只為那壹抹淺笑 提交于 2020-10-14 20:51:27
作者 | 陈利鑫 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 从开源(Open Source)一词提出到如今,开源的概念越来越成熟,作为一种创造及协作模式,开源已经不仅仅局限于软件技术的研发,更包括了诸如硬件设计、微型处理器指令集架构、规范、数据模型、协议、标准以及公众以公开模式协作创作的其他技术。开源协作将分布在世界各地的开发者们集结起来,一起开放协作,并向所有人分享成果。 中国开源:机遇与挑战并存的时代 经过三十多年的发展,全球范围内已经形成一个成熟的开源产业链。国外企业如微软通过收购开源平台 GitHub、开源 VS Code 等开源措施,成功刷新人们对微软原本封闭的印象;Google 的 Tensorflow,、Flutter、Kubernetes、Angular、Protobuf 等重量级项目也通过开源而深刻影响到全球范围内的开发者。 在国内,企业对开源技术的接受程度也逐年增高,数据显示,超八成的企业表示认可开源技术,已应用开源技术的企业占比达 86.7%,BAT、华为、滴滴等知名企业都是开源领域的重要参与者,积极拥抱开源。2019 年,国产开源项目更是处于爆发期,国内产商不断有重磅项目开源,包括腾讯的万亿级分布式消息中间件 TubeMQ、业界领先的深度学习框架 Angel,并分别捐赠给 Linux 基金会和 LF AI 基金会

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

旧街凉风 提交于 2020-10-14 00:36:09
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 一、全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

独自空忆成欢 提交于 2020-10-12 16:30:30
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 一、全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

BAT算法工程师的成长之路,超详细的学习路线

放肆的年华 提交于 2020-10-11 18:00:21
点赞再看,养成习惯,微信公众号搜索【JackCui-AI】关注这个爱发技术干货的程序员。本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有一线大厂面试完整考点、资料以及我的系列文章。 一、前言 各位十一过得如何? 假期,我回了趟老家,文章停更了几天。 写文章以来,被问到 最多的问题 就是「算法的学习路线」。 今天,它来了。 我会带着大家看看,我们需要学些啥,利用这个假期,我甚至还收集整理了配套视频和资料, 暖男 石锤啊,这期文章有用的话, 别忘三连 哦! 二、学习路线 主要分为 4 个部分:数学基础、编程能力、算法基础、实战。 1、数学基础 在机器学习算法中,涉及到最为重要的数学基本知识有两个: 线性代数 和 概率论 。 这两也是大学的必修课了,如果 知识早已还给老师 ,也没关系, 哪里不会学补哪里 。 线性代数 研究的是线性空间的性质,数据通常会被表示为欧式空间中的点,而这些点经过一系列变换后会映射到另一个空间,在新的空间中隐藏在数据中的规律才得以显现。 所以线性代数作为研究空间的一门科学,是入门机器学习的 最要基础之一 。 视频 :推荐 MIT 的老教授 Gilbert Strang 的线性代数上课视频。 没学过线代的同学会发现这门课程,讲得清晰而且直观,深入线代的精髓,完全不是那种理论堆砌的讲法

训练一个数据不够多的数据集是什么体验?

一曲冷凌霜 提交于 2020-10-11 00:28:59
摘要: 这里介绍其中一种带标签扩充数据集的方法。 前言 前一段时间接触了几位用户提的问题,发现很多人在使用训练的时候,给的数据集寥寥无几,有一些甚至一类只有5张图片。modelarts平台虽然给出了每类5张图片就能训练的限制,但是这种限制对一个工业级的应用场景往往是远远不够的。所以联系了用户希望多增加一些图片,增加几千张图片训练。但是用户后面反馈,标注的工作量实在是太大了。我思忖了一下,分析了一下他应用的场景,做了一些策略变化。这里介绍其中一种带标签扩充数据集的方法。 数据集情况 数据集由于属于用户数据,不能随便展示,这里用一个可以展示的开源数据集来替代。首先,这是一个分类的问题,需要检测出工业零件表面的瑕疵,判断是否为残次品,如下是样例图片: 这是两块太阳能电板的表面,左侧是正常的,右侧是有残缺和残次现象的,我们需要用一个模型来区分这两类的图片,帮助定位哪些太阳能电板存在问题。左侧的正常样本754张,右侧的残次样本358张,验证集同样,正常样本754张,残次样本357张。总样本在2000张左右,对于一般工业要求的95%以上准确率模型而言属于一个非常小的样本。先直接拿这个数据集用Pytorch加载imagenet的resnet50模型训练了一把,整体精度ACC在86.06%左右,召回率正常类为97.3%,但非正常类为62.9%,还不能达到用户预期。 当要求用户再多收集

pytorch报错Unable to get repr for

≯℡__Kan透↙ 提交于 2020-10-10 08:24:00
pytorch报错Unable to get repr for 标签出现了-1,2或者其他值,loss计算之后, 报错:CUDA error: device-side assert triggered 然后出现此错误: Unable to get repr for class tensor pytorch 在调试的时候,变量出现了Unable to get repr for <class ‘torch.Tensor’> 是自己数据格式的问题,具体原因后面在详细整理。 具体情景: 做roipooling的时候,rois的数据类型不对,出现了以上错误。 解决方法:采用torch.tensor([0, 2, 2, 10, 10]),就是采用了torch.tensor。前期有尝试torch.from_numpy, torch.FloatTensor(),虽然数据值都是一样的,但是就是报错。 具体代码如下: temp = rois.numpy().tolist() # rois = torch.FloatTensor([0] + [temp[0][1], temp[0][2], temp[0][3], temp[0][4]] ) rois = torch.tensor([0] + [temp[0][1], temp[0][2], temp[0][3], temp[0][4]]) pooled

技术债务的高息信用卡:深入了解那些知名的端到端机器学习平台

拜拜、爱过 提交于 2020-10-07 01:00:25
本文转载自公众号“读芯术”(ID:AI_Discovery)。 机器学习(ML)被称为技术债务的高利率信用卡。对于特定的业务问题,使用适用的模型会相对容易一些,但是要使该模型在可伸缩的生产环境中运行,并能够处理不断变化的混乱数据语义和关系,以及以可靠的自动化方式演进模式,则完全是另一回事。 对于机器学习生产系统而言,只有5%的实际代码是模型本身。将一组机器学习解决方案转变为端到端的机器学习平台的,是一种运用了加速建模、自动化部署和确保生产中的可伸缩性和可靠性的技术的架构。 笔者此前讲过lean D/MLOps,数据和机器学习操作,因为没有数据的机器学习操作是没有意义的,所以端到端机器学习平台需要进行整体构建。CI/CD基金会启动了一个MLOps特别兴趣小组(SIG)。其端到端机器学习平台确定的步骤如下图所示: 不过,其中掩盖了一些不太重要的细节。例如,服务可能需要不同的技术取决于它是否是实时完成的。可伸缩的解决方案通常将模型放在一个负载均衡器后的服务集群的多个机器上的容器内运行。因此,上述图表中的单个框并不意味着实际平台的单个步骤、容器或组件。 这并不是对图中步骤进行批评,而是一个警示:看似简单的事情在实践中可能并不那么容易。 图表中没有模型(配置)管理。可以考虑诸如版本控制、实验管理、运行时统计、用于培训、测试和验证数据集的数据沿袭跟踪,从头开始或从模型快照、超参数值

吴恩达Deeplearning.ai国庆节上新:生成对抗网络(GAN)专项课程

南楼画角 提交于 2020-10-06 09:35:37
Coursera 刚刚上新了 GAN 的专项课程,或许在这个国庆假期,你应该学习一波了。 作者:蛋酱 生成对抗网络(Generative Adversarial Network,GAN)是当前功能最强大的机器学习模型之一,其能够生成逼真的图像、视频和语音输出结果。基于 GAN 的应用十分广泛,比如防御对抗攻击和数据匿名化来保护隐私,以提升网络安全性,再比如生成新图像,为黑白图像着色、提高图像分辨率、2D 图像转 3D 等技术。 随着算力的增强,GAN 的普及程度和功能也不断提升,开启了许多新的方向:比如生成大量数据用来训练模型,让无监督模型生成更加清晰、准确的输出图像,同时也为相近研究领域提供了对抗学习、对抗样本、模型鲁棒性等方面的启示。 近日,DeepLearning.AI 推出了《生成对抗网络(GAN)专项课程》,系统介绍了使用 GAN 生成图像的理论及方法。此外还包括机器学习偏见、隐私保护等社会影响话题的讨论。 这门课程适用于对机器学习感兴趣并希望了解 GAN 的工作原理的软件工程师、学生和研究者。专项课程内容尽可能做到通俗易懂,让进入课程的人都真正理解 GAN 并学会使用。 但在进入这门课程之前,学习者应该具备关于深度学习、卷积神经网络的知识,具备一定的 Python 技能和深度学习框架(TensorFlow、Keras、PyTorch)的使用经验,且精通微积分、线性代数