深度学习

聚焦快速机器学习训练算法,UC伯克利尤洋189页博士论文公布

雨燕双飞 提交于 2020-11-24 06:36:33
点击上方“ 迈微电子研发社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 这份 189 页的博士学位论文,凝结了尤洋在快速机器学习训练算法领域的研究心血。 过去十年,深度学习应用领域的数据量迅速增长,使得深度神经网络(DNN)的训练时间拉长。而这已经成为机器学习开发者和研究者面临的瓶颈问题。例如,在 8 个 P100 GPU 上完成 90 个 epoch 的 ImageNet/ResNet-50 训练需要 29 个小时,在 16 个 v3 TPU 芯片上完成 BERT 预训练需要 81 个小时。 因此,如何有效缩短机器学习训练时间,同时完成高质量的训练,对于解决当前的瓶颈问题具有重大意义。 本文将介绍一篇长达 189 页的博士学位论文,作者为加州大学伯克利分校计算机系的尤洋博士。 尤洋的主要研究方向是高性能计算与机器学习的交叉领域,当前研究重点为大规模深度学习训练算法的分布式优化。他曾创造 ImageNet 训练速度的世界纪录,相关研究成果被 Google、Facebook、腾讯等科技巨头在实际中使用。 尤洋曾以一作的身份获得 2018 年国际并行处理大会(ICPP)最佳论文奖,论文《Imagenet training in minutes》所提出的方法刷新了 ImageNet 训练速度的世界纪录。 去年,尤洋和来自谷歌和 UCLA

重磅发布!最新版 | 李沐的《动手学深度学习》今天终于可以下载啦!

て烟熏妆下的殇ゞ 提交于 2020-11-24 04:39:49
强烈推荐李沐等人的《动手学深度学习》最新版! 完整中文版 PDF电子书今天终于可以下载啦! 加我微信好友 马上获取链接 暗号:“书” 内容简介 此书的结构: 以下是主要目录: 01 资源获取方法 PDF资源获取 添加下面的二维码, 加入【AI算法学习社群】 , 即可获得百度网盘( 附上PDF)云盘下载链接。 赶快加入【AI算法学习社群】 ,我们旨在打造真正有价值,能交流,一起学习成长的社群,并且每月专业直播公开课,导师指点答疑,职业方向规划,送书福利不断! 扫码添加好友后,立即进学习群。 加我微信好友 马上进学习群 暗号:“书” 觉得好看就点个在看吧 本文分享自微信公众号 - 机器学习AI算法工程(datayx)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4585416/blog/4686462

深入浅出计算机组成原理学习笔记:第四讲

旧街凉风 提交于 2020-11-24 03:01:39
一、功耗:CPU的“人体极限” 程序的 CPU 执行时间 = 指令数×CPI×Clock Cycle Time CPI和指令数都不太容易,越是研发CPU的硬件工程师们就从COU主频下手 1、为什么奔腾 4 的主频没能超过 3.8GHz 的障碍呢? 是因为功耗,我们的CPU,一般都被叫做超大规模集成电路,这些电路,实际上都是一个个晶体管组合而成的,CPU在计算、其实就是让晶体管里面的开关不断地区“打开”和“关闭”,来组合完成各种运算和功能 要想计算得快,一方面,我们要在CPU里,同样的面积里面,多方一些晶体管,也就是增加密度; 另一方面,我们让晶体管“打开”和“关闭”的更快一点,也就是提升主频,而这两者都会增加功耗,带来耗电和散热的问题 2、CPU和工厂的故事 你可以把CPU想象成一个 巨大的工厂 、里面有 很多工人,相当于CPU上面的晶体管 。互相之间协同工作,为了工作的快一点,我们在工厂里多塞一点人,你可能会问,为什么不把工厂造的大一点呢? 1、为什么不把工厂造的大一点呢? 这是因为,人和人之间如果离得远了,互相之间走过去需要花的时间就会变长也会导致性能下降, 这就好像如果CPU的面积大,晶体管之间的距离会变大,电信号传输的时间就会变长,运算速度自然就慢了 2、要是太热工厂里的人会中暑、cpu会出错或崩溃 除了堵塞一点人,我们还希望每个人的动作都快一点

windows 10 Anaconda NVIDIA深度学习环境的搭建

懵懂的女人 提交于 2020-11-24 02:55:57
Anaconda笔记 镜像网站安装推荐。 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 添加特定源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/ conda config --set show_channel_urls yes 查看更新源配置 conda config --show channels 按照必要环境 tensorflow-gpu install mingw libpython keras windows下Path环境变量太大的问题 解决办法是新建一个变量,比如EPath,然后将部分比较长的变量,放入其中。删除Path中已经放在EPath的变量,然后在Path加入%Epath%变量。在cmd命令中,输入Path,检查修改是否生效或成功。 网易邮箱,foxmail客户端报错554,需要在发邮件的时候,抄送一份给自己即可。 无法定位程序输入点 OPENSSL_sk_new_reserve 于动态链接库,解决方案

你的模型需要解释(二)

◇◆丶佛笑我妖孽 提交于 2020-11-24 02:53:58
地址:https://www.zhihu.com/people/wang-xiao-jian-38-81 《深度学习的可解释性研究概览》包含3篇内容,作者将用尽可能浅显的语言带领大家了解可解释性的概念与方法以及关于深度学习可解释性工作的研究成果。 深度学习的可解释性研究(一)—— 让模型具备说人话的能力 深度学习的可解释性研究(二)——不如打开箱子看一看 深度学习的可解释性研究(三)——是谁在撩动琴弦 深度学习的可解释性研究(一)—— 让模型具备说人话的能力 1. 可解释性是什么? 广义上的可解释性指 在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。 比如我们在调试bug的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解, 如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的 。比如刘慈欣的短篇《朝闻道》中霍金提出的“宇宙的目的是什么”这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。 而具体到机器学习领域来说,以最用户友好的决策树模型为例

如何解释一个模型

核能气质少年 提交于 2020-11-24 02:36:49
如何解释一个模型 今天早上和同事聊天,因为宅在家里,业余时间无事可干,大家各自发挥学习特长各种学习。然后再次感悟机器学习这个领域太大,每个看似小问题展开都是大学问。有些知识无法一时get到点,只能通过不停看参加讨论,耳濡目染,终于有一天顿悟。不知道我顿悟了没,但是想把自己get的到的关于解释机器模型的知识到和大家分享一下。 之前讨论过如何给一个模型打分。打分很好理解,根据分数能够一眼看出哪个模型更好一点。吴恩达在Machine Learning Yearning一书中强调了很多次,选择一个metric有多重要。那么解释模型又是什么鬼。 解释模型就像介绍软件功能一样,解释你的模型是怎么工作的。 比如说一个预测房价的模型,解释模型就是必须要解释,在模型中是房子的位置,大小还是房型起的作用更大。 线性模型很好解释: y = 2 x 2 + 1 x 1 + 0 训练好的模型中的 2 , 1 就是feature的权重。 那么复杂的模型该怎么办呢。是不是所有的模型都是可以解释的呢? 有人大概要质疑了,深度学习模型不是黑盒模型吗,需要关心这个吗? 这是一个很值得讨论的问题,为什么需要解析深度学习的模型。 首先万物当中,人类是最为矛盾的物种。人类思维不可能一夜之间从因果思维转换成相关思维。即使因果思维已经存在了几个世纪,为什么人类还是有很大一部分的有神论者。为什么热学有了第一定律后有了第二定律

1024程序员节!

余生颓废 提交于 2020-11-24 00:00:19
程序员之歌 在那山的那边海的那边有一群程序猿 他们老实又腼腆 他们聪明又有钱 他们一天到晚坐在那里认真地改bug 他们饿了就吃一口方便面 噢~ 可爱的程序员~ 可爱的程序员~ 只要一提需求他们就要重新改一遍 可是时间只剩下最后一天 当这首歌声响起的时候 10.24到了 猿媛专属节日来了 在这个节日 拒绝On Call 24小时 告别debug 是时候在各路需求bug中忙里偷闲 收割一波专供程序员“充电”的惊喜了 薅当当网羊毛的机会又双叒叕来了! 1024程序员节,当当百万自营图书 >> 每满100减50 << >> 每满200减100 << >> 每满300减150 << >> 满400减200 << 以为只有这样了么?我们的原则是——让大家省钱省到家! 机械工业出版社 联合当当网特意为【 机器学习与生成对抗网络 】用户申请了一批 可与满减叠加使用的 「满200减40”」 的图书优惠码,优惠码使用后相当于: 花160元买400元的书! 用160块就可以买到原价400元(大约四五本)的硬核技术书, 4折优惠! 所以这一波优惠,不要错过! 优惠码: 【 EQHTMX 】 (注意区分大小写,建议点击选中复制) 使用时间: 2020年10月20日至11月03日 使用渠道: 当当APP和当当小程序 使用条件 :原有的满减核算后,得出的实际消费金额总价如果超过200元即可以用优惠码再减40。

双11还能创造什么新技术?

杀马特。学长 韩版系。学妹 提交于 2020-11-23 08:09:07
简介: 当下购物峰值不再是最大挑战,下一代技术创新将会出现在哪里? 诞生12年后,双11仍然续写答卷,也留下了问卷:当购物峰值不再是最大挑战,下一代技术创新,将会出现在哪里? “好的创新是在高压的场景下产生的,‘双11’创造了一个个高压的场景,让最前沿的技术和最前沿的商业模式,能够产生高速的碰撞。”昨晚,阿里巴巴集团首席技术官程立的双11收官阶段演讲时说,双11的技术挑战将进入新的历史阶段。 今年的双11史上跨度最长,加上新冠疫情背景,有2000多个产业带、30万个外贸工厂和3万多个海外品牌的加入——当有机会将4000万新商品,推向8亿以上消费者时,每一个关键环节,都有诞生新一代技术的可能性。 ▲ 图:阿里巴巴集团CTO程立在双11当晚的演讲 相比程立这样“12年全程参与的工程师”,人们并不能即刻感知技术工程的全部价值,许多项目刚开始设计时,说穿了是为消费者和商家节省几分钟、几块钱;从社会成本上,需要把一个峰值,在时间或空间上烫平;最终,还是回到如何让每一个订单稳定、高效的达成。 就像程立所说的,今年双11,在新品研发、生产制造、用户触达、供应链、物流配送等环节,技术和商业的共振产生了大量创新。而它们的最终方向是让“商业要素在线化、数字化,在这个基础上,构成一个真正数字化的商业网络”。 也因为时间窗口最长,这次双11也让我们从更长的产业链条上,预测一下未来还会有的新东西:

中国AI技术领先,是因为数学好?美国杂志直指中美数学教育差距

守給你的承諾、 提交于 2020-11-23 06:24:50
机器之心报道 参与:蛋酱、泽南 转载自公众号:机器之心 美国 CS 专业超过 64% 博士生和近 70% 的硕士生是留学生,数学博士学位有一半授予了非美国公民,中国和印度学生占大部分。 上个星期,一位华人留学生题为「亚洲人数学能力其实很差?」的视频登上了热搜。 「知其然而不知所以然,他们仅仅擅长使用而不追求真理。」这名女生认为大多数亚洲人学习数学时注重运用却不关心原理推导,论据有一定的道理,不过结论引发了不少人的吐槽。 很快,博主「他们都叫我雪姨」新发布了一个视频向大家道歉,表示个人经历不能指代群体,有关亚洲人数学很差的言论十分不正确。在应试教育为主,升学压力很大的国内,如果说学生们花费如此大的精力却不能把一门学科学明白,确实非常可怕,数学是当代高等教育最重要的基础是有目共睹的。 7 月份,2020 阿里巴巴全球数学竞赛结束 ,活动创办者马云如此评价数学的重要性。 有趣的是,在数学水平太差这件事上,大洋彼岸的美国人和我们有着同样的担忧。在亚洲人数学很差的视频在国内流行的同时,美国《国家利益杂志》刊载了一篇文章给出了完全相反的观点:因为中国人数学好,在人工智能领域里中国正在逐渐成为决定性力量。 这篇报道在开篇即提到:「忘记人工智能本身吧,它只是一个数学问题。美国没有培养出足够擅长数学的公民,因此无法保持统治地位。」 以下为美国《国家利益杂志》报道的主要内容:

「自然语言处理(NLP)」一文带你了解交叉熵(CrossEntropyLoss)

淺唱寂寞╮ 提交于 2020-11-23 06:13:19
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 明天要学习工作了,早点休息~ 引言 在使用pytorch深度学习框架,计算损失函数的时候经常会遇到这么一个函数:nn.CrossEntropyLoss()。该损失函数结合了nn.LogSoftmax()和nn.NLLLoss()两个函数。它在做分类(具体几类)训练的时候是非常有用的。在训练过程中,对于每个类分配权值,可选的参数权值应该是一个1D张量。当你有一个不平衡的训练集时,这是是非常有用的。那么针对这个函数,下面将做详细的介绍。 本文概要 1 什么是交叉熵? 2 交叉熵原理 3 Pytorch中CrossEntropyLoss()函数 4 参考文献 正文开始 1 什么是交叉熵? 交叉熵主要是用来判定实际的输出与期望的输出的接近程度 。 为什么这么说呢,举个例子: 在做分类的训练的时候,如果一个样本属于第K类,那么这个类别所对应的的输出节点的输出值应该为1,而其他节点的输出都为0,即[0,0,1,0,….0,0],这个数组也就是样本的Label,是神经网络最期望的输出结果。 也就是说用它来衡量网络的输出与标签的差异,利用这种差异经过反向传播去更新网络参数。 2 交叉熵原理? 在说交叉熵之前,先说一下 信息量 与 熵 。 信息量: 它是用来衡量一个事件的不确定性的;一个事件发生的概率越大,不确定性越小