gpu服务器

转载:深度学习电脑配置

喜欢而已 提交于 2020-02-18 07:15:50
半夜睡不着,想谈谈自己对深度学习主机配置的一些经验,想自己diy深度学习硬件的朋友可以参考一下,因为本人也不是特别资深的电脑diy爱好者,所以很多地方也是一知半解,有错误请大家指正。首先我会谈几点必须注意的事项;然后我阐述一些配件选择的原则,因为硬件更新是很快的;最后会给出一下当下的配置清单。下面我们步入正题。 配置深度学习主机的注意事项: 1.一定计算好需要多大功率的电源!我们配置深度学习主机最核心的就是显卡,GPU的功耗往往很大,尤其我们经常使用两块以上的显卡。因此电源功率很重要,这是我们主机稳定工作的保障,我看到很多服务器甚至会选择双电源,但是我自己没有试过,不是很清楚双电源。 2.双显卡以上时必须注意处理器和主板的选择。如果是双显卡以上,那么pcie就面临是工作在x16还是x8的状态,这里应该是说带宽。我们在选择CPU是就要关注他们的pcie通道数,通道数大约40条以上两个GPU才会都工作在x16状态。另外可以选择双CPU的主板,这样就可以支持两个甚至更多的GPU工作在x16状态。 3.使用m.2固态硬盘时注意是否影响GPU工作在x16状态。这点也是个第二点有关的,就是pcie的通道资源是有限的,有的主板会写你使用m.2的固态会占用谁的资源,导致那个接口不能用。所以我一般会用sata那种接口。不过通道多的一般没什么影响,还是要看一下主板说明。 硬件选择原则 1.GPU选择

阿里云异构计算发布:轻量级GPU云服务器实例VGN5i

丶灬走出姿态 提交于 2020-02-01 04:53:05
阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景,更细粒度的GPU计算服务。 轻量级GPU云服务器是什么? 轻量级GPU云服务器是一种新的GPU云服务器规格族,是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中。与常规GPU云服务器的区别在轻量级GPU云服务器提供更细力度的GPU计算资源,比如拥有更少的CUDA计算核心,更小的显存。这样做的优势是在业务应用中,业务可以根据资源所需更加灵活的配置GPU计算资源。 用户在使用常规GPU云服务器的时候遇到了哪些痛点? GPU的计算颗粒过大: 单颗物理GPU的计算能力越做越强大,但是许多应用需要更小颗粒的GPU计算资源; 常规GPU资源不利于业务自动伸缩: 拥有单颗物理GPU资源的实例在业务部署中会因为要充分利用GPU资源而造成“胖节点”,不利于设计成弹性伸缩架构,缺乏灵活性,无法应对业务快速变化; 常规GPU计算实例无法在线迁移: 常规直通虚拟化的GPU实例,由于架构特性无法支持GPU实例的在线迁移; 轻量级GPU云服务器与常规GPU云服务器有哪些不同? 我们从GPU加速器呈现方式

【转帖】英特尔打响数据中心复兴之战!四大架构轰向云端,营收创新高

佐手、 提交于 2020-01-24 23:50:05
英特尔打响数据中心复兴之战!四大架构轰向云端,营收创新高 https://mp.weixin.qq.com/s/rZpYzCrnNbQs5_6PStT_zQ    芯东西(ID: aichip001)文:心缘   回到 1968 年,英特尔创始人罗伯特·诺伊斯和戈登·摩尔希望以两人名字的组合命名新公司——Moore Noyce(摩尔·诺伊斯)。   然而这个名字被一家连锁酒店抢先注册了,无奈之下,两位创始人改取“Integrated Electronics(集成电子)”两个单词的缩写“Intel(英特尔)”为公司名,偏巧,这也是英文单词“智能”Intelligence 的前几个字母。   或许冥冥之中,命运已经将英特尔和五十年后的智能化浪潮牵了一条红线。   从数据中心、自动驾驶到物联网,英特尔正在编织一张全面的人工智能(AI)软硬件巨网,试图在滚滚奔涌向前的新一代数据革命中,以前瞻性的布局立于不败之地。   据美国市场研究机构 Gartner 在 1 月 14 日发布的最新报告,2019 年全球半导体收入总计 4183 亿美元,较 2018 年下降 11.9%。   在整体市场陷入低迷状态之际,英特尔却迎来了颇为亮眼的成绩单,不仅时隔三年重返全球半导体市场榜首,而且其第四季度和财年营收均创纪录。 2019 年全球半导体厂商销售额排行榜前十(来源:Gartner)   2020 年

OpenCL介绍

你。 提交于 2020-01-19 13:59:45
  OpenCL(全称Open Computing Language,开放运算语言)是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。 基本信息   OpenCL是一个为异构平台编写程序的框架,此异构平台可由CPU,GPU或其他类型的处理器组成。OpenCL由一门用于编写kernels (在OpenCL设备上运行的函数)的语言(基于C99)和一组用于定义并控制平台的API组成。OpenCL提供了基于任务分割和数据分割的并行计算机制。   OpenCL类似于另外两个开放的工业标准OpenGL和OpenAL,这两个标准分别用于三维图形和计算机音频方面。OpenCL扩展了GPU用于图形生成之外的能力。OpenCL由非盈利性技术组织Khronos Group掌管。 历史发展   OpenCL最初苹果公司开发,拥有其商标权,并在与AMD,IBM,英特尔和NVIDIA技术团队的合作之下初步完善。随后,苹果将这一草案提交至Khronos Group。   2008年6月的WWDC大会上,苹果提出了OpenCL规范

什么限制了你的神经网络执行的速度

末鹿安然 提交于 2020-01-17 23:43:44
这周拜读了大神Forrest Iandola的一篇博客,大开眼界,忍不住翻译过来,供大家分享。原文链接如下: https://medium.com/analytics-vidhya/not-all-tops-are-created-equal-e1911ffb4a82 摘要 限制了DNN在计算平台上的执行速度的六个常见原因。 1)内存访问过多 2)没有足够的并行 3)等待输入数据加载 4)糟糕的I/O ,内存和计算机制的重叠机制(overlap) 5)在专用的平台上没有使用专用的操作(不是所有的TOPs都是一样的,不同产品在某些运算上做了特殊优化) 6)未优化代码 深度学习处理器公司经常高调宣称他们的产品有惊人的处理速度。他们通常使用的度量标准有 TOPS(Tera Operations per Second), TMACS(Tera Multiply-Accumulate Instructions per Second)。这些指标的意义在哪,这些指标是否真的有用? 首先,看一下这些指标在深度学习中是怎么用的? 让我们思考一下,一个卷积层有尺寸为3x3x100的过滤器和100个输出通道。 1)假设这个卷基层的input grid 的尺寸是50x50x100. 所以,一次前向操作需要3 3 100 100 50*50 = 225,000,000 MACs, 相当于450,000

从零开始入门 K8s | GPU 管理和 Device Plugin 工作机制

时光总嘲笑我的痴心妄想 提交于 2020-01-14 17:24:56
作者 | 车漾 阿里巴巴高级技术专家 本文整理自 《CNCF x Alibaba 云原生技术公开课》 第 20 讲。 关注“阿里巴巴云原生”公众号,回复关键词 “入门” ,即可下载从零入门 K8s 系列文章 PPT。 导读 :2016 年,随着 AlphaGo 的走红和 TensorFlow 项目的异军突起,一场名为 AI 的技术革命迅速从学术圈蔓延到了工业界,所谓 AI 革命从此拉开了帷幕。该热潮的背后推手正是云计算的普及和算力的巨大提升。 需求来源 经过近几年的发展,AI 有了许许多多的落地场景,包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能,并不是什么新鲜的概念。而这次热潮的背后,云计算的普及以及算力的巨大提升,才是真正将人工智能从象牙塔带到工业界的一个重要推手。 与之相对应的,从 2016 年开始,Kubernetes 社区就不断收到来自不同渠道的大量诉求:希望能在 Kubernetes 集群上运行 TensorFlow 等机器学习框架。这些诉求中,除了之前文章所介绍的,像 Job 这些离线任务的管理之外,还有一个巨大的挑战:深度学习所依赖的异构设备及英伟达的 GPU 支持。 我们不禁好奇起来:Kubernetes 管理 GPU 能带来什么好处呢? 本质上是成本和效率的考虑。由于相对 CPU 来说,GPU 的成本偏高。在云上单 CPU

【服务器管理】RTX2080ti显卡根据温度自动调整风扇速度

风格不统一 提交于 2020-01-14 09:19:46
【服务器管理】显卡根据温度自动调整风扇速度 1 未设置自动调整风扇速度时运行nvidia-smi 2 克隆代码 3 安装依赖项 4 修改代码文件权限 5 每次开机时打开一个终端运行以下代码即可实现自动调整风扇转速 6 检验是否成功运行自动调整风扇速度代码 我们在日常使用GPU显卡跑代码过程当中,最苦恼的便是显卡温度过高的问题。因为,显卡温度过高的时候,可能会引发 GPU lost 等一系列问题。因此,有必要让显卡根据自身速度调整风扇转速。 需要注意的是,本文是针对服务器而写,也就是不带X桌面服务的Ubuntu。 本文测试环境:```Ubuntu18.04··· 本文测试显卡:GPU RTX 2080ti 1 未设置自动调整风扇速度时运行nvidia-smi 运行以下终端命令: nvidia-smi 此时,GPU Fan这一列显示的百分比就是每张显卡的风扇转速。 2 克隆代码 首先,切换至目录 /opt : cd /opt 然后,克隆代码 https://link.jianshu.com/?t=https://github.com/boris-dimitrov/set_gpu_fans_public : git clone https://github.com/boris-dimitrov/set_gpu_fans_public.git 修改文件名 set_gpu_fans

Ubuntu下如何查看GPU版本和使用信息

戏子无情 提交于 2020-01-13 04:49:25
【转载】 nvidia-smi是用来查看GPU版本信息,GPU使用信息查询: nvidia-smi 第一栏的Fan:N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如我们实验室的服务器是常年放在空调房间里的)。 第二栏的Temp:是温度,单位摄氏度。 第三栏的Perf:是性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。 第四栏下方的Pwr:是能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。 第五栏的Bus-Id是涉及GPU总线的东西,domain:bus:device.function 第六栏的Disp.A是Display Active,表示GPU的显示是否初始化。 第五第六栏下方的Memory Usage是显存使用率。 第七栏是浮动的GPU利用率。 第八栏上方是关于ECC的东西。 第八栏下方Compute M是计算模式。 下面一张表示每个进程占用的显存使用率。 显存占用和GPU占用是两个不一样的东西,显卡是由GPU和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。 来源: https://www

GPU相比FPGA更具优势,适应AI快速变化需求

天涯浪子 提交于 2019-12-29 08:04:15
  <strong>飞象网讯</strong>(源初/文)上周,在 GTC19 大会期间,NVIDIA 加速计算产品管理总监 Paresh Kharya 对关于 GPU 相比 FPGA 的优势的问题时回答表示,GPU 在可编程上具备明显优势,整个开发时间更短。   他表示称目前做好一个 FPGA,整个编程时间就要几个月,而且还要在硬件层面对它进行编程。然而现在 AI 变化速度非常快,甚至更新是以分钟来计算的,所以必须要在软件端实现高度灵活的可编程。恰恰 GPU 是 AI 领域的专用芯片,他的指令集是非常有优势的,是全可编程,并且是软件定义的。   GPU 的另一个优势在于架构向前兼容,如果未来需要使用新硬件,可以使开发周期得到大大缩短,整个硬件可以随着软件不断更新适应,在软件库中可直接进行更新。同时 NVIDIA 的平台可以在任何设备上使用,包括台式机、笔记本、服务器、数据中心、边缘和物联网。   而在 GTC19 大会的主题演讲中,黄仁勋也不断强调了 GPU 在各种应用领域中相比于 CPU 的明显优势,例如阿里的边缘系统在 GPU 上跑,每秒可以做 780 次查询,但是如果说用 CPU,每秒只能做 3 次查询;而在百度采用 NVIDIA AI 推荐系统的表现来看,以往对于百度庞大的用户潜在兴趣数据包的模型训练在 CPU 上成本高昂且速度慢,而 GPU 训练成本只有 CPU 的1

牵手大企,关于图形计算、HPC与AI,NVIDIA言有尽而意无穷!

空扰寡人 提交于 2019-12-25 13:48:14
在黄仁勋看来,随着摩尔定律消亡,GPU加速才是撬动未来高性能计算发展的有力杠杆。有数据显示,目前NVIDIA已经销售了超过15亿块GPU,而这些GPU由于采用了同一架构,均能兼容CUDA。 不仅仅如此,身着经典皮衣的黄教主更认为硬件的“登峰造极”不仅仅局限于芯片,只有软件得到相应性能的完整优化,未来的多GPU才能彰显最出色的处理能力。 基于此,NVIDIA在CUDA平台上配置了相当丰富的软件库,并且选择在去年一整年推出了超过500个相应的SDK以及库来不断改进NVIDIA的软件栈。有数据显示,通过这些专门的SKU,NVIDIA的产品在过去三年的深度学习性能提升了4倍,而深度学习推理性能也相应提升了2倍。 列举如此多样的软件升级,要说目前实在硬核的NVIDIA软件创新,当属最新一代推理软件开发套件NVIDIA TensorRT 7编译器的推出。 晶少了解到,TensorRT作为一种计算图优化编译器能够优化推理实现实时AI会话,将TensorFlow的输出结果进行优化,简单理解位可以高效寻找计算途中可以融合的节点,从而减少计算和内容的访问来进行CUDA码的优化,值得提及的是可以运行在任何GPU上。 “去年我们在中国发布了TensorRT 5,可以处理CNN,而且是在图形的同一层将边缘与节点融合;此外还支持自动检测以及自动低精度推理,将FP32模型转换成FP16或INT8模型