gpu服务器 | 易学教程

转载：深度学习电脑配置

阅读更多关于转载：深度学习电脑配置

半夜睡不着，想谈谈自己对深度学习主机配置的一些经验，想自己diy深度学习硬件的朋友可以参考一下，因为本人也不是特别资深的电脑diy爱好者，所以很多地方也是一知半解，有错误请大家指正。首先我会谈几点必须注意的事项；然后我阐述一些配件选择的原则，因为硬件更新是很快的；最后会给出一下当下的配置清单。下面我们步入正题。配置深度学习主机的注意事项： 1.一定计算好需要多大功率的电源！我们配置深度学习主机最核心的就是显卡，GPU的功耗往往很大，尤其我们经常使用两块以上的显卡。因此电源功率很重要，这是我们主机稳定工作的保障，我看到很多服务器甚至会选择双电源，但是我自己没有试过，不是很清楚双电源。 2.双显卡以上时必须注意处理器和主板的选择。如果是双显卡以上，那么pcie就面临是工作在x16还是x8的状态，这里应该是说带宽。我们在选择CPU是就要关注他们的pcie通道数，通道数大约40条以上两个GPU才会都工作在x16状态。另外可以选择双CPU的主板，这样就可以支持两个甚至更多的GPU工作在x16状态。 3.使用m.2固态硬盘时注意是否影响GPU工作在x16状态。这点也是个第二点有关的，就是pcie的通道资源是有限的，有的主板会写你使用m.2的固态会占用谁的资源，导致那个接口不能用。所以我一般会用sata那种接口。不过通道多的一般没什么影响，还是要看一下主板说明。硬件选择原则 1.GPU选择

阿里云异构计算发布：轻量级GPU云服务器实例VGN5i

阅读更多关于阿里云异构计算发布：轻量级GPU云服务器实例VGN5i

阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例，该实例打破了传统直通模式的局限，可以提供比单颗物理GPU更细粒度的服务，从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景，更细粒度的GPU计算服务。轻量级GPU云服务器是什么？轻量级GPU云服务器是一种新的GPU云服务器规格族，是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中。与常规GPU云服务器的区别在轻量级GPU云服务器提供更细力度的GPU计算资源，比如拥有更少的CUDA计算核心，更小的显存。这样做的优势是在业务应用中，业务可以根据资源所需更加灵活的配置GPU计算资源。用户在使用常规GPU云服务器的时候遇到了哪些痛点？ GPU的计算颗粒过大：单颗物理GPU的计算能力越做越强大，但是许多应用需要更小颗粒的GPU计算资源；常规GPU资源不利于业务自动伸缩：拥有单颗物理GPU资源的实例在业务部署中会因为要充分利用GPU资源而造成“胖节点”，不利于设计成弹性伸缩架构，缺乏灵活性，无法应对业务快速变化；常规GPU计算实例无法在线迁移：常规直通虚拟化的GPU实例，由于架构特性无法支持GPU实例的在线迁移；轻量级GPU云服务器与常规GPU云服务器有哪些不同？我们从GPU加速器呈现方式

【转帖】英特尔打响数据中心复兴之战！四大架构轰向云端，营收创新高

阅读更多关于【转帖】英特尔打响数据中心复兴之战！四大架构轰向云端，营收创新高

英特尔打响数据中心复兴之战！四大架构轰向云端，营收创新高 https://mp.weixin.qq.com/s/rZpYzCrnNbQs5_6PStT_zQ 　　芯东西（ID： aichip001）文：心缘　　回到 1968 年，英特尔创始人罗伯特·诺伊斯和戈登·摩尔希望以两人名字的组合命名新公司——Moore Noyce（摩尔·诺伊斯）。　　然而这个名字被一家连锁酒店抢先注册了，无奈之下，两位创始人改取“Integrated Electronics（集成电子）”两个单词的缩写“Intel（英特尔）”为公司名，偏巧，这也是英文单词“智能”Intelligence 的前几个字母。　　或许冥冥之中，命运已经将英特尔和五十年后的智能化浪潮牵了一条红线。　　从数据中心、自动驾驶到物联网，英特尔正在编织一张全面的人工智能（AI）软硬件巨网，试图在滚滚奔涌向前的新一代数据革命中，以前瞻性的布局立于不败之地。　　据美国市场研究机构 Gartner 在 1 月 14 日发布的最新报告，2019 年全球半导体收入总计 4183 亿美元，较 2018 年下降 11.9％。　　在整体市场陷入低迷状态之际，英特尔却迎来了颇为亮眼的成绩单，不仅时隔三年重返全球半导体市场榜首，而且其第四季度和财年营收均创纪录。 2019 年全球半导体厂商销售额排行榜前十（来源：Gartner）　　2020 年

OpenCL介绍

阅读更多关于 OpenCL介绍

　　OpenCL（全称Open Computing Language，开放运算语言）是第一个面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境，便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码，而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器，在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。基本信息　　OpenCL是一个为异构平台编写程序的框架，此异构平台可由CPU，GPU或其他类型的处理器组成。OpenCL由一门用于编写kernels （在OpenCL设备上运行的函数）的语言（基于C99）和一组用于定义并控制平台的API组成。OpenCL提供了基于任务分割和数据分割的并行计算机制。　　OpenCL类似于另外两个开放的工业标准OpenGL和OpenAL，这两个标准分别用于三维图形和计算机音频方面。OpenCL扩展了GPU用于图形生成之外的能力。OpenCL由非盈利性技术组织Khronos Group掌管。历史发展　　OpenCL最初苹果公司开发，拥有其商标权，并在与AMD，IBM，英特尔和NVIDIA技术团队的合作之下初步完善。随后，苹果将这一草案提交至Khronos Group。　　2008年6月的WWDC大会上，苹果提出了OpenCL规范

什么限制了你的神经网络执行的速度

阅读更多关于什么限制了你的神经网络执行的速度

这周拜读了大神Forrest Iandola的一篇博客，大开眼界，忍不住翻译过来，供大家分享。原文链接如下： https://medium.com/analytics-vidhya/not-all-tops-are-created-equal-e1911ffb4a82 摘要限制了DNN在计算平台上的执行速度的六个常见原因。 1）内存访问过多 2）没有足够的并行 3）等待输入数据加载 4）糟糕的I/O ,内存和计算机制的重叠机制（overlap） 5）在专用的平台上没有使用专用的操作（不是所有的TOPs都是一样的，不同产品在某些运算上做了特殊优化） 6）未优化代码深度学习处理器公司经常高调宣称他们的产品有惊人的处理速度。他们通常使用的度量标准有 TOPS（Tera Operations per Second）， TMACS(Tera Multiply-Accumulate Instructions per Second)。这些指标的意义在哪，这些指标是否真的有用？首先，看一下这些指标在深度学习中是怎么用的？让我们思考一下，一个卷积层有尺寸为3x3x100的过滤器和100个输出通道。 1)假设这个卷基层的input grid 的尺寸是50x50x100. 所以，一次前向操作需要3 3 100 100 50*50 = 225,000,000 MACs, 相当于450,000

从零开始入门 K8s | GPU 管理和 Device Plugin 工作机制

阅读更多关于从零开始入门 K8s | GPU 管理和 Device Plugin 工作机制

作者 | 车漾阿里巴巴高级技术专家本文整理自《CNCF x Alibaba 云原生技术公开课》第 20 讲。关注“阿里巴巴云原生”公众号，回复关键词 “入门” ，即可下载从零入门 K8s 系列文章 PPT。导读：2016 年，随着 AlphaGo 的走红和 TensorFlow 项目的异军突起，一场名为 AI 的技术革命迅速从学术圈蔓延到了工业界，所谓 AI 革命从此拉开了帷幕。该热潮的背后推手正是云计算的普及和算力的巨大提升。需求来源经过近几年的发展，AI 有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是什么新鲜的概念。而这次热潮的背后，云计算的普及以及算力的巨大提升，才是真正将人工智能从象牙塔带到工业界的一个重要推手。与之相对应的，从 2016 年开始，Kubernetes 社区就不断收到来自不同渠道的大量诉求：希望能在 Kubernetes 集群上运行 TensorFlow 等机器学习框架。这些诉求中，除了之前文章所介绍的，像 Job 这些离线任务的管理之外，还有一个巨大的挑战：深度学习所依赖的异构设备及英伟达的 GPU 支持。我们不禁好奇起来：Kubernetes 管理 GPU 能带来什么好处呢？本质上是成本和效率的考虑。由于相对 CPU 来说，GPU 的成本偏高。在云上单 CPU

【服务器管理】RTX2080ti显卡根据温度自动调整风扇速度

阅读更多关于【服务器管理】RTX2080ti显卡根据温度自动调整风扇速度

【服务器管理】显卡根据温度自动调整风扇速度 1 未设置自动调整风扇速度时运行nvidia-smi 2 克隆代码 3 安装依赖项 4 修改代码文件权限 5 每次开机时打开一个终端运行以下代码即可实现自动调整风扇转速 6 检验是否成功运行自动调整风扇速度代码我们在日常使用GPU显卡跑代码过程当中，最苦恼的便是显卡温度过高的问题。因为，显卡温度过高的时候，可能会引发 GPU lost 等一系列问题。因此，有必要让显卡根据自身速度调整风扇转速。需要注意的是，本文是针对服务器而写，也就是不带X桌面服务的Ubuntu。本文测试环境：```Ubuntu18.04··· 本文测试显卡：GPU RTX 2080ti 1 未设置自动调整风扇速度时运行nvidia-smi 运行以下终端命令： nvidia-smi 此时，GPU Fan这一列显示的百分比就是每张显卡的风扇转速。 2 克隆代码首先，切换至目录 /opt ： cd /opt 然后，克隆代码 https://link.jianshu.com/?t=https://github.com/boris-dimitrov/set_gpu_fans_public ： git clone https://github.com/boris-dimitrov/set_gpu_fans_public.git 修改文件名 set_gpu_fans

Ubuntu下如何查看GPU版本和使用信息

阅读更多关于 Ubuntu下如何查看GPU版本和使用信息

【转载】 nvidia-smi是用来查看GPU版本信息，GPU使用信息查询： nvidia-smi 第一栏的Fan：N/A是风扇转速，从0到100%之间变动，这个速度是计算机期望的风扇转速，实际情况下如果风扇堵转，可能打不到显示的转速。有的设备不会返回转速，因为它不依赖风扇冷却而是通过其他外设保持低温（比如我们实验室的服务器是常年放在空调房间里的）。第二栏的Temp：是温度，单位摄氏度。第三栏的Perf：是性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能。第四栏下方的Pwr：是能耗，上方的Persistence-M：是持续模式的状态，持续模式虽然耗能大，但是在新的GPU应用启动时，花费的时间更少，这里显示的是off的状态。第五栏的Bus-Id是涉及GPU总线的东西，domain:bus:device.function 第六栏的Disp.A是Display Active，表示GPU的显示是否初始化。第五第六栏下方的Memory Usage是显存使用率。第七栏是浮动的GPU利用率。第八栏上方是关于ECC的东西。第八栏下方Compute M是计算模式。下面一张表示每个进程占用的显存使用率。显存占用和GPU占用是两个不一样的东西，显卡是由GPU和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。来源： https://www

GPU相比FPGA更具优势，适应AI快速变化需求

阅读更多关于 GPU相比FPGA更具优势，适应AI快速变化需求

　　<strong>飞象网讯</strong>（源初/文）上周，在 GTC19 大会期间，NVIDIA 加速计算产品管理总监 Paresh Kharya 对关于 GPU 相比 FPGA 的优势的问题时回答表示，GPU 在可编程上具备明显优势，整个开发时间更短。　　他表示称目前做好一个 FPGA，整个编程时间就要几个月，而且还要在硬件层面对它进行编程。然而现在 AI 变化速度非常快，甚至更新是以分钟来计算的，所以必须要在软件端实现高度灵活的可编程。恰恰 GPU 是 AI 领域的专用芯片，他的指令集是非常有优势的，是全可编程，并且是软件定义的。　　GPU 的另一个优势在于架构向前兼容，如果未来需要使用新硬件，可以使开发周期得到大大缩短，整个硬件可以随着软件不断更新适应，在软件库中可直接进行更新。同时 NVIDIA 的平台可以在任何设备上使用，包括台式机、笔记本、服务器、数据中心、边缘和物联网。　　而在 GTC19 大会的主题演讲中，黄仁勋也不断强调了 GPU 在各种应用领域中相比于 CPU 的明显优势，例如阿里的边缘系统在 GPU 上跑，每秒可以做 780 次查询，但是如果说用 CPU，每秒只能做 3 次查询；而在百度采用 NVIDIA AI 推荐系统的表现来看，以往对于百度庞大的用户潜在兴趣数据包的模型训练在 CPU 上成本高昂且速度慢，而 GPU 训练成本只有 CPU 的1

牵手大企，关于图形计算、HPC与AI，NVIDIA言有尽而意无穷！

阅读更多关于牵手大企，关于图形计算、HPC与AI，NVIDIA言有尽而意无穷！

在黄仁勋看来，随着摩尔定律消亡，GPU加速才是撬动未来高性能计算发展的有力杠杆。有数据显示，目前NVIDIA已经销售了超过15亿块GPU，而这些GPU由于采用了同一架构，均能兼容CUDA。不仅仅如此，身着经典皮衣的黄教主更认为硬件的“登峰造极”不仅仅局限于芯片，只有软件得到相应性能的完整优化，未来的多GPU才能彰显最出色的处理能力。基于此，NVIDIA在CUDA平台上配置了相当丰富的软件库，并且选择在去年一整年推出了超过500个相应的SDK以及库来不断改进NVIDIA的软件栈。有数据显示，通过这些专门的SKU，NVIDIA的产品在过去三年的深度学习性能提升了4倍，而深度学习推理性能也相应提升了2倍。列举如此多样的软件升级，要说目前实在硬核的NVIDIA软件创新，当属最新一代推理软件开发套件NVIDIA TensorRT 7编译器的推出。晶少了解到，TensorRT作为一种计算图优化编译器能够优化推理实现实时AI会话，将TensorFlow的输出结果进行优化，简单理解位可以高效寻找计算途中可以融合的节点，从而减少计算和内容的访问来进行CUDA码的优化，值得提及的是可以运行在任何GPU上。 “去年我们在中国发布了TensorRT 5，可以处理CNN，而且是在图形的同一层将边缘与节点融合；此外还支持自动检测以及自动低精度推理，将FP32模型转换成FP16或INT8模型

订阅 gpu服务器