nfs

Pytorch 多GPU训练-多计算节点并行-All you need

匿名 (未验证) 提交于 2019-12-03 00:13:02
本篇介绍多计算节点上的pytorch分布式训练。从环境配置到运行demo的所有步骤,step by step。没有理论原理,理论原理可以参考 这里 . 多台linux计算节点,通过网络连接,不同主机之间可以相互ping通。网速越快越好,如果通信速度比较慢,就不用怎么考虑分布式训练。 所有linux计算节点都包含若干GPU,GPU数量可以不一致,但是所有GPU计算速度尽量一致,否则模型的同步时会等待大量时间(短板效应)。 所有计算节点都拥有Pytorch运行环境,即都可以单独的运行训练代码。 这里NFS有两个作用:(1)集群初始化时作为多个进程(不同主机上) UDS (unix domain socket)的通信地址;(2)数据集统一存放在NFS目录上,所有进程都可以同时访问。 选择一台与计算节点同一网段的linux主机作为存储节点,或者使用计算节点中的一台作为存储节点。 存储节点操作如下: apt-get install nfs-kernel-server <path to share> *(rw,sync,no_root_squash,no_subtree_check) # insert this line to /etc/exports, save & exit exportfs -a 数据集保存到共享目录中。 所有计算节点将共享目录挂载到本地: mkdir /mnt/nfs

centos7 如何使用ReaR进行系统备份(如何使用NFS方法设置ReaR备份)

匿名 (未验证) 提交于 2019-12-03 00:08:02
因为生产业务集群中的服务器比较多,经常出现配置故障,硬件故障,所以就想到系统备份,查了一些相关的资料,国内主流的方法是用tar命令打包整个操作系统,我试了效果并不理想,所以尝试用rear工具进行备份还原 操作系统是 # cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) 官方记录是 6 7 8都可以使用这个工具备份,我只测试了centos7的 首先备份下来的系统是要保存下来的,建议放到其他服务器,或者是专门的存储上,所以此案例使用的nfs的存储方式 ----------------------------------------------------前提条件--nfs准备------------------------------------------------------------------ nfs-server:10.0.0.52 nfs-client:10.0.0.51 nfs-server: nfs需要两个组件 # rpm -qa|grep -E "rpcbind|nfs-utils" rpcbind - 0.2 . 0 - 47.el7.x86 _64 nfs - utils - 1.3 . 0 - 0.61 . el7 . x86_64 如果没有的话,自行安装,yum的方式即可

springcloud实战开发

匿名 (未验证) 提交于 2019-12-03 00:05:01
一、前言 在微服务的浪潮下,公司原有的架构已经严重跟不上日益发展的业务需求,随着用户量的增加, 架构越来越臃肿,乃至没有人敢于去动原有的架构,加之架构已经有7、8年的历史,前前后后的 开发人员也换过一批有一批,一旦修改,轻则bug一堆,重则牵一发动全身,所以只能继续沿用 现有的架构,继续叠加新功能,继续改改补补。 基于这样的背景,于去年(也就是2017年)年中开始选型微服务框架,开始进行架构的改造, 开始尝试新的架构体系。 二、过程 选择的过程总是坎坷的,当初有springcloud、有dubbo、有springboot,技术骨干在一起不断的 讨论,争执,各抒己见(眼看着就要打起来了,程序员永远会选择自己最熟悉的技术去解决问题), 在这样的情况下,最终还是选择了下述架构组合: (图片参考了《某金融公司的架构体系》) 架构中涉及的技术如下: 在这样的架构体系下,团队成员各司其职,在经历了4个月左右的开发时间,最终出了V1.0的版本, 并且有了第一批近5万的用户,只是从这个过程和结果来说,还是相对成功的。 我们的应用就这么上了百度应用市场和360应用市场。 可是,就这么看似成功的一个产品,在刚刚上线后不久,公司就因为各种原因竟然要将其放弃, 或者说是暂停搁置,延续原有的产品体系,继续开拓市场。并且公司潜在的定性这个新的产品是 失败的。(知道这对于技术团队或者产品团队来说是多么大的打击么

deepin安装nfs服务和客户端

匿名 (未验证) 提交于 2019-12-03 00:03:02
Docker安装nfs服务器端(测试已失败,不建议用docker方式部署nfs和服务端和客户端): Docker搭建nfs失败并放弃,原因有3: 容器内mount的文件夹不能映射到宿主机。 111端口被rpcbind占用,不能在同一台服务器同时部署nfs的服务器和客户端。 docker run -d --name nfs --privileged --restart = always \ -h nfsserver \ -v /datadisk/share/nfsshare/:/nfsshare/ \ -v /datadisk/share/nfs:/nfs \ -v /mnt/share:/mnt/nfs1 \ -v /mnt/nfs:/mnt/nfs \ -e NFS_EXPORT_DIR_1 = /share \ -e NFS_EXPORT_DOMAIN_1 = \* \ -e NFS_EXPORT_OPTIONS_1 = rw,insecure,no_subtree_check,no_root_squash,fsid = 1 \ -e NFS_EXPORT_DIR_2 = /nfs \ -e NFS_EXPORT_DOMAIN_2 = \* \ -e NFS_EXPORT_OPTIONS_2 = rw,insecure,no_subtree_check,no_root

NFS共享存储服务

匿名 (未验证) 提交于 2019-12-03 00:00:02
简介 NFS(Network File System)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。 搭建流程 1 安装nfs-ntils和rpcbind软件包,提供NFS共享服务。安装完成后,可以设置为开机自启动模式 2 在服务端加一个存储设备,分区,格式化,挂载 3 NFS的配置文件为/etc/exprts 设置共享目录,启动服务,关闭防火墙,增强性安全功能 4 在另一台服务器上安装httpd服务,关闭防火墙,增强性安全功能 5 httpd服务网站站点目录为/var/www/html,将前一台服务器的/mnt目录挂载到站点目录 也可以使用永久挂载 6 在站点目录创建文档,启动httpd服务,进行访问 来源:51CTO 作者: 友引町 链接:https://blog.51cto.com/14449536/2436954

NFS共享存储服务

匿名 (未验证) 提交于 2019-12-02 23:59:01
NFS(网络文件系统) 介绍:NFS(Network File System)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。 1.优点 A. 节省本地存储空间,将常用的数据存放在一台NFS服务器上且可以通过网络访问,那么本地终端将可以减少自身存储空间的使用。 B.用户不需要在网络中的每个机器上都建有Home目录,Home目录可以放在NFS服务器上且可以在网络上被访问使用。 2.组成 NFS体系至少有两个主要部分: 一台NFS服务器和若干台客户机 客户机通过TCP/IP网络远程访问存放在NFS服务器上的数据 3.应用场景 NFS 有很多实际应用。下面是比较常见的一些: 多个机器共享一台CDROM者其他设备。这对于在多台机器中安装软件来说更加便宜跟方便。 在大型网络中,配置一台中心 NFS 服务器用来放置所有用户的home目录可能会带来便利。这些目录能被输出到网络以便用户不管在哪台工作站上登录,总能得到相同的home目录。 不同客户端可在NFS上观看影视文件,节省本地空间。 在客户端完成的工作数据,可以备份保存到NFS服务器上用户自己的路径下 4.配置安装(服务器端) 1.安装nfs-utils 、rpcbind包, 2.设置共享目录

Kubernetes进阶之StatefulSet有状态部署

匿名 (未验证) 提交于 2019-12-02 23:59:01
K8s有状态应用部署 目录:分为两类 1.Headless Service 2.StatefulSet 稳定,唯一的网络标识符,持久存储 有序,优雅的部署和扩展、删除和终止 有序,滚动更新 应用场景:数据库 说在前面的话,像我们的Mysql或者Redis了,Zookerper等等这些适不适合部署在K8s中,其实呢不是太适合,但部署在里面也可以,比如部署一个Mysql来讲吧,部署到k8s中还是很容易的就一个Mysql实例,就像部署其他应用一样,通过service、IP去访问它,但是要是作为集群的状态去部署的话,那可能就比较麻烦了。 第一点:比如做一个Mysql的主从,Mysql主从它是有主从拓扑关系的,一个主一个从,而且各自的数据都不一样,这就意味着,你要想搭建一个Mysql的主从,你要知道它的相互的ip地址,就是从肯定要知道主的ip地址,然后从连接主的ip地址,做数据的同步。 第二点:它的存储,它两个存储的信息都不太一样,那怎么去保证它两个数据的存储保证持久化呢,一个集群中可能会有多个节点,要是部署到k8s中,必须要保证部署的应用,在任意的节点都能使用原来的状态,也就是说某一个节点挂了,上面的pod飘移到另一个节点,能不能用到之前的状态,所以要考虑这些问题。 而k8s设计的精髓在于并不是你部署一个单的实例,而是在于它的一个分布式一个部署,具有故障恢复能力的应用

nfs 支持ipv6

匿名 (未验证) 提交于 2019-12-02 23:57:01
项目在docker里mount 一个nfs来读写,而现在需要支持ipv6,所以先写了各小demo,最后成功mount,这里记录一下 #include <sys/mount.h> #include <errno.h> #include <stdio.h> int main (){ const char * src = "[2001:db8:1::1]:/root/nfsshare/zone1" ; const char * opt = "addr=2001:db8:1::1,clientaddr=2001:db8:1::242:ac11:3" ; const char * des = "/mnt" ; int ret = mount ( src , des , "nfs4" , 0 , opt ); if ( ret != 0 ){ perror ( "mount" ); } } 说明: addr=2001:db8:1::1 是服务端地址 clientaddr=2001:db8:1::242:ac11:3 是客户端地址 先确保了网络连通,这里的server 地址实际是在主机中看到的docker0的地址,nfs server监听在所有的地址上 在bash中使用mont 命令成功mount 使用strace 追踪mount 命令,然后看到系统调用mount 的参数,也就是我们需要的参数了

CentOS7搭建NFS

匿名 (未验证) 提交于 2019-12-02 23:52:01
文件存储服务器配置: 安装NFS yum install -y rpcbind nfs-utils 创建共享目录 mkdir /root/sharefile 修改目录权限 chmod 0755 -R sharefile 修改NFS配置文件 vi /etc/exports ---------------------------- /root/sharefile/ 192.168.2.121(rw,no_root_squash,no_all_squash,sync) 192.168.2.122(rw,no_root_squash,no_all_squash,sync) ---------------------------- 启动NFS服务 systemctl start nfs 查看共享目录状态 showmount -e 192.168.2.120 文件存储客户机配置: 安装NFS yum install nfs-utils 查看共享目录 showmount -e 192.168.2.120 创建共享目录 mkdir /root/sharefile 挂载共享目录 mount -t nfs 192.168.2.120:/root/sharefile /root/sharefile

Ubuntu 18.04 搭建 配置 nfs服务器

匿名 (未验证) 提交于 2019-12-02 23:47:01
什么是NFS? NFS(Network File System)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。 通过nfs,我们可以实现不同设备下文件的访问。(尤其是跨设备拷贝大型文件的时候) 注:通过nfs还能实现从uboot直接读取远程文件系统 搭建好了NFS服务器以后,其他的设备就可以通过网络对服务器的nfs进行挂载并访问。 NFS的安装与配置 安装 sudo apt-get install nfs-kernel-server -y 增加配置 sudo vim /etc/exports 增加策略,每个策略一行 设定格式如下: 例如: /nfs *(rw,sync,no_root_squash) ------------------------------------------------------- ------------------------------------------------------ 启动 service nfs-kernel-server restart (启动之前要确保对应的文件夹是存在的,否则会出现'Job for * canceled.') ֹͣ service nfs