ceph

Rancher(2),K8S持久性存储Ceph RBD搭建及配置

不羁岁月 提交于 2020-01-02 19:21:43
1、配置host,安装ntp(非必须) 2、配置免密ssh 3、配置ceph,yum源 vim /etc/yum.repo.d/ceph.cepo [ceph] name=ceph baseurl=http://mirrors.cloud.tencent.com/ceph/rpm-luminous/el7/x86_64/ gpgcheck=0 priority=1 [ceph-noarch] name=cephnoarch baseurl=http://mirrors.cloud.tencent.com/ceph/rpm-luminous/el7/noarch/ gpgcheck=0 priority=1 [ceph-source] name=Ceph source packages baseurl=http://mirrors.cloud.tencent.com/ceph/rpm-luminous/el7/SRPMS enabled=0 gpgcheck=1 type=rpm-md gpgkey=http://mirrors.cloud.tencent.com/ceph/keys/release.asc priority=1 4、安装ceph-deploy yum update yum install ceph-deploy 5、安装 安装过程中,如果报错

Ceph:pg peering过程分析

孤街醉人 提交于 2020-01-02 05:33:04
转自:https://www.ustack.com/blog/ceph%ef%bc%8dpg-peering/ Peering:互为副本的三个(此处为设置的副本个数,通常设置为3)pg的元数据达到一致的过程。官方解释如下: the process of bringing all of the OSDs that store a Placement Group (PG) into agreement about the state of all of the objects (and their metadata) in that PG. Note that agreeing on the state does not mean that they all have the latest contents. primary PG和raplica PG: 互为副本的三个pg中,有一个主,另外两个为辅;其中为主的称为primary PG,其他两个都称为replica PG。 1、peering过程的影响 故障osd重新上线后,primary PG和replica PG会进入不同的处理流程。primary PG会先进入peering状态,在这个状态的pg暂停处理IO请求,在生产环境中表现为集群部分IO不响应,甚至某些云主机因为等待IO造成应用无法正常处理

ceph物理机nova状态为down的处理方法

馋奶兔 提交于 2020-01-01 18:17:35
文章目录 物理机nova状态为down的处理思路 说明 故障排除思路 1、先去web界面查看rabbitMq服务是不是正常的 2、查看状态为down的nova服务是否为active,不为active即服务有问题 3、不是服务问题(不能ssh过去),则直接去管理口重启物理机即可。 物理机nova状态为down的处理思路 说明 在控制节点上查看所有物理机运行状态,如果有某台为down,先别急着去重启物理机,而是先排除是不是服务down了,如下图,就是虽然显示已经down了,但还能ssh过去。如果服务有问题,重启服务即可。 故障排除思路 1、先去web界面查看rabbitMq服务是不是正常的 如果rabbitmq出问题了,去该控制节点查看服务:systemctl status rabbitmq-server (我这是正常的,所以是active,如果在web界面看到是故障的,这儿状态就并非active) 然后重启rabbitmq服务:systemctl restart rebbitmq-server (重启报错,看日志报错,可能是相关服务也出问题了,所以导致rabbitmq服务不能正常重启) 再次查看服务,状态是active即可:systemctl status rebbitmq-server 处理完毕后再去rabbitmq的web界面看,该控制节点状态已经正常。 2

Ceph常见问题

狂风中的少年 提交于 2019-12-31 23:02:14
1.nearfull osd(s) or pool(s) nearfull 此时说明部分osd的存储已经超过阈值,mon会监控ceph集群中OSD空间使用情况。如果要消除WARN,可以修改这两个参数,提高阈值,但是通过实践发现并不能解决问题,可以通过观察osd的数据分布情况来分析原因。 (1)配置文件设置阈值 “mon_osd_full_ratio”: “0.95”, “mon_osd_nearfull_ratio”: “0.85” (2)自动处理 ceph osd reweight-by-utilization ceph osd reweight-by-pg 105 cephfs_data(pool_name) (3)手动处理 ceph osd reweight osd.2 0.8 (4)全局处理 ceph mgr module ls ceph mgr module enable balancer ceph balancer on ceph balancer mode crush-compat ceph config-key set “mgr/balancer/max_misplaced”: “0.01” 2.PG 故障状态 PG状态概述 一个PG在它的生命周期的不同时刻可能会处于以下几种状态中: Creating(创建中) 在创建POOL时,需要指定PG的数量

ceph对象存储设置policy [TOC]

非 Y 不嫁゛ 提交于 2019-12-31 18:49:29
目录 ceph对象存储设置policy 一、前言 二、软件包准备 三、操作步骤 1、编写policy.json文件 2、 使用s3cmd 命令设置存储桶的policy。 3、使用s3cmd 命令设置存储桶的policy 四、注意事项 五、参数解释 1、Version 2、 Statement 3、Sid 4、Effect 5、Principal 6、Action 7、Resource 六、参考文档 ceph对象存储设置policy 一、前言 本环境使用的ceph L版的对象存储 二、软件包准备 s3cmd-2.0.2-1.el7.noarch.rpm 三、操作步骤 1、编写policy.json文件 [root@node1 ~]# vim policy.xml { "Version": "2012-10-17", "Statement":[ {"Sid":"0", "Effect":"Allow", "Principal":"*", "Action":"s3:*", "Resource":"arn:aws:s3:::test/*", "Condition":{ "StringLike": {"aws:Referer":["http://10.168.106.22*"]} } } ] } 2、 使用s3cmd 命令设置存储桶的policy。 [root@compute0 ~]#

Ceph Dashboard

Deadly 提交于 2019-12-31 17:57:40
1.Ceph Dashboard介绍 Ceph 的监控可视化界面方案很多----grafana、Kraken。但是从Luminous开始,Ceph 提供了原生的Dashboard功能,通过Dashboard可以获取Ceph集群的各种基本状态信息。 mimic版 (nautilus版) dashboard 安装。如果是 (nautilus版) 需要安装 ceph-mgr-dashboard 2.配置Ceph Dashboard (1)在每个mgr节点安装 yum install ceph-mgr-dashboard (2)开启mgr功能 ceph mgr module enable dashboard (3)生成并安装自签名的证书 ceph dashboard create-self-signed-cert (4)创建一个dashboard登录用户名密码 ceph dashboard ac-user-create guest 1q2w3e4r administrator (5)查看服务访问方式 ceph mgr services 3.修改默认配置命令 指定集群dashboard的访问端口 ceph config-key set mgr/dashboard/server_port 7000 指定集群 dashboard的访问IP ceph config-key set mgr

ceph修复pg inconsistent

前提是你 提交于 2019-12-29 00:10:59
异常情况 1、收到异常情况如下: HEALTH_ERR 37 scrub errors; Possible data damage: 1 pg inconsistent 2、查看详细信息 #ceph health detail HEALTH_ERR 37 scrub errors; Possible data damage: 1 pg inconsistent OSD_SCRUB_ERRORS 37 scrub errors PG_DAMAGED Possible data damage: 1 pg inconsistent pg 1.dbc is active+clean+inconsistent, acting [55,71,25] 3、预处理办法 一般情况采用 ceph pg [pgid],但是经过观察,并不能解决。 参考处理办法 https://ceph.com/geen-categorie/ceph-manually-repair-object/ Just move the object away with the following: stop the OSD that has the wrong object responsible for that PG flush the journal (ceph-osd -i <id> --flush-journal)

ceph-deploy v2.0.0初始化磁盘

社会主义新天地 提交于 2019-12-29 00:07:36
http://docs.ceph.com/docs/master/start/quick-ceph-deploy/#create-a-cluster http://docs.ceph.com/docs/master/install/manual-deployment/#adding-osds ceph v12.2.4 (luminous)命令变动 http://docs.ceph.com/ceph-deploy/docs/changelog.html#id1 2.0.0 16-Jan-2018 - Backward incompatible API changes for OSD creation - will use ceph-volume and no longer consume ceph-disk. - Remove python-distribute dependency - Use /etc/os-release as a fallback when linux_distribution() doesn’t work - Drop dmcrypt support (unsupported by ceph-volume for now) - Allow debug modes for ceph-volume ceph-deploy v2.0.0开始不再使用ceph

分布式文件系统

被刻印的时光 ゝ 提交于 2019-12-28 12:36:48
分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连 分布式文件系统的设计基于客户机/服务器模式 … 常用的分布式文件系统 Lustre Hadoop FastDFS Ceph GlusterFS 什么是Ceph Ceph是一个分布式文件系统 具有高扩展,高可用,高性能的特点 Ceph可以提供对象存储,块存储,文件系统存储 Ceph可以提供PB级别的存储空间(PB->TB->GB) 软件定义存储(Software Defined Storage)作为存储行业的一大发展趋势,已经越来越受到市场的认可. Ceph组件 OSDs-存储设备(真实的提供存储空间的硬件设备) Monitors-集群监控组件(相当于web集群中的调度器,带健康检测功能) RadosGateway(RGW)-对象存储网关 MDSs-存放文件系统的元数据(对象存储和块存储不需要该组件) Client-ceph客户端 ceph:OSD三备份,MON过半原则(要求超过一半的服务器是好的) 安装前准备 物理机为所有节点配置yum源服务器 [ root@room9pc01 ~ ] # mkdir /var/ftp/ceph [ root@room9pc01 ~ ] # mount /linux-soft/02

使用ansible远程管理集群

坚强是说给别人听的谎言 提交于 2019-12-27 01:59:07
使用ansible远程执行命令 1.ansible简介 ansible的官方定义:“Ansible is Simple IT Automation”——简单的自动化IT工具。这个工具的目标: 自动化部署APP 自动化管理配置项 自动化的持续交付 自动化的(AWS)云服务管理。 其本质上就是在远程在多台服务器执行一系列命令和文件同步,和以前的介绍的 使用并行ssh提高工作效率 功能类似,他们都是使用ssh协议进行远程操作,但ansible比pssh功能更强大,比如支持主机列表分组、支持playbook模板文件等。本文仅仅介绍ansible的Ad-Hoc用法,即默认的command模块,直接在shell执行命令。 2.安装 ubuntu14.04直接使用 apt-get 安装: sudo apt-get install -y ansible 也可以使用pip命令安装: sudo pip install ansible 为了支持输入远程主机用户密码,还需要安装 sshpass 工具: sudo apt-get install -y sshpass 安装完成后创建~/.hosts文件,内容如下: [local] ceph-0 [mon] ceph-1 [osd] ceph-2 ceph-3 以上配置文件定义了三个主机组,分别为 local 、 mon 、 osd , ceph-x 是主机名