首页 > 网络 > 其他 > 正文
ceph集群报 mds cluster is degraded 故障排查
2017-05-16 09:35:00       个评论      
收藏    我要投稿

ceph 集群报 mds cluster is degraded 故障排查

ceph 集群版本:

ceph -vceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185)

ceph -w 查看服务状态:

mdsclusterisdegraded
monmape1:3monsat{ceph-6-11=172.16.6.11:6789/0,ceph-6-12=172.16.6.12:6789/0,ceph-6-13=172.16.6.13:6789/0}
electionepoch454,quorum0,1,2ceph-6-11,ceph-6-12,ceph-6-13
fsmape1928:1/1/1up{0=ceph-6-13=up:rejoin},2up:standby
osdmape4107:90osds:90up,90in
flagssortbitwise,require_jewel_osds
pgmapv24380658:5120pgs,4pools,14837GBdata,5031kobjects44476GBused,120TB/163TBavail5120active+clean

服务日志:

faultwithnothingtosend,goingtostandby2017-05-0800:21:32.4235717fb8591597001heartbeat_mapis_healthy'MDSRank'hadtimedoutafter152017-05-0800:21:32.4235787fb8591597001mds.beacon.ceph-6-12_sendskippingbeacon,heartbeatmapnothealthy2017-05-0800:21:33.0061147fb85e2647001heartbeat_mapis_healthy'MDSRank'hadtimedoutafter152017-05-0800:21:34.9029907fb858958700-1mds.ceph-6-12***gotsignalTerminated***2017-05-0800:21:36.4236327fb8591597001heartbeat_mapis_healthy'MDSRank'hadtimedoutafter152017-05-0800:21:36.4236407fb8591597001mds.beacon.ceph-6-12_sendskippingbeacon,heartbeatmapnothealthy2017-05-0800:21:36.9044487fb85c2607001mds.0.1929rejoin_joint_start2017-05-0800:21:36.9064407fb85995a7001heartbeat_mapreset_timeout'MDSRank'hadtimedoutafter152017-05-0800:21:36.9065027fb8589587001mds.ceph-6-12suicide.wantedstateup:rejoin2017-05-0800:21:37.9068427fb8589587001mds.0.1929shutdown:shuttingdownrank02017-05-0801:04:36.4111237f2886f601800setuid:gidto167:167(ceph:ceph)2017-05-0801:04:36.4111407f2886f601800cephversion10.2.7(50e863e0f4bc8f4b9e31156de690d765af245185),processceph-mds,pid11320282017-05-0801:04:36.4117347f2886f601800pidfile_write:ignoreempty--pid-file2017-05-0801:04:37.2917207f2880f407001mds.ceph-6-12handle_mds_mapstandby2017-05-0801:04:44.6185747f2880f407001mds.0.1955handle_mds_mapiamnowmds.0.19552017-05-0801:04:44.6185887f2880f407001mds.0.1955handle_mds_mapstatechangeup:boot-->up:replay2017-05-0801:04:44.6186027f2880f407001mds.0.1955replay_start2017-05-0801:04:44.6186277f2880f407001mds.0.1955recoverysetis

表现现象:

此时cephfs 挂载到系统的文件夹,可以进入,无法创建文件,仅能查看目录;

故障排查解决:

参考文档http://tracker.ceph.com/issues/19118http://tracker.ceph.com/issues/18730

查看信息发现,是新版本的一个bug,近期我们做了一个版本升级,从10.2.5升级到10.2.7 ,升级完成不到一周:

基本原因分析,当cephfs 存储有大量数据的时候,多个主节点要同步状并进行数据交换,mds 节点有消息监测,默认设置的是15秒超时,如果15没有收到消息,就将节点踢出集群。默认的超时时间较短,会导致压力大,返回数据慢的节点异常,被反复踢出集群,刚被踢出集群,心跳又发现节点是活着的,又会将节点加入集群,加入集群后一会又被踢出,如此反复。此时ceph集群会报“mds cluster is degraded”。服务日志报“heartbeat_map is_healthy 'MDSRank' had timed out after 15”

解决办法:

解决办法1:

此办法为应急办法,留一个mds 节点工作,其它节点服务暂时关闭,仅剩余一个节点独立工作,不再有mds 之间的心跳监测,此问题可以规避。此步骤完成后可以按照解决办法2进行处理,彻底解决。

解决办法2:增大超时时间阀值,修改到300秒,参数如下:

在所有的mds 节点执行,

mdsbeacongrace

描述:	多久没收到标识消息就认为MDS落后了(并可能替换它)。
类型:	Float
默认值:	15

参考文档:http://docs.ceph.org.cn/cephfs/mds-config-ref/

修改参数方法:

可以写入ceph 配置文件,此方法我们没有测试成功;

查看现配置:

[root@ceph-6-11~]#ceph--admin-daemon/var/run/ceph/ceph-mon.ceph-6-11.asokconfigshow|grepmds|grepbeacon_grace
"mds_beacon_grace":"15",

使用在线配置命令直接修改成功:

[root@ceph-6-11~]#ceph--admin-daemon/var/run/ceph/ceph-mon.ceph-6-11.asokconfigsetmds_beacon_grace300{"success":"mds_beacon_grace='300'(unchangeable)"}

验证:

[root@ceph-6-11~]#ceph--admin-daemon/var/run/ceph/ceph-mon.ceph-6-11.asokconfigshow|grepmds|grepbeacon_grace
"mds_beacon_grace":"300",#<<===参数已经修改成功

参数修改完成后,可开启所有已关闭mds 节点,在集群中任意关闭一个mds 主节点,状态可以同步到其它节点,其它主节点会接管服务响应,cephfs 使用不受影响。

点击复制链接 与好友分享!回本站首页
上一篇:TCP的三次握手(建立连接)和四次挥手(关闭连接)
下一篇:一次在CentOS7上安装部署Zabbix3.0版本及快速进行基本配置的实例
相关文章
图文推荐
文章
推荐
点击排行

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做实用的IT技术学习网站