集群主节点挂了以后,重启节点后CPU居高不下,OB租户memtable长时间不释放

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】 3.1.5
【问题描述】恢复的节点CPU居高不下在80%,其他节点CPU10%不到,OB租户memtable长时间不释放
【复现路径】大批量写入操作,造成主节点不可用,恢复的节点CPU居高不下在80%,其他节点CPU10%不到,OB租户memtable长时间不释放,重启此节点后依然不生效
【问题现象及影响】
恢复的节点CPU居高不下在80%,其他节点CPU10%不到,OB租户memtable长时间不释放,OCP-agent 进城挂了,重启进程,监测失败。集群备份失败,合并失败。
【附件】

1 个赞

现在还是这样吗

重启集群,手动发起合并

还是这样,单节点启动不生效

还有别的方案吗?重启集群会影响线上业务的。

将需要重启的节点做降级处理(设置成备副本)确保再追加回放clog的时候不影响业务;再重启一遍主机,让他追平clog再看看

CPU高是因为有业务持续写入吗?
租户下分区Leader是随机分布的吗?
重启不生效是报错吗?

没有业务持续持续写入,租户下分区Leader是随机分布的,重启obagent后CPU高未解决

问题定位到了,是该节点硬件问题导致的,已解决