【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】 3.1.5
【问题描述】恢复的节点CPU居高不下在80%,其他节点CPU10%不到,OB租户memtable长时间不释放
【复现路径】大批量写入操作,造成主节点不可用,恢复的节点CPU居高不下在80%,其他节点CPU10%不到,OB租户memtable长时间不释放,重启此节点后依然不生效
【问题现象及影响】
恢复的节点CPU居高不下在80%,其他节点CPU10%不到,OB租户memtable长时间不释放,OCP-agent 进城挂了,重启进程,监测失败。集群备份失败,合并失败。
【附件】
1 个赞
现在还是这样吗
重启集群,手动发起合并
还是这样,单节点启动不生效
还有别的方案吗?重启集群会影响线上业务的。
将需要重启的节点做降级处理(设置成备副本)确保再追加回放clog的时候不影响业务;再重启一遍主机,让他追平clog再看看
CPU高是因为有业务持续写入吗?
租户下分区Leader是随机分布的吗?
重启不生效是报错吗?
没有业务持续持续写入,租户下分区Leader是随机分布的,重启obagent后CPU高未解决
问题定位到了,是该节点硬件问题导致的,已解决