ocp告警,获取集群信息失败,集群状态检测异常

【 使用环境 】生产环境
【 OB or 其他组件 ob
【 使用版本 】4.2.0.0
【问题描述】ocp告警,获取集群信息失败,集群状态检测异常,observer有4012和4019报错,备份延迟

复现路径】重启rootservice的observer后恢复正常,手动进行备份,但一直报备份失败。
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
日志正在收集中




确认失败原因:

select * from __all_rootservice_event_history where module=‘backup_data’ and event =‘start_backup_data’;

执行上述sql,查看对应tenant_id 的result, 如果result != 0
在 rs 所在server搜ret=result的日志,找到报错点。

grep “ret= result” rootservice.log | grep “ob_backup_data_scheduler”

以下情况导致的失败符合预期:

  1. 未配置数据备份data_backup_dest
  2. 日志归档未开启
  3. 租户正处于备份中。
  4. 租户状态不处于normal

老师,目前主要想先看下为啥集群突然连接失败的问题,日志已经手动备份过了,告警目前还在,一会我查询下,这个不急,先看集群问题吧

ocp的版本是什么呢

4.2.1

另外了解到直连集群后执行任意sql也会触发4019报错,判断应为ob集群的问题