ocp告警模板中“ob_cluster_merge_error OB 集群合并出错”采集指标

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】ocp
【 使用版本 】4.2.1
【问题描述】
问题一:
ob_cluster_merge_error OB 集群合并出错-V4.2.1-文档-分布式数据库使用文档 中说明监控指标ob_cluster_merge_error_flag,来源于sql:select zone, name, value, time_to_usec(now()) from __all_zone;
但是他的执行结果为
±------±-----------------------±-----------------±--------------------+
| zone | name | value | time_to_usec(now()) |
±------±-----------------------±-----------------±--------------------+
| | cluster | 0 | 1747209072000000 |
| | config_version | 1744599475051696 | 1747209072000000 |
| | lease_info_version | 1744599475059270 | 1747209072000000 |
| | privilege_version | 0 | 1747209072000000 |
| | storage_format_version | 4 | 1747209072000000 |
| | time_zone_info_version | 0 | 1747209072000000 |
| zone1 | idc | 0 | 1747209072000000 |
| zone1 | recovery_status | 0 | 1747209072000000 |
| zone1 | region | 0 | 1747209072000000 |
| zone1 | status | 2 | 1747209072000000 |
| zone1 | storage_type | 0 | 1747209072000000 |
| zone1 | zone_type | 0 | 1747209072000000 |
| zone2 | idc | 0 | 1747209072000000 |
| zone2 | recovery_status | 0 | 1747209072000000 |
| zone2 | region | 0 | 1747209072000000 |
| zone2 | status | 2 | 1747209072000000 |
| zone2 | storage_type | 0 | 1747209072000000 |
| zone2 | zone_type | 0 | 1747209072000000 |
| zone3 | idc | 0 | 1747209072000000 |
| zone3 | recovery_status | 0 | 1747209072000000 |
| zone3 | region | 0 | 1747209072000000 |
| zone3 | status | 2 | 1747209072000000 |
| zone3 | storage_type | 0 | 1747209072000000 |
| zone3 | zone_type | 0 | 1747209072000000 |
±------±-----------------------±-----------------±--------------------+
是哪个值?
他表示“监控指标 的值表示集群合并是否出错。当值为 0 时,表示该集群合并正常。 当值为 1 时,表示集群合并出错”。现在没有值为1啊。

问题二
此处集群合并异常,是所有租户中有任意一个租户合并异常吗?

【复现路径】问题出现前后相关操作
【附件及日志】

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

日志采集场景: 合并问题
日志采集命令: obdiag gather scene run --scene=observer.compaction

推荐使用 obdiag 工具进行日志采集,以便确认集群合并过程中是否存在错误。通过采集的日志,可以进一步分析是否有合并异常的情况发生。

为了更好地帮助您确认问题,请提供以下信息:

  1. 是否在 OCP 告警模板中发现了其他与合并相关的异常指标?
  2. 当前集群的合并状态是否可以通过 SHOW MAJOR FREEZE STATUS; 查询到相关信息?
  3. 是否有特定租户已知存在合并异常?如果有,请提供该租户的名称及相关信息。
  4. 最近是否对集群或租户执行过重大操作(如扩容、缩容、升级等)?
  5. 是否可以从 OCP 或者命令行查看到具体的合并错误日志或提示信息?

请根据上述命令采集日志,并将结果提供给我们以进一步分析问题原因。

附上敏捷诊断工具 obdiag 使用帮助链接

1 个赞

:fist_right: :fist_right: :fist_right:

OB如果是4.x的使用这个视图 oceanbase.CDB_OB_MAJOR_COMPACTION,
应该是文档没有更新过来,我反馈下

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000002014613

1 个赞