OB 集群合并卡住,5 天没完成

【 使用环境 】测试环境
【 使用版本 】OB4.2.1
【问题描述】4 月 25 日凌晨2:00 开始的合并任务,4 月 30 日未完成。
【附件及日志】使用 obdiag rca run --scene=major_hold 进行了分析,结果见附件
归档.zip (16.8 KB)

麻烦提供下最近时间RS节点的rootservice日志、OB节点日志吗,此外OB是什么版本的呢

不太方便取日志,请教下 obdiag 跑出来的结果怎么解读?
__all_virtual_compaction_diagnose_info 中 status:failed,DIAGNOSE_INFO:major not schedule for long time 说明调度失败了,因此我继续看了下 __all_virtual_dag_warning_history,只有个 ret:OB_TRANS_CTX_NOT_EXIST 似乎有价值,但含义未知:

另外我简单看了下代码,obdiag rca run --scene=major_hold 里是会去过滤日志的,请问日志过滤结果输出在哪里? 可以考虑出个文档介绍下 --scene=major_hold 的逻辑吗?

select * from oceanbase.__all_virtual_tablet_meta_table where tenant_id = 1002 and tablet_id= 1152921504606855091;
select * from oceanbase.cdb_ob_ls_locations where tenant_id = 1002 and ls_id =1002;
select * from oceanbase.__all_tenant where tenant_id =1002;
麻烦看下这些结果

看起来是这个medium一直没做完,所以这个分区的major合并发起不了。时间戳看起来很早了,能在这台机器上搜下这个task_id的日志吗,grep “task_id” observer.log,这条记录应该有个时间,搜一下这个时间附近的observer日志

cdb_ob_ls_locations 的结果取过,这是一个索引:

__all_tenant 视图结果似乎没啥意义?暂时取不到,只有 1002 这一个业务租户。 __all_virtual_tablet_meta_table 是用来看大小的吗? 暂时也取不到

__all_virtual_tablet_meta_table看三副本版本的情况

你好,我这边是obdiag的开发人员,这卡合并根因分析逻辑之前有出过一篇博客:OceanBase 社区
对于obdiag record的展示部分不友好的情况,刚刚有收到开发同学给予的反馈,后续我们这边会对此进行迭代。
如果有兴趣的话也可以加入obdiag的sig和我们一起共建obdiag,很欢迎对数据诊断有兴趣的伙伴加入共建,关于我们sig的介绍:https://oceanbase.yuque.com/org-wiki-obtech-vh7w9r/imzr6c/rhg09211pih0aomx