合并时卡住好几天但是不报错,ocp有长时间未合并告警

【 使用环境 】测试环境
【 OB or 其他组件 】
【 使用版本 】4.2.2
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作

这里查出来发现任务一直卡着,unfinished_data_size一直没有变化,如何进一步排查呢

可以查下CDB_OB_MAJOR_COMPACTION看下集群整体的合并情况,然后查一下GV$OB_COMPACTION_DIAGNOSE_INFO,查看是否有异常情况出现
observer.log日志提供下。和df -h磁盘空间

observer.log-aa.zip (9.1 MB)
observer.log-ab.zip (9.1 MB)

日志也上传了,麻烦老师帮忙看下

major_hold_20240515142830.zip (2.6 KB)
这里再补充一个obdiag分析的结果

问题已收到。稍等。

查下__all_virtual_dag_warning_history where tenant_id = 1004
以及 GV$OB_TABLET_COMPACTION_PROGRESS看下

这个表是空的

查下看看
select * from __all_virtual_table_meta_table where tenant_id= 1004 and compaction_scn < 1715364001198239000
select * from __all_virtual_table_meta_table where tenant_id= 1004 and report_scn < 1715364001198239000

老师,没有这个表

select * from __all_virtual_tablet_meta_table where tenant_id= 1004 and compaction_scn < 1715364001198239000
select * from __all_virtual_tablet_meta_table where tenant_id= 1004 and report_scn < 1715364001198239000

是这个表 __all_virtual_tablet_meta_table

查一下看看
select * from __all_virtual_tablet_compaction_info where tenant_id = 1004 and tablet_id = 248954;
select * from cdb_ob_table_locations where tablet_id = 248954 and tenant_id 1004;
select * from cdb_ob_ls_locations where tenant_id = 1004 and ls_id in (1001,1003);

是不是有transfer任务卡住了?

我刚才依次重启了三个zone,tnt租户的合并成功了,但是sys租户还有问题,这里替换为sys租户出问题的表


这个怎么看呢

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000750427
不过先不用看了,日志里我看到1004租户248954是transfer状态所以没合并,既然重启后恢复了就不用管了。重启后我看系统租户1号分区也像是合完了吧,你再看看__all_tablet_meta_table呢,
select * from __all_tablet_meta_table where tenant_id = 1 and compaction_scn < 1713981601992653000;
select * from __all_tablet_meta_table where tenant_id = 1 and report_scn < 1713981601992653000;