transfer任务长时间卡住导致租户合并也一直卡住,没有明显报错

【 使用环境 】测试环境
【 OB or 其他组件 】
【 使用版本 】4.2.2
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作
【附件及日志】
上一个帖子请ob老师帮忙排查了下合并卡住在日志中体现出是transfer卡住的问题,请熟悉的老师继续帮忙分析下。


上图中task_id为3的任务有异常,开始时间和完成时间(和我手动切主的时间能对应上)持续了5天的时间,如何进一步排查transfer卡住的原因

server日志里搜一下

observer.log.YB42AC1E8DA7-0006149F7BE77580-0-0.zip (105.9 KB)

原因大概是 transfer 默认超时时间 100ms,但是业务侧压力一直没停,导致一直在超时

select svr_ip, svr_port from __all_virtual_log_stat where tenant_id = 1004 and ls_id = 1 and role = ‘LEADER’;
用这个查询一下leader的ip,在这台server上查询相关的日志

老师,这个是怎么看出来的,昨天的日志就保留了刚才那一份。目前通过切主已经让集群恢复正常了,但是想知道下原因

日志内容太少了,只能给一个概论,没法进一步定位了

好的,谢谢老师

major_hold_20240515142830.zip (2.6 KB)
老师,这里还有obdiag分析的内容

老师,这个问题是有一个旧单

那里有一个日志文件, major_hold_20240515142830.zip (2.6 KB)

这个是否对分析有帮助

老师,我们定位到大致原因是因为时钟同步差值很大造成的这个问题,并且本地也复现了,场景如下
rs在zone1上
zone1与zone2时钟相差4s
zone1与zone3时钟相差56s
zone2与zone3时钟相差61s
这个时候sys租户合并就卡在了zone3上面,zone1,zone2没问题。当重新调整时钟同步正常后,合并也正常完成。

按道理来说,时钟同步差值这么大的情况应该有告警或者日志中有体现,但是ocp上无告警,日志中也没有看到相关的信息,这个是否有相关的参数调控呢

OB4.X-时钟延迟-合并-时钟源-测试.pdf (4.5 MB)