【 使用环境 】 测试环境
【 OB or 其他组件 】ob
【 使用版本 】4218
【问题描述】异地2个集群搭建主备租户,主租户28个,备租户创建到8个后其他备租户任务都卡在执行恢复命令以及等待恢复成功的任务点上。 集群总数据量1300g,带宽50m。 如何优化
带宽只有50m么,当前该参数的大小设置为多少sys_bkgd_net_percentage
登录备租户集群的sys租户 根据租户的 TENANT_ID
或 TENANT_NAME
查询问题租户的 SYNC_SCN
SELECT TENANT_ID, TENANT_NAME, TENANT_ROLE, STATUS, SWITCHOVER_STATUS, SYNC_SCN, REPLAYABLE_SCN,READABLE_SCN, RECOVERY_UNTIL_SCN FROM oceanbase.DBA_OB_TENANTS;
通过 V$OB_LS_LOG_RESTORE_STATUS 视图查询所有 日志流预先格式化的文本Leader 的 SYNC_SCN。
SELECT * FROM oceanbase.V$OB_LS_LOG_RESTORE_STATUS WHERE TENANT_ID=1xxx;
查询结果中,重点关注 SYNC_SCN 列,它表示日志流的同步位点。
根据两次的查询结果,比较所有日志流的 SYNC_SCN 与租户的 SYNC_SCN。如果所有日志流的 SYNC_SCN 均大于租户的 SYNC_SCN 并且没有变化,则表示租户的日志同步进度统计有问题,需要进一步排查租户日志同步进度统计的问题。
使用grep rpc收集一下observer日志,麻烦附件贴出来看看
异地集群设置的默认的60%
参考上面的麻烦查询一下相关信息发出来,目前怀疑是rpc打满导致,带宽仅有50m搭建操作不要同时开启多个
1 准生产环境 日志拿不出来 今天查看了备租户的同步位点。部分备租户的同步scn是在变动的,甚至已经同步到主租户的位点,还有部分备租户同步位点snc还仍然在创建出备租户的时间处,scn不动。
2 过滤rpc日志主要是查看什么信息可以说说嘛我自己去排查排查这个问题。
3 如果是rpc打满的问题,该如何处理?
4 目前想把同步位点snc还仍然在创建出备租户的时间处,scn不动的租户给drop了,但是执行了半天都不成功。
ocp任务处有报错么,把任务停掉后回滚试试
还变动说明任务还在执行,有办法扩带宽么50M太低了
同步位点有变动的是已经ocp任务成功的备租户,但也有的成功创建的备租户scn不动。ocp里目前是一堆失败的备租户任务。
回滚删除资源池都能卡住超时 这是咋回事
失败的回滚掉即可,然后再观察观察吧。超时可能是目前集群资源被耗尽导致。明天我咨询下相关内核同学看看
好的
你好,备租户搭建当前状态是什么样的
延迟时间有减少么,如果超时太久clog被清理掉只能重新搭建了。
已经一天多了 延迟时间一直不变
clog可能已经被删除掉了,重建吧。一套集群中有很多租户么,如果这样建议扩一下带宽吧
学习一下
感谢分享 也在研究这个