恢复备份失败,原因排查

【 使用环境 】测试环境
【 使用版本 】oceanbase 4.2.4
【问题描述】为什么恢复备份一直卡住不进行了呢,怎么判断什么原因导致的,登录租户一直显示初始化中。如果再重新恢复也能成功,但是这频繁的恢复失败,会是什么原因
【附件及日志】
image
observer.log.tar.gz (19.8 MB)

1 个赞

是异机恢复么,恢复的命令发一下,相关命令执行卡顿住时的流程有么

是异机恢复,恢复命令:
obclient -h 127.0.0.1 -P 2881 -uroot -p123456 -e “ALTER SYSTEM RESTORE dscom_tenant FROM ‘file:///var/lib/oceanbase/backup,file:///var/lib/oceanbase/archive’ WITH ‘pool_list=dscom_resource_pool&primary_zone=zone1’;”

用诊断工具分析一下日志看看,https://www.oceanbase.com/docs/common-obdiag-cn-1000000001768214

1 个赞

好像并没有有效信息输出

看起来没有WARN级别(含)以上的错误,执行一下下面的

obdiag analyze log --files observer.log --log_level INFO

目前这个集群是无法连接的状态吗?

1 个赞

是在线的,但是目前我又恢复成正常的了,只保留了出问题时的observer.log. 不过一天测试下来问题总会复现至少两次

从obdiag 日志分析结果来看,其中的IO error 可能值得关注一下,其他的错误目测看关联度不大,毕竟也没有WARN级别的错误出现。


日志中存在连接中断和IO报错

关注下下恢复进度和恢复结果,看是否有异常

SELECT * FROM oceanbase.CDB_OB_RESTORE_PROGRESS\G

SELECT * FROM oceanbase.CDB_OB_RESTORE_HISTORY\G

那这个一般是什么原因导致的呢?还是有哪些参数会影响,需要配置

感觉并无其他异常,像你所说的备份恢复卡住了,登录租户失败是备份恢复多久后登录失败,等待了多久,租户恢复期间本来就无法登录的。
使用root@sys可以查询租户恢复状态,再遇到卡顿可以查询一下
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000001574001

一般等10分钟左右就能判断是否成功了,失败的时候,一直服务器运行,等了一天也还是initializing中。好的,下次关注下查询进度有何异常,就是查询进度的时候一直有信息输出,到是没看具体信息有什么差异

为什么history与progress中显示的不一致,history中显示805表处理完成,而progress中失败了一个


image

希望能得到一些提示,如果我的描述不清楚,也请指出,我会再补充说明

你这俩job_id不一样,而且时间一个是11点一个是下午一点

哦,大意了,非常感谢指正,那就是history中没有,progress中显示表失败了一个,那接下来应如何排查呢

并未失败吧,status显示restoring中。两条记录都是同一个任务而已