ocp上执行备份报错

【 使用环境 】生产环境
【 OB or 其他组件 】ob
【 使用版本 】4.0.0
【问题描述】
ocp上执行备份报错。已配置NFS,目录配置也没问题了。


报错信息ret=-4725,tablet does not exist

检查下__all_rootservice_event_history、 __all_server_event_history 表中module为backup_data是否有异常

__all_rootservice_event_history
2023-04-06 10:49:17.503083 backup_data deal with failed job tenant_id 1002 job_id 1959 result -4725 trace_id YB4285C5CC03-0005F714AD3F9E86-0-0 133.197.204.3 2882

__all_server_event_history
2023-04-06 10:49:16.951174 133.197.204.3 2882 backup_data report_result job_id 1959 task_id 14 tenant_id 1002 ls_id 1003 turn_id 1 retry_id 0 -4725
2023-04-06 10:48:20.619709 133.197.204.13 2882 backup_data report_result job_id 1959 task_id 14 tenant_id 1002 ls_id 1005 turn_id 1 retry_id 0 0

YB4285C5CC03-0005F714AD3F9E86-0-0 根据这个查询下对应的日志

rootservice.log.7z (4.1 MB)
太多这个记录的信息了啊,麻烦老师帮分析下

133.197.204.3
在这个机器上根据错误码(-4725)搜索下对应时间点的observer日志

-4725错误信息就是tablet does not exist

备份过程中有执行drop、truncate表吗?

没有的,什么都没操作

目前4.0版本删除tablet是已知的问题,可以重新发起备份来解决
可以在用户租户下执行
select * from __all_ddl_operation where ddl_stmt_str like ‘%drop table%’ 看下有没有


最近没删除过表。
重试了几次还是这个错误

重试后,有个5217的错误
[2023-04-06 21:13:46.194734] WARN [SQL.RESV] select_stmt_resolver_func (ob_resolver.cpp:170) [30760][T1_MFLaunch][T1][YB4285C5CC03-0005F71BC48FAF5A-0-0] [lt=3] execute stmt_resolver failed(ret=-5217, parse_tree.type_=3073)
[2023-04-06 21:13:46.194743] WARN [SQL] generate_stmt (ob_sql.cpp:2158) [30760][T1_MFLaunch][T1][YB4285C5CC03-0005F71BC48FAF5A-0-0] [lt=4] failed to resolve(ret=-5217)
[2023-04-06 21:13:46.194755] WARN [SQL] generate_physical_plan (ob_sql.cpp:2277) [30760][T1_MFLaunch][T1][YB4285C5CC03-0005F71BC48FAF5A-0-0] [lt=12] Failed to generate stmt(ret=-5217, result.get_exec_context().need_disconnect()=false)
[2023-04-06 21:13:46.194760] WARN [SQL] handle_physical_plan (ob_sql.cpp:3751) [30760][T1_MFLaunch][T1][YB4285C5CC03-0005F71BC48FAF5A-0-0] [lt=4] Failed to generate plan(ret=-5217, result.get_exec_context().need_disconnect()=false)
[2023-04-06 21:13:46.194764] WARN [SQL] handle_text_query (ob_sql.cpp:1915) [30760][T1_MFLaunch][T1][YB4285C5CC03-0005F71BC48FAF5A-0-0] [lt=3] fail to handle physical plan(ret=-5217)
[2023-04-06 21:13:46.194768] WARN [SQL] stmt_query (ob_sql.cpp:175) [30760][T1_MFLaunch][T1][YB4285C5CC03-0005F71BC48FAF5A-0-0] [lt=3] fail to handle text query(stmt=SELECT DISTINCT snapshot_version as dis_snapshot FROM __all_tablet_checksum ORDER BY snapshot_version, ret=-5217)

您是放弃任务后, 重新开始的吧 ?
image

失败过好几次,点过放弃任务,点过重试,然后还是报错,就放弃任务了

清空 回收站 试一下。是不是回收站搞鬼?

recyclebin这个吗?

清空那个租户 的回收站, 再试一下。 对的

清空回收站,还需要别的操作吗?删除备份策略什么的,还是关停备份?
直接手动执行备份就可以吗?

您先试一下, 不知道能不能解决问题啊

不行,还是这个错误