ocp部署后,部署单节点的方式-集群接管异常子任务执行超时

【 使用环境 】 测试环境
【 OB or 其他组件 】ocp
【 使用版本 】ocp4.3.0
【问题描述】集群一直接管中,查看具体任务报错


【复现路径】ocp白屏安装之后就没有其他动作
【附件及日志】
log_task_3.zip (52.9 KB)
observer.log (7.8 MB)

推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

1 个赞

新建的集群在创建时也遇到同样的问题


log_task_51.zip (62.6 KB)

有尝试过重新执行该任务么

有尝试过,失败了 现在还在重试,先多尝试几次试试看

ocp-observer.log日志找下并提供下。
磁盘是SSD类型的吗?

是ssd类型的

ocp-server.zip (5.8 MB)

这里是磁性能盘校准任务没有完成,OCP查询io_calibration一直没有获取到预期数据从而超时失败,
OCP查询io_calibration结束记录的sql:SELECT svr_ip, svr_port, storage_name, status, start_time, finish_time FROM GV$OB_IO_CALIBRATION_STATUS WHERE svr_ip = ? AND svr_port = ?
需要排查下io_calibration这个job为什么耗时这么久没执行完毕,或者试下手动校准,参考如下链接
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000821448

请执行如下SQL上传下日志
1.SELECT * FROM oceanbase.V$OB_IO_CALIBRATION_STATUS;

2.SELECT * FROM oceanbase.GV$OB_IO_BENCHMARK;



ocp-server.zip (3.8 MB)
log_task_3.zip (63.0 KB)
observer.log (292.0 KB)
正在上传:ocp-server.log.2024-06-24.0.gz…
ocp-server.log.2024-06-24.1.gz (793.6 KB)

我的日志可能上传的比较早了 我任务重试是昨天下午五六点的样子 今天还重试了


这里一些基本的视图都查询不了,集群状态应该是异常了,有重启过吗?

已经重装了,目前遇到的还是这个问题 换成ocp4.2.2了


正在上传:36e3eb961be047ab242077c68acae3e4.png…


尝试手动触发磁盘校准任务,有什么现象?
ALTER SYSTEM RUN JOB “io_calibration”;

通过登陆ocp_meta租户后查询
select * from config_properties where key=‘ocp.operation.ob.server.skip-io-bench’\G
查看default_value值,如果不是true
通过update config_properties set value=“xxx” where key=‘ocp.operation.ob.server.skip-io-bench’; 修改
后重新检查


报错已解决

log_task_3.zip (62.0 KB)
云桌面的日志


单独那一块的
subtask_29.log (10.6 KB)