使用OCP重启OB集群失败

【 使用环境 】生产环境
【 OB or 其他组件 】OCP、OB
【 使用版本 】v4.2.1
【问题描述】
今早看到OB单机集群导入数据极慢,监控平台提示“长时间未合并”,以为是这个问题。
从OCP上执行了合并操作,但是长时间未响应,0%,就重启了集群试试。
重启执行到“Start observer process”报错

【附件及日志】
查看 OBServer 重启失败问题排查-V3.1.4-OceanBase 数据库文档-分布式数据库使用文档
3.检查机器 Schema 是否存在刷新异常。

4.排查是否存在 Clog 回放慢的问题。

均有报错

服务器资源:20vCPU 128G内存 7.3T存储
OB集群是:单机集中式
OB分配:磁盘7T、日志盘380G
服务器空余:50G磁盘

因“OMS增量更新”需开启“归档日志”,所以给集群开启了归档日志,路径设置为了本机/home/log下。
昨晚进行了大量数据导入OB集群,今早发现OB集群写入很慢,登录服务器查看,系统磁盘使用100%。

删除了/home/log/data/clog

现在启动OB集群失败,如何启动?

grep ERROR observer.log
[2024-09-14 11:29:15.321212] WDIAG [SERVER] nonblock_get_leader (ob_inner_sql_connection.cpp:1767) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=10][errcode=-4014] user tenant has been dropped(ret=-4014, ret=“OB_INNER_STAT_ERROR”, tenant_id=1)
[2024-09-14 11:29:15.321517] ERROR issue_dba_error (ob_log.cpp:1875) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=13][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-9100, file=“ob_server_log_block_mgr.cpp”, line_no=515, info="::openat failed")
[2024-09-14 11:29:15.321703] ERROR issue_dba_error (ob_log.cpp:1875) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=163][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-9100, file=“ob_server_log_block_mgr.cpp”, line_no=106, info=“do_init_ failed”)
[2024-09-14 11:29:15.321812] ERROR issue_dba_error (ob_log.cpp:1875) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=12][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-9100, file=“ob_server.cpp”, line_no=2147, info=“log block mgr init failed”)
[2024-09-14 11:29:15.321910] ERROR issue_dba_error (ob_log.cpp:1875) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=85][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-9100, file=“ob_server.cpp”, line_no=329, info=“init io failed”)
[2024-09-14 11:29:17.024072] ERROR issue_dba_error (ob_log.cpp:1875) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=7][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-9100, file=“ob_server.cpp”, line_no=509, info="[OBSERVER_NOTICE] fail to init observer")
[2024-09-14 11:29:17.024162] ERROR init (ob_server.cpp:510) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=64][errcode=-4393] observer start process failure(msg=“observer init() has failure”, ret=-9100, ret=“OB_NO_SUCH_FILE_OR_DIRECTORY”)
[2024-09-14 11:29:17.024181] ERROR issue_dba_error (ob_log.cpp:1875) [14591][observer][T0][Y0-0000000000000000-0-0] [lt=17][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-9100, file=“main.cpp”, line_no=585, info=“observer init fail”)

不能手动删除clog,看下磁盘下面有没有其它文件可清理 或者扩容下磁盘

已经删除过了,目前集群启动不起来

手动删除了clog 集群就没办法启动了

这个可以恢复吗?或者跳过启动?
刚查看另一个集群,clog下是租户文件吗

是恢复不了的,是没办法跳过的,只能从操作系统磁盘层面恢复删掉的clog后 才可以

1、“日志”和“日志归档”,这是两种日志吧?
2、OMS增量功能,必须开启“日志归档”,这个有自动清理选项吗?
3、OCP_v4.2.1上有比较新的集群模版吗?

1.clog不可以清理,可以清理OMS依赖的归档日志,参考
https://www.oceanbase.com/knowledge-base/oms-ee-1000000001354119?back=kb

2.无自动清理选项

3.目前这个模板易用性最佳,没有更新的模板

2 个赞

好的,谢谢