Oceanbase扩容失败

【 使用环境 】 测试环境
【 OB or 其他组件 】 OB
【 使用版本 】4.3.0
【问题描述】清晰明确描述问题
我在测试环境部署了一个一副本3节点的集群,现在想测试一下扩容,往这个副本中增加一个节点,操作步骤如下:
1、在OCP主机页面添加主机(成功)
2、在集群里添加observer,添加完成生成任务,在执行任务的时候报错:


3、查看ocp日志发现报错:


【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
ocp-server.zip (6.6 MB)

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)


目前看是ocp_meta这个库或者租户锁住了,感觉像是meta_database这个库被锁住了

麻烦也提供下任务中心的日志。点击任务中心,右上角有个下载日志。麻烦上传下

可以先刷新重试下看看,或者 metadb 有没有做过什么操作,或者升级过 OCP?


任务中心已经进不去了,还有什么方式下载日志?
metadb执行过UPDATE config_properties SET value=’’ WHERE key=‘ocp.ob.cluster.ops.blacklist’;这个操作,另外添加主机的时候上传过包,别的就没做过什么操作了。
image
上传过这两个包

我现在连登录都登录不了了

可以先用obdiag捞一下日志看看 数据库技术博客-OceanBase分布式数据库

现在看起来是metadb的问题,修改了 UPDATE config_properties SET value =’’ WHERE key =‘ocp.ob.cluster.ops.blacklist’; 这个是为了对 metadb 做运维操作吧,已经进行了操作吗,用 metadb 的租户连一下集群,看看还能正常的执行 sql 吗

UPDATE config_properties SET value =’’ WHERE key =‘ocp.ob.cluster.ops.blacklist’; 这个的目的是通过ocp添加observer,否则报


该方法也是在论坛里面找到的:

ocp_meta这个租户可以链接上,但是meta_database库执行不了任何语句:

这个语句已经执行了快一个小时了吧,还没结果。

这个语句执行了快2个小时了,还没结果。
我现在要怎么操作

我通过以下语句:
SELECT * FROM __all_virtual_trans_lock_stat ;
SELECT * FROM __all_virtual_lock_wait_stat;
SELECT * FROM __all_virtual_trans_stat;
SELECT * FROM V$OB_LOCKS;

执行都是空的

image
通过obclient直接连ocp_meta,执行查询也卡住

observer日志,这个日志不是当时出错的时候的日志,看看能不能看到什么有用的东西
observer.zip (6.8 MB)
observer1.zip (8 MB)
observer2.zip (8 MB)
observer3.zip (8 MB)

应该是数据库有问题了,metadb 现在是几个节点,需要发一下 observer 的日志

ocp我只部署了一个节点metadb有几个没注意。observer的日志之前出问题的时候的日志没有了,只从服务器上抓了最新的。你看看能不能找到有用的信息。


我早上来看observer一直在不停的打日志,貌似死循环了,如上图。
后续我要怎么操作?重启还是怎么弄。
另外看到这个错误:

现在给 meta 租户的资源是多少呢,整个集群的资源是多少,如果可以,先尝试重启一下集群,给 meta 租户加一些资源试试看,如果实在恢复不了,可以重新部署一下 OCP 的 metadb,但是需要再接管原来管理的 OB 集群

META租户的资源好像是2C2G内存
另外请教一下,通过ocp扩容observer有黑名单的现在。那我要扩容observer有什么推荐的方式吗?
我现在部署的oceanbase是4.3.0。如果我重新部署4.2.2会有这个问题吗?

好像启动不起来了

ddd.txt (52.8 KB)


使用obd cluster start myob -c ocp-server-ce这个命令也起不起来

ddd.txt (17.6 KB)
observer (2).zip (6.8 MB)

这个限制应该只是对 metadb 的,和具体的版本没有关系

这个看着是 OCP 连不上,start 之前执行了什么操作呢

现在命令行连接 meta 租户可以吗

start 前执行了obd cluster stop myob

连可以连,和昨天一样,通过meta_database这个库查询执行任何语句都会卡住