OceanBase数据库卡死后重启,集群不可用

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】
在我们应用上连接oceanbase部分不可用,卡死。我们重启了ob服务,但是所有的jdbc都不可连接ob,
我们的Oceanbase集群是以一台管控机和3台物理机节点组成,在管控页面主机显示机器都是正常的,各个机器监控信息正常。但是集群状态不显示,点击进入集群页面后报错,过了一段时间后集群状态变为不可用,显示如下图信息。[@论坛小助手]

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

8 个赞

推荐使用 obdiag 工具进行日志采集,并且将采集到的日志提供给我们,以便进一步分析问题的原因。

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

该命令会收集与集群无法连接相关的日志信息,包括但不限于observer的日志、系统日志等,有助于我们分析集群在重启后无法连接的具体原因。

为了更准确地定位和解决问题,请您提供以下信息:

  1. 重启OB服务之前,是否有任何异常操作或错误日志记录?
  2. 在管控页面上查看,集群状态变为不可用的具体提示是什么?
  3. 您可以尝试检查一下集群配置是否有所变化,特别是网络配置方面是否有改动?
  4. 在集群卡死前,集群的负载情况如何?例如CPU、内存使用率,I/O情况等。
  5. 重启服务时是否有特定的操作步骤,或遵循了某种特殊的恢复流程?

请执行上述命令并提供采集到的日志文件,同时回答以上问题,这将有助于我们更快地找到问题所在并给出解决方案。

附上敏捷诊断工具 obdiag 使用帮助链接

6 个赞

发下OCP版本

OB版本

show variables like '%version_comment%';

另外问下 怎么重启的OB服务?

4 个赞

黑屏连接OB sys租户执行下

select * from dba_ob_servers;
select * from dba_ob_zones;
4 个赞

版本号如下图


采用命令行重启的
一些信息如图

observer.log有100MB,需要查询什么来定位错误信息

3 个赞

看截图,yz这个集群6个zone 挂了3个zone,是有问题的,挂的那3个zone是关闭掉的吗?

将上面我发的两条sql黑屏 sys租户查下

另外问下为什么要黑屏做关闭操作呢?

3 个赞

yz集群之前是3台机器测试环境,加了3台配置更好的作为生产验证环境,切换环境后将3台测试机器删除了。大批量跑起来后oceanbase卡死,所以重启机器。
现在是在其中一台物理机节点上使用租户sys登录,显示异常

3 个赞

在管控机页面显示sys不可用,其他租户也无法登录

3 个赞

另外两个节点黑屏登录试下,直接用2881端口登录

然后 ps -ef | grep observer

3 个赞

着急的话 提个官方悬赏吧,沟通更方便些

3 个赞

昨日刚注册,积分不足无法发起官方悬赏

3 个赞

ssh用2881登录不了。另外两台机器登录都显示同样问题


3 个赞

不是用2881端口登录ssh,是2881端口登录数据库,登录时不要加 “#集群名称”,IP使用真实IP

3 个赞


3 个赞

看起来是正常的,你通过2883端口连接数据库,-h后面需要写obproxy的IP,
你写obproxy的IP 通过2883端口连接下 看看

3 个赞

3 个赞

连错了吧?怎么是4.2.1.8版本,是连到ocp的元数据库了吧?

3 个赞

怀疑是你的obproxy有问题,看下obproxy列表这里

2 个赞

2 个赞

也是正常的,你黑屏通过5.188连接yz这个集群试下

2 个赞