OceanBase数据库卡死后重启，集群不可用

AntTech_TDTKXW · 2025 年9 月 8 日 16:45

【使用环境】生产环境 or 测试环境
【 OB or 其他组件】
【使用版本】
【问题描述】
在我们应用上连接oceanbase部分不可用，卡死。我们重启了ob服务，但是所有的jdbc都不可连接ob，
我们的Oceanbase集群是以一台管控机和3台物理机节点组成，在管控页面主机显示机器都是正常的，各个机器监控信息正常。但是集群状态不显示，点击进入集群页面后报错，过了一段时间后集群状态变为不可用，显示如下图信息。[@论坛小助手]

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接（右键跳转查看）：

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试，在发帖时输入 [@论坛小助手] 即可召唤小助手，欢迎试用！

论坛小助手 · 2025 年9 月 8 日 16:45

推荐使用 obdiag 工具进行日志采集，并且将采集到的日志提供给我们，以便进一步分析问题的原因。

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

该命令会收集与集群无法连接相关的日志信息，包括但不限于observer的日志、系统日志等，有助于我们分析集群在重启后无法连接的具体原因。

为了更准确地定位和解决问题，请您提供以下信息：

重启OB服务之前，是否有任何异常操作或错误日志记录？
在管控页面上查看，集群状态变为不可用的具体提示是什么？
您可以尝试检查一下集群配置是否有所变化，特别是网络配置方面是否有改动？
在集群卡死前，集群的负载情况如何？例如CPU、内存使用率，I/O情况等。
重启服务时是否有特定的操作步骤，或遵循了某种特殊的恢复流程？

请执行上述命令并提供采集到的日志文件，同时回答以上问题，这将有助于我们更快地找到问题所在并给出解决方案。

附上敏捷诊断工具 obdiag 使用帮助链接

旭辉 · 2025 年9 月 8 日 17:18

发下OCP版本

OB版本

show variables like '%version_comment%';

另外问下怎么重启的OB服务？

旭辉 · 2025 年9 月 8 日 17:19

黑屏连接OB sys租户执行下

select * from dba_ob_servers;
select * from dba_ob_zones;

AntTech_TDTKXW · 2025 年9 月 9 日 14:23

版本号如下图

采用命令行重启的
一些信息如图

observer.log有100MB,需要查询什么来定位错误信息

旭辉 · 2025 年9 月 9 日 14:42

看截图，yz这个集群6个zone 挂了3个zone，是有问题的，挂的那3个zone是关闭掉的吗？

将上面我发的两条sql黑屏 sys租户查下

另外问下为什么要黑屏做关闭操作呢？

AntTech_TDTKXW · 2025 年9 月 9 日 15:14

yz集群之前是3台机器测试环境，加了3台配置更好的作为生产验证环境，切换环境后将3台测试机器删除了。大批量跑起来后oceanbase卡死，所以重启机器。
现在是在其中一台物理机节点上使用租户sys登录，显示异常

AntTech_TDTKXW · 2025 年9 月 9 日 15:16

在管控机页面显示sys不可用，其他租户也无法登录

旭辉 · 2025 年9 月 9 日 15:24

另外两个节点黑屏登录试下，直接用2881端口登录

然后 ps -ef | grep observer

旭辉 · 2025 年9 月 9 日 15:25

着急的话提个官方悬赏吧，沟通更方便些

AntTech_TDTKXW · 2025 年9 月 9 日 15:29

昨日刚注册，积分不足无法发起官方悬赏

AntTech_TDTKXW · 2025 年9 月 9 日 15:49

ssh用2881登录不了。另外两台机器登录都显示同样问题

旭辉 · 2025 年9 月 9 日 16:04

不是用2881端口登录ssh，是2881端口登录数据库，登录时不要加 “#集群名称”，IP使用真实IP

AntTech_TDTKXW · 2025 年9 月 9 日 16:22

旭辉 · 2025 年9 月 9 日 17:12

看起来是正常的，你通过2883端口连接数据库，-h后面需要写obproxy的IP，
你写obproxy的IP 通过2883端口连接下看看

AntTech_TDTKXW · 2025 年9 月 9 日 17:48

旭辉 · 2025 年9 月 9 日 17:52

连错了吧？怎么是4.2.1.8版本，是连到ocp的元数据库了吧？

旭辉 · 2025 年9 月 9 日 17:55

怀疑是你的obproxy有问题，看下obproxy列表这里

AntTech_TDTKXW · 2025 年9 月 9 日 17:58

旭辉 · 2025 年9 月 9 日 17:59

也是正常的，你黑屏通过5.188连接yz这个集群试下