OBserver节点不可用,如何恢复

【 使用环境 】生产环境
【 OB or 其他组件 】observer
【 使用版本 】4.3.5.1
【问题描述】
数据库节点zone3服务器死机后, 重启OBserver服务器无法启动,在节点服务器查observer进程没有起来,端口也没起来,通过主机查看ocp_agent是正常,服务器在线。在OCP管理尝试启动节点,提示连接超时,想用新服务器替换也是操作超时。
【复现路径】
在OCP上的OBServer 列表,尝试启动,失败.
执行重装也是失败

操作OceanBase失败,错误信息: (conn=3221658608) Timeout, query has reached the maximum query timeout: 10000000(us), maybe you can adjust the session variable ob_query_timeout or query_timeout hint, and try again.

执行替换服务器也是失败:

登录数据库查看节点信息:
obclient(root@sys)[oceanbase]> SELECT * FROM __all_server WHERE svr_ip = ‘172.16.1.31’;
±---------------------------±---------------------------±------------±---------±-----±------±-----------±----------------±---------±----------------------±------------------------------------------------------------------------------------------±----------±-------------------±-------------±---------------±------------------+
| gmt_create | gmt_modified | svr_ip | svr_port | id | zone | inner_port | with_rootserver | status | block_migrate_in_time | build_version | stop_time | start_service_time | first_sessid | with_partition | last_offline_time |
±---------------------------±---------------------------±------------±---------±-----±------±-----------±----------------±---------±----------------------±------------------------------------------------------------------------------------------±----------±-------------------±-------------±---------------±------------------+
| 2025-05-09 15:37:46.128650 | 2025-12-10 11:07:00.710933 | 172.16.1.31 | 5882 | 3 | zone3 | 5881 | 0 | INACTIVE | 0 | 4.3.5.1_101010042025042417-0c7ffd37c2904f4d8191fb2d056738a93cce6d1d(Apr 24 2025 17:57:24) | 0 | 0 | 0 | 1 | 1765336020709185 |
±---------------------------±---------------------------±------------±---------±-----±------±-----------±----------------±---------±----------------------±------------------------------------------------------------------------------------------±----------±-------------------±-------------±---------------±------------------+
1 row in set (0.011 sec)


2 个赞

看一下参数server_permanent_offline_time时间为多少
需要在zone3新增一台节点,然后再下掉故障节点。异常节点无法直接替换

1 个赞

我试过在这坏的Zone3上添加OBserver服务器,但也是失败的


1 个赞

手动启动一下observer,
su - admin
cd /home/admin/oceanbase && ./bin/observer

1 个赞

执行出错,提示没有权限,查看了所有目录文件是有权限的


1 个赞

./bin/observer 不是 ./observer

1 个赞

目录不对吧

1 个赞

我已进入相应的目录下了/home/xcob/oceanbase/bin,所以./observer执行咯

1 个赞

我是根据我安装的实际目录来操作的,我安装的应用就是在/home/xcob/oceanbase/bin这里,用户是xcob,不是admin

1 个赞

按照我提供给你的命令来启动,
cd /home/xcob/oceanbase/ && ./bin/observer

1 个赞

我直接修改了/root的权限给xcob这个用户,没有提示权限问题了,现在提示:[xcob@bc-observer-003 oceanbase]$ ./bin/observer
: Unsupported system page size
./bin/observer
根据网上查的信息,怎设置都修改不小这个值

zone2的状态是什么样子的。


查过配置的值是一样的

学习下经验

观摩

多谢各位老师的指导,目前节点已恢复正常。
通过修改/root、/data目录的权限后,手动启动服务恢复,虽然有Unsupported system page size报错,但可以正常启动服务
chowm -R xcob:xcob /root
chowm -R xcob:xcob /data
参考另外正常节点的启动参数:
./bin/observer
-r “172.16.1.26:5882:5881;172.16.1.4:5882:5881;172.16.1.31:5882:5881”
-p 5881
-P 5882
-z zone3
-n xcob
-c 1746776140
-d /data
-I 172.16.1.31
-o