集群stop后start或者restart失败

【产品名称】server obd 社区版

【产品版本】server V3.1.3

obd 1.3.2

【问题描述】

采用ODB方式部署的集群,stop后start或者restart报连接server失败,无法启动

报错信息

[ERROR] Failed to connect oceanbase-ce

执行 集群启动命令 报错详细信息如下



执行启动命令的日志以及配置文件在附件中(4.21的日志即为执行启动的日志)

mini-distributed-with-obproxy-example.zip (1795 KB)

observer.zip (7403036 KB)

你这个日志显示是ssh connection远程机器出现问题, 怀疑你ssh 没有打通, 


麻烦执行几个命令, 看一下输出


ifconfig  


ssh 10.19.248.183

ssh 10.19.248.182

你前后的yaml文件有更改过么,部署用了obproxy, 连接的端口应该是2883,从报错restart过程中连的是2881,另一个可能是你的网卡名ens192写在global里面,两台机器都一样?


尝试obd cluster edit-config $observer_name #记得替换成你的observer name,再看下目前的config


因为我在家办公,用跳板机连接的182和183服务器

看日志好像还是3.1.3而非3.1.3BP1。cd到observer的工作目录下,执行 export LD_LIBRARY_PATH='./lib'; ./bin/observer -V 看下版本吧

网卡名我确认了,两个都是和配置中一样的ens192,我理解2881是server端口,2883是proxy端口,如果能连接2881,应该也能连接2883

执行命令查看当前集群配置如下

刚确认了下那个e96a的hash确实是最新版本了。observer -V展示的还是确实还是个老版本。说明obd没有正确下发仓库。劳烦上到这两台机器上进入observer home_path/bin 目录下把 observer 的软连接删了。然后把obd升级到1.3.2后执行obd cluster start -wop启动。