observer 手动部署,启动几分钟后又自动退出了

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】4.3.4.1 CE
【问题描述】observer 手动部署,启动几分钟后又自动退出了,从日志中没找到明显的相关报错
【复现路径】
背景:
之前部署三节点 oceanbase 时没有配置好 datafile_size, 磁盘使用率达到了90% 多,OCP一直报警;然后重新手动部署了其中一个节点的observer,现在该节点启动几分钟后又自动退出了;其他两个节点能够正常使用,现在不知道问题出在哪里,希望各位大佬有空帮忙看看
执行命令如下:

bin/observer -I 47.113.79.xxx -p 2881 -P 2882 -z zone2 -d /home/oceanbase/sgoceanbase/oceanbase/store/sgoceanbase/ \
 -r 'xxx:2882:2881;xxx:2882:2881;47.113.79.xxx:2882:2881' \
  -c 6 -n sgoceanbase -o "datafile_size=1T,datafile_maxsize=6T,datafile_nextsize=588G,log_disk_size=1T,enable_syslog_recycle=true,enable_syslog_wf=False,config_additional_dir=/home/oceanbase/sgoceanbase/store/data/sgoceanbase/etc3;/home/oceanbase/sgoceanbase/store/log/sgoceanbase/etc2"

observer 日志如下附件:
observer.log.tar.gz (9.3 MB)

2 个赞

检查下几台机器之间的时间同步是否正常,clockdiff -o ip

2 个赞

你是通过obd部署的 还是通过ocp部署的ob集群

2 个赞

通过ocp 部署的

1 个赞

时间看起来正常
image
这三台节点都是通过公网IP映射的,请问这会有影响吗

1 个赞


你换一种方法:使用ocp进行扩容集群把该节点添加进去

3 个赞

现在该节点是这台zone2,好像没办法通过ocp 部署该节点

1 个赞

更多里面 把他停止删除掉呢

2 个赞

这种情况是要在每个租户下把zone2 的unit 删掉吗

公网映射的 三台的IP地址 互相都是通的吧

1 个赞

互相都能通的,只是不能执行 clockdiff -o 公网IP

嗯嗯 你在重新启动 把启动到observer服务退出这个时间的observer.log日志 重新提供一下

1 个赞

附件是重新启动observer的日志, 麻烦老师帮忙看一下
observer.log.tar.gz (3.6 MB)


看着是配置local_ip地址有问题 你自己在检查一下IP地址

1 个赞

之前通过ocp 部署时也有提示这个错误,47.113.79.106 是公网IP,本地IP是 192.168.2.xx

你之前通过OCP部署这个集群时使用的是公网IP还是本地IP?部署成功了吗?公网IP大概率是不支持的。

1 个赞

之前部署这个集群时,用的是这三台节点的公网IP;也报了上面local_ip 不一致的错误,也能正常使用

@ 淇铭 @ 旭辉 OCP 上面这三台节点都是通过公网IP映射的,跟本地IP 不一样的

在106上 ifconfig em1 看下

1 个赞

image