observer进程不在了,如何查看原因

今天在阿里云的3台ecs上安装了observer组成一个集群,刚才发现1和2都不在线了,进ecs查看,observer进程不存在了,请问怎么看原因在哪里?

1 个赞

cd ~/oceanbase/log下
看一下observer日志,麻烦提供一份附件

看起来有不少log文件,都需要吗?

如果进程不在了日志应该是停写的,只需要observer.log。

oserver.log.zip (1.3 MB)
请看附件

日志存在RPC问题,看一下3个节点的时钟差是不是很大

用date命令看,3个节点时间差不多。系统上centos 7.9,应该默认有时间同步机制吧?
还有其他办法看吗?

学习

学到了

刚刚节点3也挂了,log如下,麻烦看看:
observer3.log.zip (2.6 MB)

看一下三台机器的时钟源。ob要求节点时间差异不能大于2s

查看这3台ecs,时间同步程序在运行:
chrony 642 1 0 Aug11 ? 00:00:00 /usr/sbin/chronyd

配置的是阿里云的源:
[root@iZuf6fiwi2hpo62d8johdxZ log]# cat /etc/chrony.conf

Use Alibaba NTP server

Public NTP

Alicloud NTP

server ntp.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst
server ntp.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp1.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp10.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst
server ntp11.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst
server ntp12.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst
server ntp2.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp3.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp4.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp5.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp6.aliyun.com minpoll 4 maxpoll 10 iburst
server ntp7.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst
server ntp8.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst
server ntp9.cloud.aliyuncs.com minpoll 4 maxpoll 10 iburst

Ignore stratum in source selection.

stratumweight 0.05

Record the rate at which the system clock gains/losses time.

driftfile /var/lib/chrony/drift

Enable kernel RTC synchronization.

rtcsync

In first three updates step the system clock instead of slew

if the adjustment is larger than 10 seconds.

makestep 10 3

Allow NTP client access from local network.

#allow 192.168/16

Listen for commands only on localhost.

bindcmdaddress 127.0.0.1
bindcmdaddress ::1

Disable logging of client accesses.

noclientlog

Send a message to syslog if a clock adjustment is larger than 0.5 seconds.

logchange 0.5

logdir /var/log/chrony
#log measurements statistics tracking

时间应该没有问题

学习了!很多问题应该都是集群时钟不一致所导致的,时间一致问题确实任何集群类应用面临的主要问题,这个需要运维人员用各种工具来保证一下。

挂了的时候,有一次,走ocp点重启提示无法完成,重启了这台ecs才自动起来了,我想问一下,手工启动observer的命令是什么? 谢谢

cd /home/admin/oceanbase && /home/admin/oceanbase/bin/observer

查看observer日志,你的NTP服务搭建集群之前都配置好了吗?