淇铭
#23
报错信息:
Failed to check observer accessible, reason:[AgentClient]:http request is failed, response:Unexpected error: dial tcp 127.0.0.1:2881: connect: connection refused, cause:null
1、麻烦提供一下 observer 的日志(observer.log),ocp 的日志只显示了 observer 没启动
2、ps -ef | grep observer
3、看看是不是自动获取网卡的ip有问题
1 个赞
旭辉
#24
你在 10.0.104.32,10.0.104.33上分别执行
netstat -alntp|grep 62888
截图发下
ocp上下载完整的任务日志发下
1、
observer.log 日志已在提问的最初提供,请回到问题的前面获取。
2、3台OB进程情况如下
[root@ob32 ~]# ps aux | grep observer
admin 42671 15.2 7.9 2004316 1286176 ? Ssl Sep28 524:53 /home/admin/oceanbase/bin/observer -I 10.0.104.32 -p 2881 -P 2882 -n mydb -z zone1 -d /home/admin/oceanbase/store/mydb -l info -oobconfig_url=http://10.0.104.30:8080/services?Action=ObRootServiceInfo&User_ID=alibaba&UID=ocpmaster&ObRegion=mydb,rootservice_list=10.0.104.32:2882:2881;10.0.104.33:2882:2881;10.0.104.34:2882:2881,config_additional_dir=/data/log1/mydb/etc2;/data/1/mydb/etc3,cluster_id=1727173807,
root 71480 0.0 0.0 112812 968 pts/1 S+ 09:30 0:00 grep --color=auto observer
[root@ob33 ~]# ps aux | grep observer
root 8348 0.0 0.0 112812 972 pts/1 S+ 09:25 0:00 grep --color=auto observer
[root@ob34 ~]# ps aux | grep observer
root 85385 0.0 0.0 112812 972 pts/1 S+ 09:26 0:00 grep --color=auto observer
3、3台机器IP addr 命令输出如下
[root@ob32 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:dd:53 brd ff:ff:ff:ff:ff:ff
inet 10.0.104.32/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:dd53/64 scope link
valid_lft forever preferred_lft forever
[root@ob33 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:4d:c2 brd ff:ff:ff:ff:ff:ff
inet 10.0.104.33/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:4dc2/64 scope link
valid_lft forever preferred_lft forever
[root@ob34 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:28:ba brd ff:ff:ff:ff:ff:ff
inet 10.0.104.34/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:28ba/64 scope link
valid_lft forever preferred_lft forever
1:截图如下
2:ocp任务日志如下
log_task_2447 (1).zip (56.6 KB)
淇铭
#27
发一下安装报错的时候那两个节点的observe.log的日志文件 你配置的集群资源是多少呀 能提供一下配置文件么
淇铭
#30
33和34节点上报的这个错[errcode=-4006] clock generator not inited
时钟有差异 可能导致的启动失败 检查一下时间看看是不是有问题
淇铭
#34
看你发的配置文件不对 你应该找错了 如果你的目录一样的话 就在这个下面二进制文件 strings /home/admin/oceanbase/etc/observer.config.bin
1 个赞
旭辉
#37
检查下 30,32,33,34 四个服务器防火墙是否关闭了以及是否有其它网络策略
1 个赞
确认这4台防火墙都未启动(见下图)




网络这块除未使用默认的22这个ssh端口外(担心22端口容易被攻击,将os的ssh端口改成 10001),其他都是正常配置(且这4台机器之前成功部署过ocp 4.2.x 和 oceanbase 4.2.x 系列,后面见到出了 4.3.x版本就去升级的ocp到4.3.x 并删除4.2.x版本的oceabase(因为不支持升级到4.3.x),新装ob 4.3.x版本到了第20步卡住,没办法才将ocp及oceanbase 都卸了重新安装 4.3.x,但是没想到还是卡在第20步),感觉 ob 4.3.x 有bug 不兼容我现在的CentOS Linux release 7.7.1908 (Core)
1 个赞
旭辉
#39
目前还没有遇到过这个问题,我们尝试复现下,有进展回复你
1 个赞
旭辉
#40
这个问题没有复现出来,
分析日志看到,33,34节点的observer没能成功启动并且每次安装初始化只持续不到1s就没日志打印了,看起来是还没初始化结束 进程突然断了 然后又手动重新安装了。
麻烦在33,34其中任意一节点直接 ./bin/observer 启动发下日志
1 个赞
因为无法安装已经回滚了,然后重新安装 ocp 4.2.x 和 oceanbase 4.2.x 非常顺利(一点问题都没有遇到),但是安装OB4.3.x 一次也没有安装成功过,感觉就是 ob 4.3.x 有bug 不兼容我现在的CentOS Linux release 7.7.1908 (Core)
3 个赞