通过OCP安装OB报错 Unexpected error: dial tcp 127.0.0.1:2881: connect: connection refused

完整的cop中创建集群的日志.txt (331.8 KB)

报错信息:
Failed to check observer accessible, reason:[AgentClient]:http request is failed, response:Unexpected error: dial tcp 127.0.0.1:2881: connect: connection refused, cause:null

1、麻烦提供一下 observer 的日志(observer.log),ocp 的日志只显示了 observer 没启动

2、ps -ef | grep observer

3、看看是不是自动获取网卡的ip有问题

1 个赞

你在 10.0.104.32,10.0.104.33上分别执行

netstat -alntp|grep 62888

截图发下

ocp上下载完整的任务日志发下

1、
observer.log 日志已在提问的最初提供,请回到问题的前面获取。

2、3台OB进程情况如下
[root@ob32 ~]# ps aux | grep observer
admin 42671 15.2 7.9 2004316 1286176 ? Ssl Sep28 524:53 /home/admin/oceanbase/bin/observer -I 10.0.104.32 -p 2881 -P 2882 -n mydb -z zone1 -d /home/admin/oceanbase/store/mydb -l info -oobconfig_url=http://10.0.104.30:8080/services?Action=ObRootServiceInfo&User_ID=alibaba&UID=ocpmaster&ObRegion=mydb,rootservice_list=10.0.104.32:2882:2881;10.0.104.33:2882:2881;10.0.104.34:2882:2881,config_additional_dir=/data/log1/mydb/etc2;/data/1/mydb/etc3,cluster_id=1727173807,
root 71480 0.0 0.0 112812 968 pts/1 S+ 09:30 0:00 grep --color=auto observer

[root@ob33 ~]# ps aux | grep observer
root 8348 0.0 0.0 112812 972 pts/1 S+ 09:25 0:00 grep --color=auto observer

[root@ob34 ~]# ps aux | grep observer
root 85385 0.0 0.0 112812 972 pts/1 S+ 09:26 0:00 grep --color=auto observer

3、3台机器IP addr 命令输出如下
[root@ob32 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:dd:53 brd ff:ff:ff:ff:ff:ff
inet 10.0.104.32/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:dd53/64 scope link
valid_lft forever preferred_lft forever

[root@ob33 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:4d:c2 brd ff:ff:ff:ff:ff:ff
inet 10.0.104.33/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:4dc2/64 scope link
valid_lft forever preferred_lft forever

[root@ob34 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:28:ba brd ff:ff:ff:ff:ff:ff
inet 10.0.104.34/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:28ba/64 scope link
valid_lft forever preferred_lft forever

1:截图如下

2:ocp任务日志如下
log_task_2447 (1).zip (56.6 KB)

发一下安装报错的时候那两个节点的observe.log的日志文件 你配置的集群资源是多少呀 能提供一下配置文件么

3台OB日志如下
observer-33.log (1.3 MB)
observer-34.log (1.3 MB)
observer -32.zip (18.3 MB)

3台OB的配置文件如下
oceanbase-32.cnf.txt (779 字节)
oceanbase-33.cnf.txt (779 字节)
oceanbase-34.cnf.txt (779 字节)

3台机器都是 8核,16G内存

33和34节点上报的这个错[errcode=-4006] clock generator not inited
时钟有差异 可能导致的启动失败 检查一下时间看看是不是有问题

检查了时间没有问题
3台OB机器时间如下
image
image
image

ocp机器时间如下:
image

这三台服务器的磁盘 是机械盘还是ssd盘

1 个赞

都是是 ssd(包含ocp机器)

1 个赞

看你发的配置文件不对 你应该找错了 如果你的目录一样的话 就在这个下面二进制文件 strings /home/admin/oceanbase/etc/observer.config.bin

1 个赞

我在你说的目录下没有找到你说的文件,见下图

我的配置文件是从如下目前中拿的(见红框)

1 个赞

检查下 30,32,33,34 四个服务器防火墙是否关闭了以及是否有其它网络策略

1 个赞

确认这4台防火墙都未启动(见下图)
image

image

image

image

网络这块除未使用默认的22这个ssh端口外(担心22端口容易被攻击,将os的ssh端口改成 10001),其他都是正常配置(且这4台机器之前成功部署过ocp 4.2.x 和 oceanbase 4.2.x 系列,后面见到出了 4.3.x版本就去升级的ocp到4.3.x 并删除4.2.x版本的oceabase(因为不支持升级到4.3.x),新装ob 4.3.x版本到了第20步卡住,没办法才将ocp及oceanbase 都卸了重新安装 4.3.x,但是没想到还是卡在第20步),感觉 ob 4.3.x 有bug 不兼容我现在的CentOS Linux release 7.7.1908 (Core)

1 个赞

目前还没有遇到过这个问题,我们尝试复现下,有进展回复你

1 个赞

这个问题没有复现出来,

分析日志看到,33,34节点的observer没能成功启动并且每次安装初始化只持续不到1s就没日志打印了,看起来是还没初始化结束 进程突然断了 然后又手动重新安装了。

麻烦在33,34其中任意一节点直接 ./bin/observer 启动发下日志

1 个赞

解决了吗?我也遇到同样的问题了

2 个赞