通过OCP安装OB报错 Unexpected error: dial tcp 127.0.0.1:2881: connect: connection refused

AntTech_PA48U2 · 2024 年9 月 27 日 18:44

AntTech_PA48U2 · 2024 年9 月 27 日 18:48

淇铭 · 2024 年9 月 29 日 09:52

报错信息：
Failed to check observer accessible, reason:[AgentClient]:http request is failed, response:Unexpected error: dial tcp 127.0.0.1:2881: connect: connection refused, cause:null

1、麻烦提供一下 observer 的日志(observer.log)，ocp 的日志只显示了 observer 没启动

2、ps -ef ｜ grep observer

3、看看是不是自动获取网卡的ip有问题

旭辉 · 2024 年9 月 29 日 10:45

你在 10.0.104.32，10.0.104.33上分别执行

netstat -alntp|grep 62888

截图发下

ocp上下载完整的任务日志发下

AntTech_PA48U2 · 2024 年9 月 30 日 09:32

1、
observer.log 日志已在提问的最初提供，请回到问题的前面获取。

2、3台OB进程情况如下
[root@ob32 ~]# ps aux | grep observer
admin 42671 15.2 7.9 2004316 1286176 ? Ssl Sep28 524:53 /home/admin/oceanbase/bin/observer -I 10.0.104.32 -p 2881 -P 2882 -n mydb -z zone1 -d /home/admin/oceanbase/store/mydb -l info -oobconfig_url=http://10.0.104.30:8080/services?Action=ObRootServiceInfo&User_ID=alibaba&UID=ocpmaster&ObRegion=mydb,rootservice_list=10.0.104.32:2882:2881;10.0.104.33:2882:2881;10.0.104.34:2882:2881,config_additional_dir=/data/log1/mydb/etc2;/data/1/mydb/etc3,cluster_id=1727173807,
root 71480 0.0 0.0 112812 968 pts/1 S+ 09:30 0:00 grep --color=auto observer

[root@ob33 ~]# ps aux | grep observer
root 8348 0.0 0.0 112812 972 pts/1 S+ 09:25 0:00 grep --color=auto observer

[root@ob34 ~]# ps aux | grep observer
root 85385 0.0 0.0 112812 972 pts/1 S+ 09:26 0:00 grep --color=auto observer

3、3台机器IP addr 命令输出如下
[root@ob32 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:dd:53 brd ff:ff:ff:ff:ff:ff
inet 10.0.104.32/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:dd53/64 scope link
valid_lft forever preferred_lft forever

[root@ob33 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:4d:c2 brd ff:ff:ff:ff:ff:ff
inet 10.0.104.33/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:4dc2/64 scope link
valid_lft forever preferred_lft forever

[root@ob34 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: ens32: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 00:50:56:8e:28:ba brd ff:ff:ff:ff:ff:ff
inet 10.0.104.34/16 brd 10.0.255.255 scope global noprefixroute ens32
valid_lft forever preferred_lft forever
inet6 fe80::250:56ff:fe8e:28ba/64 scope link
valid_lft forever preferred_lft forever

AntTech_PA48U2 · 2024 年9 月 30 日 09:38

1：截图如下

2：ocp任务日志如下
log_task_2447 (1).zip (56.6 KB)

淇铭 · 2024 年9 月 30 日 10:53

发一下安装报错的时候那两个节点的observe.log的日志文件你配置的集群资源是多少呀能提供一下配置文件么

AntTech_PA48U2 · 2024 年9 月 30 日 12:05

3台OB日志如下
observer-33.log (1.3 MB)
observer-34.log (1.3 MB)
observer -32.zip (18.3 MB)

3台OB的配置文件如下
oceanbase-32.cnf.txt (779 字节)
oceanbase-33.cnf.txt (779 字节)
oceanbase-34.cnf.txt (779 字节)

AntTech_PA48U2 · 2024 年9 月 30 日 12:07

3台机器都是 8核，16G内存

淇铭 · 2024 年9 月 30 日 13:46

33和34节点上报的这个错[errcode=-4006] clock generator not inited
时钟有差异可能导致的启动失败检查一下时间看看是不是有问题

AntTech_PA48U2 · 2024 年9 月 30 日 14:20

检查了时间没有问题
3台OB机器时间如下

ocp机器时间如下：

淇铭 · 2024 年9 月 30 日 14:21

这三台服务器的磁盘是机械盘还是ssd盘

AntTech_PA48U2 · 2024 年9 月 30 日 14:30

都是是 ssd（包含ocp机器）

淇铭 · 2024 年9 月 30 日 14:50

看你发的配置文件不对你应该找错了如果你的目录一样的话就在这个下面二进制文件 strings /home/admin/oceanbase/etc/observer.config.bin

AntTech_PA48U2 · 2024 年9 月 30 日 15:15

我在你说的目录下没有找到你说的文件，见下图

我的配置文件是从如下目前中拿的（见红框）

旭辉 · 2024 年9 月 30 日 16:12

检查下 30，32，33，34 四个服务器防火墙是否关闭了以及是否有其它网络策略

AntTech_PA48U2 · 2024 年9 月 30 日 16:33

确认这4台防火墙都未启动（见下图）

网络这块除未使用默认的22这个ssh端口外（担心22端口容易被攻击，将os的ssh端口改成 10001），其他都是正常配置（且这4台机器之前成功部署过ocp 4.2.x 和 oceanbase 4.2.x 系列，后面见到出了 4.3.x版本就去升级的ocp到4.3.x 并删除4.2.x版本的oceabase（因为不支持升级到4.3.x），新装ob 4.3.x版本到了第20步卡住，没办法才将ocp及oceanbase 都卸了重新安装 4.3.x，但是没想到还是卡在第20步），感觉 ob 4.3.x 有bug 不兼容我现在的CentOS Linux release 7.7.1908 (Core)

旭辉 · 2024 年9 月 30 日 16:54

目前还没有遇到过这个问题，我们尝试复现下，有进展回复你

旭辉 · 2024 年10 月 11 日 11:39

这个问题没有复现出来，

分析日志看到，33，34节点的observer没能成功启动并且每次安装初始化只持续不到1s就没日志打印了，看起来是还没初始化结束进程突然断了然后又手动重新安装了。

麻烦在33，34其中任意一节点直接 ./bin/observer 启动发下日志

林哈哈哈 · 2024 年10 月 25 日 19:03

解决了吗？我也遇到同样的问题了