ocp3.3.0接管obd部署的OB集群报错

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】3.1.3 ,ocp版本3.3.0
【问题描述】使用ocp接管obd部署的OB集群报错’无法找到端口号是2,882的 observer 进程’
实际上observer端口是存在的
其中第二台机器可以检测到observer节点是因为我手动kill掉observer进程又使用./bin/observer启动过

【附件】

你的问题我们已经收到,稍后会有相关同学回复你

您的 机器上的端口是 2882 吧 ? 并且最好是 admin 用户启动的 。

是2882,也是使用的admin启动的

有什么方式可以快速定位下吗

这个信息是ocp-server去调用agent来查询的,可以查一下ocp-agent中mgragent的日志,日志在/home/admin/ocp_agent/log/mgragent.log, 按照get process info这几个关键字搜索一下

没有报错,结果都是下图所示

日志不完整。你可以把这文件直接以附件形式上传上来吗?

mgragent-20230515.log (1.7 MB)

netstat -tunlp 2>/dev/null | { grep -w ‘2882/.*’ || true; } 用这个命令验证一下呢
看日志里没有port相关的信息,ocp端的逻辑是获取到processinfo的结果之后按照端口进行一次过滤,如果过滤不到就会报那个错

netstat -tunlp 2>/dev/null | { grep -w ‘2882/.*’ || true; } 执行该命令输出为空

不过直接执行netstat -tunlp有结果
image

2882 换成进程的pid试试呢

换成pid是有的

netstat -tunlp 2>/dev/null | { grep -w ‘27878/.*’ || true; }

tcp 0 0 0.0.0.0:2881 0.0.0.0:* LISTEN 27878/./bin/observe
tcp 0 0 0.0.0.0:2882 0.0.0.0:* LISTEN 27878/./bin/observe


一般输出的结果后面是pid/observer, 可以验证下,第二个好的机器是不是这样的结果,可以的话,可以逐个重启下进程